2024 年 8 月 21 日消息,天眼查知识产权信息显示,北京深势科技有限公司取得一项名为“一种对大语言模型微调数据集进行优化的处理方法和装置“,授权公告号 CN118260429B ,申请日期为 2024 年 5 月 。
专利摘要显示,本发明实施例涉及一种对大语言模型微调数据集进行优化的处理方法和装置,所述方法包括:初始化第一样本库;基于第一样本评分模型对第一样本库的各样本记录的所有评分字段进行设置;基于第一样本标签模型对第一样本库的各样本记录的标签集字段进行设置;基于样本标签对第一样本库的所有样本记录进行聚类得到多个第一类标签记录簇;以预设的数据分布指标集为参考根据得到的所有第一类标签记录簇和第一样本库进行微调数据集构建得到对应的第一微调数据集。通过本发明可以提高微调数据集的数据质量。