天工AI大模型微调入门:训练数据集准备全攻略

2026-06-22阅读 0热度 0
AI大模型

要用天工AI大模型落地垂直业务场景——比如自动生成金融财报或辅助医疗问诊。直接调用原生模型,输出生硬、术语不精准、逻辑断层。问题不在模型本身,而在它没见过你业务里的真实数据表达。所以,制作一份高质量训练数据集,是让天工模型真正“理解你行业语言”的前提。不是凑几百条文本就够,而是每条数据都要成为模型认知你业务的关键锚点。

天工AI大模型微调入门:如何准备训练数据集教程

明确微调目标并锁定数据范围

别急着收集数据。拿个笔记本,写下三个核心问题:模型需要在哪个具体场景输出?用户会用什么方式提问?回答必须包含哪些关键要素?比如财报分析里的同比/环比计算,或者诊断结论里的置信等级标注,都要提前确认。

举个实际案例:要做法律文书助手,就别泛泛收集“合同范本”。目标必须精确到“小微企业房屋租赁纠纷调解书终稿”,且输出必须强制包含“双方诉求→证据链→法条引用→调解建议”四个环节。目标一旦模糊,后续所有数据清洗和标注都会走偏。

把答案整理成一句话需求描述,直接贴在项目根目录README.md的第一行——这就是后续所有操作的唯一校验基准。

数据来源与合法性筛查

方式一:自有业务数据(首选)。从客服对话日志、内部知识库、已结案件文档中提取原始素材。注意必须脱敏:用正则批量替换身份证号、手机号、企业全称,只保留行业属性,比如“某三甲医院”而非“北京协和医院”。

方式二:公开数据集补充。只选Hugging Face上带CC-BY-SA 4.0或MIT协议的数据集。下载前逐条核对许可证条款——天工最新文档明确要求,训练数据不得包含GPL类传染性协议内容。

方式三:合成数据(慎用)。可以用天工API生成初稿,但必须由领域专家人工重写并校验。千万别直接把合成数据当训练集主体,否则模型会学出“自说自话”的幻觉逻辑。

提醒一下:爬虫获取的网页数据一律弃用。天工平台审核时会检测User-Agent和Referer头字段,一旦触发风控,微调任务会直接终止。

清洗与格式化实操步骤

这步最关键,直接按下面步骤执行:

第一步:去重。用simhash算法计算文本指纹,阈值设为0.95。默认0.9太宽松,会漏掉语义相同但措辞差异大的样本。

第二步:噪声过滤。删除含有“【系统提示】”、“#ERROR#”这类非人类表达的整行数据。保留中文标点,但必须移除连续3个以上的感叹号或问号(比如“!!!”),这些属于情绪噪音。

第三步:长度截断。指令微调数据单条总长不超过2048 token。超长就从末尾反向裁剪,确保答案部分完整保留——模型更关注结尾的输出。

第四步:强制UTF-8 BOM清除。用VS Code打开文件,检查右下角编码显示。如果显示“UTF-8 with BOM”,立即切换为单纯的“UTF-8”。否则天工训练器读取时会报错“invalid start byte”。

标注规范与JSONL转换

天工只接受JSONL格式,每行一个JSON对象。字段必须包含instruction、input、output三项:

• instruction:任务指令,用自然语言描述。例如:“请根据患者主诉和检查结果,生成门诊诊断意见,需包含疾病名称、ICD编码、处置建议三部分”

• input:实际输入文本。例如:“女,62岁,主诉:反复上腹痛3月,加重1周。胃镜示胃窦溃疡,活检病理:低分化腺癌。”

• output:标准答案。例如:“诊断:胃窦低分化腺癌(ICD-10:C16.3)。处置:立即转肿瘤科会诊,完善腹部增强CT及PET-CT评估分期。”

标注时先用Excel管理原始数据,确认无误后,运行以下Python脚本转换:
import json
with open('data.xlsx', 'rb') as f:
df = pd.read_excel(f)
with open('train.jsonl', 'w', encoding='utf-8') as f:
for _, row in df.iterrows():
f.write(json.dumps({
'instruction': str(row['instruction']),
'input': str(row['input']),
'output': str(row['output'])
}, ensure_ascii=False) + '\n')

特别注意:output字段内禁止出现markdown符号,比如**加粗**或```代码块。天工会将其解析为无效token。

验证集构建与分布检查

① 按7:2:1的比例切分训练集、验证集、测试集。切分前先按instruction字段聚类,确保同类指令均匀分布到三组中。别让验证集全是“写邮件”而训练集全是“写报告”。

② 验证集必须包含3种典型错误样本:
a) 输入含歧义表述,比如“这个方案行不行?”但没有指明方案编号。
b) 输出缺失必填字段,比如诊断意见缺了ICD编码。
c) 专业术语错误,比如把“心肌梗死”写成“心肌梗塞”。
这些样本要人工标注为“bad_case”,上传时记得勾选“启用bad_case增强”选项。

③ 运行天工平台内置校验工具:登录控制台,进入“数据集管理”,选择刚上传的JSONL文件,点击“结构校验”。等待10秒后查看report.json,重点检查“output_token_count_stddev”值。如果这个值大于85,说明答案长度波动过大,需要重新平衡样本复杂度。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策