天工AI大模型微调入门：训练数据集准备全攻略

2026-06-22阅读 0热度 0

AI大模型

要用天工AI大模型落地垂直业务场景——比如自动生成金融财报或辅助医疗问诊。直接调用原生模型，输出生硬、术语不精准、逻辑断层。问题不在模型本身，而在它没见过你业务里的真实数据表达。所以，制作一份高质量训练数据集，是让天工模型真正“理解你行业语言”的前提。不是凑几百条文本就够，而是每条数据都要成为模型认知你业务的关键锚点。

明确微调目标并锁定数据范围

别急着收集数据。拿个笔记本，写下三个核心问题：模型需要在哪个具体场景输出？用户会用什么方式提问？回答必须包含哪些关键要素？比如财报分析里的同比/环比计算，或者诊断结论里的置信等级标注，都要提前确认。

举个实际案例：要做法律文书助手，就别泛泛收集“合同范本”。目标必须精确到“小微企业房屋租赁纠纷调解书终稿”，且输出必须强制包含“双方诉求→证据链→法条引用→调解建议”四个环节。目标一旦模糊，后续所有数据清洗和标注都会走偏。

把答案整理成一句话需求描述，直接贴在项目根目录README.md的第一行——这就是后续所有操作的唯一校验基准。

数据来源与合法性筛查

方式一：自有业务数据（首选）。从客服对话日志、内部知识库、已结案件文档中提取原始素材。注意必须脱敏：用正则批量替换身份证号、手机号、企业全称，只保留行业属性，比如“某三甲医院”而非“北京协和医院”。

方式二：公开数据集补充。只选Hugging Face上带CC-BY-SA 4.0或MIT协议的数据集。下载前逐条核对许可证条款——天工最新文档明确要求，训练数据不得包含GPL类传染性协议内容。

方式三：合成数据（慎用）。可以用天工API生成初稿，但必须由领域专家人工重写并校验。千万别直接把合成数据当训练集主体，否则模型会学出“自说自话”的幻觉逻辑。

提醒一下：爬虫获取的网页数据一律弃用。天工平台审核时会检测User-Agent和Referer头字段，一旦触发风控，微调任务会直接终止。

清洗与格式化实操步骤

这步最关键，直接按下面步骤执行：

第一步：去重。用simhash算法计算文本指纹，阈值设为0.95。默认0.9太宽松，会漏掉语义相同但措辞差异大的样本。

第二步：噪声过滤。删除含有“【系统提示】”、“#ERROR#”这类非人类表达的整行数据。保留中文标点，但必须移除连续3个以上的感叹号或问号（比如“！！！”），这些属于情绪噪音。

第三步：长度截断。指令微调数据单条总长不超过2048 token。超长就从末尾反向裁剪，确保答案部分完整保留——模型更关注结尾的输出。

第四步：强制UTF-8 BOM清除。用VS Code打开文件，检查右下角编码显示。如果显示“UTF-8 with BOM”，立即切换为单纯的“UTF-8”。否则天工训练器读取时会报错“invalid start byte”。

标注规范与JSONL转换

天工只接受JSONL格式，每行一个JSON对象。字段必须包含instruction、input、output三项：

• instruction：任务指令，用自然语言描述。例如：“请根据患者主诉和检查结果，生成门诊诊断意见，需包含疾病名称、ICD编码、处置建议三部分”

• input：实际输入文本。例如：“女，62岁，主诉：反复上腹痛3月，加重1周。胃镜示胃窦溃疡，活检病理：低分化腺癌。”

• output：标准答案。例如：“诊断：胃窦低分化腺癌（ICD-10：C16.3）。处置：立即转肿瘤科会诊，完善腹部增强CT及PET-CT评估分期。”

标注时先用Excel管理原始数据，确认无误后，运行以下Python脚本转换：
import json
with open('data.xlsx', 'rb') as f:
df = pd.read_excel(f)
with open('train.jsonl', 'w', encoding='utf-8') as f:
for _, row in df.iterrows():
f.write(json.dumps({
'instruction': str(row['instruction']),
'input': str(row['input']),
'output': str(row['output'])
}, ensure_ascii=False) + '\n')
特别注意：output字段内禁止出现markdown符号，比如**加粗**或```代码块。天工会将其解析为无效token。

验证集构建与分布检查

① 按7:2:1的比例切分训练集、验证集、测试集。切分前先按instruction字段聚类，确保同类指令均匀分布到三组中。别让验证集全是“写邮件”而训练集全是“写报告”。

② 验证集必须包含3种典型错误样本：
a) 输入含歧义表述，比如“这个方案行不行？”但没有指明方案编号。
b) 输出缺失必填字段，比如诊断意见缺了ICD编码。
c) 专业术语错误，比如把“心肌梗死”写成“心肌梗塞”。
这些样本要人工标注为“bad_case”，上传时记得勾选“启用bad_case增强”选项。

③ 运行天工平台内置校验工具：登录控制台，进入“数据集管理”，选择刚上传的JSONL文件，点击“结构校验”。等待10秒后查看report.json，重点检查“output_token_count_stddev”值。如果这个值大于85，说明答案长度波动过大，需要重新平衡样本复杂度。

天工AI大模型微调入门：训练数据集准备全攻略

明确微调目标并锁定数据范围

数据来源与合法性筛查

清洗与格式化实操步骤

标注规范与JSONL转换

验证集构建与分布检查

相关阅读

最新教程

最新资讯