DataMaster：2025年AI自主数据工程师榜单

2026-06-03阅读 0热度 0

传统AI研发流程高度依赖人工全流程干预：数据采集、清洗、训练脚本编写、实验设计均由人类完成，最终将处理好的数据集输入模型。

如今，范式已发生根本转变。

AI已深度嵌入研发环节：自动生成代码、修复缺陷、调用工具、执行实验，并能围绕既定目标反复迭代，将失败经验转化为下一轮优化的依据。

近年，这一趋势率先在代码与实验领域显现。编码智能体已实现软件开发流程的部分自动化；科研智能体也逐渐在长周期任务中持续探索、验证并修正研究方向。

然而，若要让AI真正参与AI训练，一个更基础的挑战无法回避：数据。

实际机器学习开发中，模型架构与训练流程通常保持稳定。选定基础模型、调通训练管线后，大幅改动意味着更高的成本、更长的验证周期以及额外的工程风险。真正频繁调整的反而是数据层面：样本选取、噪声过滤、清洗转换、多源组合，以及当训练效果不理想时，对规模、质量或分布的下一次调整。

换言之，随着模型与训练方法日趋标准化，数据已成为最现实且最具潜力的优化抓手。

上海交通大学、卡内基梅隆大学、浙江大学、北京航空航天大学等机构的联合研究，提出全新角色：AI数据工程师。

论文标题：DataMaster: Data-Centric Autonomous AI Research
项目地址：https://github.com/sjtu-sai-agents/DataMaster
论文地址：https://arxiv.org/abs/2605.10906

核心思路非常直接：智能体围绕指定任务，自动检索外部数据、筛选数据源、完成清洗与转换、构建训练输入，并根据下游模型反馈持续迭代优化。

关键在于，整个过程中模型与训练算法均保持不变。

DataMaster提出的问题并非“如何设计更强模型”，而是：当模型与训练流程固定时，AI能否通过自主准备更优质的数据，将模型性能继续推高？

为什么数据工程不能仅靠一次性生成

数据工程看似在“调整数据”，实则充满分支与递归。

第一，分支众多。同一任务，可以先寻找新数据，也可先清洗旧数据；可扩大数据规模，也可提升数据质量；可调整样本比例，也可修改输入格式。每一步选择都会衍生新的可能性。

第二，高度依赖前置决策。前期选择的数据直接影响后续清洗方法的有效性；前期构建的特征也会限制模型最终学到的内容。数据工程并非孤立操作，而是一连串相互影响的决策链。

第三，效果难以预判。一份数据看似相关，未必能带来训练收益；一次清洗看似合理，模型分数却可能不升反降。许多时候，只有完成完整训练与评估，才能确知数据改动是否奏效。

因此，DataMaster并未将数据工程视为一次性生成任务，而是将其转化为一条可分支、可回溯、可持续优化的搜索路径。

一棵数据树，一个数据池，一段全局记忆

为实现上述目标，DataMaster设计了三大核心组件：数据树、数据池与全局记忆。

数据树负责探索不同的数据改造路径。树中每个节点代表一次数据工程尝试。红色节点负责向外搜寻潜在数据源；黑色节点负责清洗、转换、组合数据，使之成为可训练的版本。二者分工类似数据团队中的“侦察兵”与“工程兵”：前者扩大搜索范围，后者将找到的数据转化为模型可用的训练输入。

数据池负责存储所有已发现的数据源。某个分支找到的数据不会仅服务于当前尝试，而是成为整个系统可复用的数据资产。后续节点可从中读取、组合并改造候选数据。

全局记忆则记录每次尝试的结果：使用了哪些数据、执行了何种处理、训练分数是否提升、失败原因是什么、哪些策略值得复用。后续系统决策无需从零开始。

三者协同，使DataMaster不再像一次性脚本，而更像一个持续积累经验的数据工程团队。

图 1：DataMaster框架图。数据树负责分支探索，数据池共享候选数据，全局记忆沉淀成功与失败经验。

仅调整数据，能带来多大提升？

DataMaster的核心实验并非证明“能自动跑流程”，而是验证数据侧的自主迭代本身就能创造真实增益。

论文在两个场景中完成了验证。

第一个场景是MLE-Bench Lite，更贴近传统机器学习工程：任务给定数据与初始训练方案，智能体不能随意修改训练代码，只能围绕数据执行选择、清洗、特征构造与格式适配。结果非常明确：初始方案的奖牌率为35.91%，DataMaster提升至68.18%，提高32.27个百分点；金牌率也从22.73%跃升至45.45%。

第二个场景是PostTrainBench，更贴近大模型后训练：基础模型固定，训练流程固定，且无现成训练数据，智能体必须自行发现并整理后训练数据。在此设定下，DataMaster将平均分从基础模型的8.47%提升至31.17%，涨幅22.70个百分点。与其他基线相比，同样取得最高平均分。

实验结果速览：

尤其值得关注的是GPQA上的表现。

GPQA是PostTrainBench中衡量高难度专业能力的关键任务，考察研究生级别的科学知识与推理能力，覆盖物理、化学、生物等领域，远非简单常识问答。在此任务中，DataMaster的GPQA分数从基础模型的18.75%一路攀升至31.02%。论文中的测试时扩展分析表明，这一提升并非一次性爆发，而是随着搜索预算增加逐步出现：DataMaster在迭代过程中不断发现并整合更相关的科学数据、推理数据以及MedQA数据，最终形成更适配GPQA的训练数据配置。

这一结果最具启发之处在于，DataMaster既未更换基础模型，也未重新设计训练算法。所做的仅仅是围绕数据侧持续试错：找什么数据、如何筛选、怎样组合、怎么适配训练。最终在GPQA上达到31.02%，超越专家训练的指令模型参考分数30.35%，同时高于Codex、DataFlex、ML-Master 2.0等基线在该任务上的成绩。

图 3：GPQA测试时扩展曲线。随着数据搜索与训练预算增加，DataMaster最佳节点分数持续上升，最终超过指令模型参考线。

当然，这并不代表DataMaster在所有能力上都超越人工后训练模型。从PostTrainBench整体平均分看，专家指令模型仍然更优。更准确的解读是：在GPQA这类需要专业科学数据与复杂推理能力的任务上，自动化数据工程已能发现足够有效的数据配置，使单项能力接近甚至超过人工设计的后训练数据参考。

为避免结果被误解为“训练数据泄露到测试集”，论文专门执行了GPQA数据泄漏检查：屏蔽benchmark与test-split相关来源、基于测试集哈希去重、记录外部数据来源与内容哈希。在发现的7479条训练样本中，未发现精确匹配或模糊匹配，3到5元词组重叠率仅维持在0.08%至1.06%的低水平。

图 2：不同大模型作为智能体底座时，DataMaster在PostTrainBench七项任务上的表现。

这也是DataMaster希望传递的核心信号：数据工程并非训练前的辅助步骤，也不是简单堆砌数据量。对于特定能力而言，关键在于能否找到更相关的数据、能否将不同来源的数据组织成模型易于学习的形式，以及能否根据训练反馈持续修正数据策略。

当数据也成为AI的决策对象

DataMaster的意义不仅在于提出一个新的智能体系统，更在于把一个长期被视为“前置准备”的环节，转化为AI可以主动搜索、比较、验证与复用的对象。

过去，数据通常被视为训练开始前就已准备好的资源。模型训练效果当然与数据有关，但数据工程本身往往被置于模型研发流程之外：先由人类收集、清洗、整理，再交给训练算法使用。

DataMaster改变了这一位置关系。在其设定中，数据不再是训练流程的单纯输入，而是进入了智能体的决策循环：系统决定找什么数据、如何处理、如何组合，并根据下游反馈持续调整数据策略。这使“以数据为中心”的AI研发变得更加具体——不仅强调数据重要，更进一步追问：数据能否像代码、模型和实验一样被智能体持续优化？

当然，一旦数据工程走向自动化，新的问题也随之凸显。外部数据来源是否合规、是否污染测试集、能否追踪来源、系统为何选择这批数据而非另一批——这些都需要记录与审计。换言之，自主数据工程真正落地，不仅要让AI更会处理数据，还要让AI的数据决策过程本身变得透明、可控、可复盘。

这或许是DataMaster留下的更深层问题：当AI开始管理数据时，人类真正需要管理的，是AI管理数据的方式。

如果说过去的模型是在学习人类准备好的数据，那么DataMaster指向的是下一步：AI开始参与决定自己应该学习哪些数据。这也正是它最值得关注之处。

DataMaster：2025年AI自主数据工程师榜单

为什么数据工程不能仅靠一次性生成

一棵数据树，一个数据池，一段全局记忆

仅调整数据，能带来多大提升？

当数据也成为AI的决策对象

相关阅读

最新教程

最新资讯