DataMaster:2025年AI自主数据工程师榜单

2026-06-03阅读 0热度 0
ai

传统AI研发流程高度依赖人工全流程干预:数据采集、清洗、训练脚本编写、实验设计均由人类完成,最终将处理好的数据集输入模型。

如今,范式已发生根本转变。

AI已深度嵌入研发环节:自动生成代码、修复缺陷、调用工具、执行实验,并能围绕既定目标反复迭代,将失败经验转化为下一轮优化的依据。

近年,这一趋势率先在代码与实验领域显现。编码智能体已实现软件开发流程的部分自动化;科研智能体也逐渐在长周期任务中持续探索、验证并修正研究方向。

然而,若要让AI真正参与AI训练,一个更基础的挑战无法回避:数据。

实际机器学习开发中,模型架构与训练流程通常保持稳定。选定基础模型、调通训练管线后,大幅改动意味着更高的成本、更长的验证周期以及额外的工程风险。真正频繁调整的反而是数据层面:样本选取、噪声过滤、清洗转换、多源组合,以及当训练效果不理想时,对规模、质量或分布的下一次调整。

换言之,随着模型与训练方法日趋标准化,数据已成为最现实且最具潜力的优化抓手。

上海交通大学、卡内基梅隆大学、浙江大学、北京航空航天大学等机构的联合研究,提出全新角色:AI数据工程师。

  • 论文标题:DataMaster: Data-Centric Autonomous AI Research
  • 项目地址:https://github.com/sjtu-sai-agents/DataMaster
  • 论文地址:https://arxiv.org/abs/2605.10906

核心思路非常直接:智能体围绕指定任务,自动检索外部数据、筛选数据源、完成清洗与转换、构建训练输入,并根据下游模型反馈持续迭代优化。

关键在于,整个过程中模型与训练算法均保持不变。

DataMaster提出的问题并非“如何设计更强模型”,而是:当模型与训练流程固定时,AI能否通过自主准备更优质的数据,将模型性能继续推高?

为什么数据工程不能仅靠一次性生成

数据工程看似在“调整数据”,实则充满分支与递归。

第一,分支众多。同一任务,可以先寻找新数据,也可先清洗旧数据;可扩大数据规模,也可提升数据质量;可调整样本比例,也可修改输入格式。每一步选择都会衍生新的可能性。

第二,高度依赖前置决策。前期选择的数据直接影响后续清洗方法的有效性;前期构建的特征也会限制模型最终学到的内容。数据工程并非孤立操作,而是一连串相互影响的决策链。

第三,效果难以预判。一份数据看似相关,未必能带来训练收益;一次清洗看似合理,模型分数却可能不升反降。许多时候,只有完成完整训练与评估,才能确知数据改动是否奏效。

因此,DataMaster并未将数据工程视为一次性生成任务,而是将其转化为一条可分支、可回溯、可持续优化的搜索路径。

一棵数据树,一个数据池,一段全局记忆

为实现上述目标,DataMaster设计了三大核心组件:数据树、数据池与全局记忆。

数据树负责探索不同的数据改造路径。树中每个节点代表一次数据工程尝试。红色节点负责向外搜寻潜在数据源;黑色节点负责清洗、转换、组合数据,使之成为可训练的版本。二者分工类似数据团队中的“侦察兵”与“工程兵”:前者扩大搜索范围,后者将找到的数据转化为模型可用的训练输入。

数据池负责存储所有已发现的数据源。某个分支找到的数据不会仅服务于当前尝试,而是成为整个系统可复用的数据资产。后续节点可从中读取、组合并改造候选数据。

全局记忆则记录每次尝试的结果:使用了哪些数据、执行了何种处理、训练分数是否提升、失败原因是什么、哪些策略值得复用。后续系统决策无需从零开始。

三者协同,使DataMaster不再像一次性脚本,而更像一个持续积累经验的数据工程团队。

图 1:DataMaster框架图。数据树负责分支探索,数据池共享候选数据,全局记忆沉淀成功与失败经验。

仅调整数据,能带来多大提升?

DataMaster的核心实验并非证明“能自动跑流程”,而是验证数据侧的自主迭代本身就能创造真实增益。

论文在两个场景中完成了验证。

第一个场景是MLE-Bench Lite,更贴近传统机器学习工程:任务给定数据与初始训练方案,智能体不能随意修改训练代码,只能围绕数据执行选择、清洗、特征构造与格式适配。结果非常明确:初始方案的奖牌率为35.91%,DataMaster提升至68.18%,提高32.27个百分点;金牌率也从22.73%跃升至45.45%。

第二个场景是PostTrainBench,更贴近大模型后训练:基础模型固定,训练流程固定,且无现成训练数据,智能体必须自行发现并整理后训练数据。在此设定下,DataMaster将平均分从基础模型的8.47%提升至31.17%,涨幅22.70个百分点。与其他基线相比,同样取得最高平均分。

实验结果速览:

尤其值得关注的是GPQA上的表现。

GPQA是PostTrainBench中衡量高难度专业能力的关键任务,考察研究生级别的科学知识与推理能力,覆盖物理、化学、生物等领域,远非简单常识问答。在此任务中,DataMaster的GPQA分数从基础模型的18.75%一路攀升至31.02%。论文中的测试时扩展分析表明,这一提升并非一次性爆发,而是随着搜索预算增加逐步出现:DataMaster在迭代过程中不断发现并整合更相关的科学数据、推理数据以及MedQA数据,最终形成更适配GPQA的训练数据配置。

这一结果最具启发之处在于,DataMaster既未更换基础模型,也未重新设计训练算法。所做的仅仅是围绕数据侧持续试错:找什么数据、如何筛选、怎样组合、怎么适配训练。最终在GPQA上达到31.02%,超越专家训练的指令模型参考分数30.35%,同时高于Codex、DataFlex、ML-Master 2.0等基线在该任务上的成绩。

图 3:GPQA测试时扩展曲线。随着数据搜索与训练预算增加,DataMaster最佳节点分数持续上升,最终超过指令模型参考线。

当然,这并不代表DataMaster在所有能力上都超越人工后训练模型。从PostTrainBench整体平均分看,专家指令模型仍然更优。更准确的解读是:在GPQA这类需要专业科学数据与复杂推理能力的任务上,自动化数据工程已能发现足够有效的数据配置,使单项能力接近甚至超过人工设计的后训练数据参考。

为避免结果被误解为“训练数据泄露到测试集”,论文专门执行了GPQA数据泄漏检查:屏蔽benchmark与test-split相关来源、基于测试集哈希去重、记录外部数据来源与内容哈希。在发现的7479条训练样本中,未发现精确匹配或模糊匹配,3到5元词组重叠率仅维持在0.08%至1.06%的低水平。

图 2:不同大模型作为智能体底座时,DataMaster在PostTrainBench七项任务上的表现。

这也是DataMaster希望传递的核心信号:数据工程并非训练前的辅助步骤,也不是简单堆砌数据量。对于特定能力而言,关键在于能否找到更相关的数据、能否将不同来源的数据组织成模型易于学习的形式,以及能否根据训练反馈持续修正数据策略。

当数据也成为AI的决策对象

DataMaster的意义不仅在于提出一个新的智能体系统,更在于把一个长期被视为“前置准备”的环节,转化为AI可以主动搜索、比较、验证与复用的对象。

过去,数据通常被视为训练开始前就已准备好的资源。模型训练效果当然与数据有关,但数据工程本身往往被置于模型研发流程之外:先由人类收集、清洗、整理,再交给训练算法使用。

DataMaster改变了这一位置关系。在其设定中,数据不再是训练流程的单纯输入,而是进入了智能体的决策循环:系统决定找什么数据、如何处理、如何组合,并根据下游反馈持续调整数据策略。这使“以数据为中心”的AI研发变得更加具体——不仅强调数据重要,更进一步追问:数据能否像代码、模型和实验一样被智能体持续优化?

当然,一旦数据工程走向自动化,新的问题也随之凸显。外部数据来源是否合规、是否污染测试集、能否追踪来源、系统为何选择这批数据而非另一批——这些都需要记录与审计。换言之,自主数据工程真正落地,不仅要让AI更会处理数据,还要让AI的数据决策过程本身变得透明、可控、可复盘。

这或许是DataMaster留下的更深层问题:当AI开始管理数据时,人类真正需要管理的,是AI管理数据的方式。

如果说过去的模型是在学习人类准备好的数据,那么DataMaster指向的是下一步:AI开始参与决定自己应该学习哪些数据。这也正是它最值得关注之处。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策