蚂蚁西湖大学联手AI自训练:模型自主出题破解数据不足

2026-06-23阅读 0热度 0
AI训练

这项由蚂蚁集团Inclusion AI、浙江大学、上海创新研究院与西湖大学联合推进的研究,以预印本形式于2026年6月17日公开,论文编号为arXiv:2606.19047。

一、静态题库的"能力边界"困境

设想你在备战一场数学考试,教练手中有500道练习题。起初每道题都让你绞尽脑汁,但通过反复刷题、订正、反思,你进步神速。一旦这500道题被你完全吃透,重复刷题就成了无效劳动——要么瞬间秒杀,要么无从下手,两种极端都无法再推动你成长。此时,教练要么拿出新题,要么只能看着你的备考进度陷入僵局。

这正是当前大语言模型训练面临的核心痛点。研究人员正着力训练一类名为"多轮工具调用智能体"的AI——直白点说,就是一个能通过多轮对话、灵活调用天气查询、股票分析、文件操作等外部工具,帮用户完成复杂任务的智能助手。此类AI的训练极度依赖高质量的多轮对话数据,但这类数据极其稀缺。例如,业界标杆数据集BFCL V3的测试集仅有800条样本——对于模型训练而言,这简直是杯水车薪。

更棘手的是,随着模型能力迭代,原始训练数据会逐渐变得"过于简单"或"过于困难",就像那500道题被刷穿后的困境。这背后隐藏着一个深刻的数学规律:在强化学习训练中,真正驱动模型进步的并非"全对"或"全错"的样本,而是那些处于"会"与"不会"的模糊地带——模型时对时错的题目。这类题目能让训练算法从成功与失败的对比中提炼出最丰富的学习信号。一旦题库里全是"全对"或"全错",训练信号就会像干涸的井,再努力也挤不出水。

研究团队将这一现象命名为"能力边界的漂移":随着模型变强,那条介于会与不会的边界线会持续向更高难度偏移,而静态训练数据集根本无法跟上这条移动的边界。

针对这一困境,研究团队提出了一个名为RODS(Reward-driven Online Data Synthesis,奖励驱动的在线数据合成)的解决方案。其核心思路简洁而精妙:让训练系统在学习的同时,实时生成新题,且新题的难度始终精准锁定在模型当前的能力边界上——既不过难,也不过易。

二、"最优学习区间"的数学基础

在深入拆解RODS的工作机制前,有必要先理解一个关键的数学洞察,因为整个方案都建立在此之上。

模型训练采用了一种名为"强化学习"的方法,具体算法是GRPO。每次训练时,模型会对同一道题生成16个不同的答案,然后依据这16个答案的得分情况来更新参数,学习"哪种做法得分更高"。关键在于:如果16个答案全都正确(说明题目太简单),模型几乎学不到东西——它早已掌握了正确解法;如果16个答案全都错误(说明题目太难),模型同样无法学习——它根本无从下手,无法从失败中提取有效信号。真正有价值的,是那些答案参差不齐、有对有错的题目——模型能清晰地看到"哪些行为带来成功,哪些导致失败",从而提取最丰富的改进信号。

这背后有一个数学定理作为支撑:Popoviciu不等式指出,一个取值在0到1之间的变量,其方差上限为μ×(1-μ)——这个函数在μ=0.5时取到最大值。用通俗的话来说:当一道题的成功率恰好接近50%时,模型的学习信号最强。研究团队通过实验验证了这一数学直觉:在实际训练中,他们收集了4800个任务样本的统计数据,发现处于"边界区域"(成功率在25%到75%之间)的任务,其奖励方差比"太简单"或"太难"的任务高出2到2.2倍。这意味着,每道边界题所产生的学习价值,是其他类型题目的两倍以上。

这个洞察的精妙之处在于,发现这些"最优学习区间"的任务完全不需要额外的计算成本——因为训练过程本身就需要对每道题进行16次推理来计算优势值,这些数据天然就包含了判断一道题是否处于能力边界所需的全部信息。RODS只是将这些已有的信号重新利用起来,扮演"题目难度探测器"的角色。

三、RODS的三大核心模块——侦察、仿制、管理

整个RODS系统可以被形象地理解为一个能够自我进化的智能题库管理系统。该系统包含三个紧密协作的部门:第一个部门负责实时侦察当前模型的能力边界;第二个部门负责根据边界题目快速仿制出结构相似但内容全新的练习题;第三个部门则负责维护一个动态更新的"活跃题库",确保题库内的题目始终处于最有价值的状态。

能力边界侦察部门:实时定位"最佳学习区"

在每一步训练过程中,系统都在悄悄给题库里的每道题打上一个"价值分数"——具体来说,就是计算这道题在最近几次训练中的平均进度奖励值。研究团队将训练数据按此分数划分为三个区域:平均分超过0.85的题目归为"已掌握区",这类题目过于简单,模型已能稳定做对,继续训练毫无意义;平均分低于0.20的题目归为"暂时触不到区",对当前模型而言过于超前,强行练习只会浪费资源;平均分介于两者之间的题目,则是黄金地带——"能力边界区",这里的题目才是生成新题的原材料。

在选取边界题目时,系统还引入了一项精细的配额管理:按照题目类型进行分配,确保每次选出的新种子题在不同题型上保持均衡覆盖,防止系统对某一类题型产生偏好而忽视其他类型。在每种题型内部,则按成功率最接近50%的原则排序优先选取。此外,系统还设置了一个"时间隔离窗口":同一道题在被选为种子题后的若干训练步内不会被重复选中,避免反复基于同一道题生成变体题而导致多样性不足。

仿制部门:五阶段流水线造新题

找到边界种子题之后,仿制工作才是真正的技术难点。如果只是简单地替换几个数字或名称,生成的新题会缺乏多轮对话之间的逻辑连贯性——就像将一部完整电影的几个场景随机拼凑在一起,画面虽真,但故事毫无意义。研究团队将这一问题定义为"语义脱节",并专门设计了一套五阶段多智能体流水线来解决它。

这套流水线的核心思路是"骨架不变,血肉全新"——保留原题的API调用拓扑结构(例如,需要先调用工具A获取数据,再将此数据作为参数传递给工具B,这样的依赖关系链条保持不变),但在此骨架上重新生成全新的故事背景、参数值和自然语言描述。

第一阶段由"规划智能体"负责,它读入种子题,从可用的API函数库中为新题规划出一个结构相近的函数调用序列,同时创作一个统一的叙事背景(比如"用户张明想要查询股票后进行交易"),并记录历史失败经验,避免在新题中重蹈覆辙。

第二阶段由"执行编排智能体"负责,它将规划好的函数序列放入一个模拟执行环境中真实运行,生成包含完整地面真实值的原始轨迹。若执行过程中遇到错误,系统会触发一个双路修复机制:一方面,"配置修补智能体"会分析环境状态中的问题(例如账户余额不足、市场状态关闭等),生成修补指令;另一方面,规划智能体收到失败函数的黑名单,重新规划一条避开障碍的路径。此修复循环最多尝试三次。

第三阶段是整个流水线中最关键的"全局语义渲染"步骤,由"重写智能体"负责。该智能体的特别之处在于,它不是逐轮独立生成用户提问,而是一次性查看全部轮次的函数调用,然后以第一阶段创作的叙事背景为主线,同时生成所有轮次的自然语言提问。这种"上帝视角"的生成方式确保了整个对话中存在自然的前后引用和逻辑衔接——就像一个作者先构思好整个故事再逐段写作,而非每次只盯着眼前一段往下写。

第四阶段是严格的质量把关,由"评判智能体"按照五项标准逐一检验:每轮用户提问是否与该轮的函数调用意图严格对应;参数值是否与环境配置一致;跨轮次是否有合理的状态演进;提问是否像真实用户的自然语言而非技术文档;特殊场景(如缺少某个工具、参数不明确需要追问)的结构是否正确体现。如果某条数据被拒绝,系统会进一步诊断问题出在用户提问的措辞上还是地面真实答案本身有误——前者可通过重写修复,后者则直接丢弃该数据。

第五阶段是可选的"对抗增强"步骤,专门为缺少某类工具或参数不完整的题型注入结构性的例外情况,强迫模型学会在工具不可用或信息不足时恰当地拒绝执行或请求澄清,而不是蒙混作答。

管理部门:活跃题库的动态生命周期

新题生成后,如何管理这个持续扩充的题库同样大有讲究。研究团队设计了一套双重控制机制。

在扩充侧,新生成的题目不会立即投入训练,而是先放入候选队列,在每个训练轮次结束时才批量注入活跃题库。每次注入的量被严格限制在当前活跃题库大小的20%以内,防止一次性涌入过多新数据打乱训练节奏,导致模型不稳定。

在淘汰侧,系统设置了三道"退休"机制。第一道是入门筛查:刚注入的新题会先经过一轮测试,如果初始得分低于门槛值,说明这道题对当前模型来说还是太难,直接淘汰。第二道是边界漂移驱逐:随着训练进行,某些题目可能从边界区漂移到"已掌握区"或"暂时触不到区",这些题目也会被及时清出题库。第三道是容量上限控制:当题库超过最大容量时,按照每道题的奖励方差从低到高的顺序淘汰,保留最具学习价值的题目。此外,长期未被抽取参与训练的题目也会被标记为"过时数据"并清除,防止无效数据积压。

系统还有一条硬性保护规则:最初的400道人类标注的种子题永远不会被淘汰,它们是整个系统的锚点,确保生成的新题不会偏离真实数据的分布。

四、400道种子题 vs. 17000道数据集:效果近乎持平

实验结果是整篇论文中最令人印象深刻的部分。研究团队在业界公认的多轮工具调用基准测试BFCL V3上进行了系统性评估,测试包含四类任务:基础多轮调用、缺少某个工具时的应对、参数信息不完整时的追问、以及长对话中的上下文维持。

研究团队将RODS与两条基准线进行了公平对比:三种方法都使用相同的400道种子训练题、相同的GRPO训练配置和相同的进度奖励函数,唯一的区别在于面对梯度信号枯竭时的应对策略。第一种是静态数据集训练(Static Dataset),完全依赖固定的400道题;第二种是EnvTuning,一种环境增强方法,不新增数据,但在模型答错时提供更丰富的反馈提示,帮助模型从同样的题目中榨取更多信号;第三种就是RODS。

以Qwen3-4B-Instruct模型为例,静态数据集训练的综合得分为50.00%,EnvTuning提升到50.50%,而RODS达到了56.00%——比静态训练高出整整6个百分点,比环境增强方法高出5.5个百分点。这个差距在四类子任务上均有体现,说明RODS的提升是全面的,而非只对某种特定题型有效。

更值得关注的是与大规模离线数据集的对比。研究团队将RODS与FunReason-MT-4B进行了横向比较,后者是用17000道离线合成数据训练出来的同等规模模型,代表了当前大规模数据合成方案的最高水准。RODS用400道种子题加上训练过程中动态生成的最多400道补充题(活跃题库最多约800道),取得了56.00%的综合得分,而FunReason-MT-4B的得分是56.50%。换句话说,RODS用大约1/20的数据量,达到了几乎相同的训练效果。在"缺少功能"和"缺少参数"这两个子类上,RODS甚至反超了FunReason-MT-4B。

在泛化能力测试上,研究团队还在三个完全不同的测试集上评估了模型:BFCL V4(包含网络搜索和记忆管理两类全新任务)、τ²-bench(零售、航空、电信等真实业务场景)、以及ACEBench智能体测试集。基于RODS训练的模型在所有这些测试集上都稳定优于同等数据量下的对比方法,这表明通过结构化同构合成出来的数据确实能让模型学到可迁移的推理能力,而不只是记住了训练数据的表面特征。

为了验证边界瞄准本身的价值,而不只是"多一些数据"的价值,研究团队设计了一个关键消融实验:将"从边界区选种子题"替换为"从整个题库随机选种子题"。结果显示,随机选种子的版本综合得分下降了4.75个百分点,说明边界定位而非数据数量是RODS有效的根本原因。

研究团队还系统地研究了数据量与效果的关系,将活跃题库的最大容量从0(即纯静态)逐步扩大到50、100、200、400。结果显示,即使只增加50道边界合成题(相当于仅扩充12%的数据量),模型效果也有明显提升;随着容量增加,效果持续改善,但到200以后开始出现明显的边际递减效应,说明400道原始种子题所覆盖的边界空间大约在200道变体之后就基本被覆盖完了。

五、系统内部发生了什么——数据空间的动态演化

为了让读者理解RODS为什么有效,研究团队还展示了训练过程中数据空间的实时变化情况,这些数据图像直观地展现了系统的内部运作逻辑。

随着训练步数从0推进到800步,活跃题库中的任务数量经历了一个有趣的动态变化:原始的400道静态题目构成基础底盘,随着模型能力提升,其中越来越多的题目被掌握并"退休";与此同时,系统持续生成新的边界题目注入进来,累计生成了超过800道独特的任务。全程活跃题库的大小被控制在400道左右的上限范围内,既保证了训练数据的新鲜度,又避免了题库无限膨胀带来的管理困难。

刚被注入的新合成题目的平均得分分布表明,它们稳定地落在0.25到0.75的边界区间内,说明仿制流水线确实成功地将新题的难度控制在了对当前模型最有价值的区间。这不是偶然发生的,而是结构化同构设计的直接结果——通过保留种子题的API调用拓扑结构,新题自然继承了与种子题相近的难度等级。

六、换一个合成大脑,效果几乎不变

RODS的合成流水线需要一个外部大语言模型来驱动各个智能体(规划、执行、重写、评判等)。默认配置使用的是Qwen3-32B。一个合理的疑问是:RODS的效果是否严重依赖这个特定模型的质量?

研究团队用GLM-4.5-Air替换了Qwen3-32B作为合成大脑,其他所有设置保持不变,重新跑了一遍完整的训练流程。结果显示,综合得分从56.00%下降到55.25%,差距仅为0.75个百分点。这个结果很有说服力:两个模型能力有差异,但RODS框架的骨架设计——边界检测、结构同构、动态题库管理——对合成引擎的质量波动有很强的鲁棒性。这意味着RODS不是一个严格依赖某个特定大模型能力的方案,而是一个框架性的方法,可以插入不同的生成引擎使用。

有趣的是,两个合成引擎在子任务上呈现出互补的特点:Qwen3-32B在基础类和缺少功能类任务上表现更好,而GLM-4.5-Air在缺少参数和长上下文类任务上略胜一筹。这个观察提示了一个潜在的优化方向:用多个不同合成引擎的组合来覆盖更广的结构多样性。

七、消融实验揭示的关键依赖

除了前面提到的边界选种实验,研究团队还系统地拆解了系统的其他关键组件,通过逐一"拔掉"某个模块来量化其贡献。

去掉全局语义重写(即各轮提问独立生成,没有统一叙事背景)之后,综合得分下降了5.13个百分点,这是所有消融实验中下降幅度最大的。更直观的指标是质量评判通过率:有重写时约63%的生成数据通过质量检验进入训练,去掉重写后这个比率骤降至12%,意味着大量生成的数据因语义脱节而被淘汰,系统可用数据量急剧萎缩。

去掉叙事规划(规划智能体不再创作统一故事背景)之后,得分下降3.63个百分点,说明故事背景在引导跨轮次连贯性方面发挥了重要作用,即使不做最终的重写也能提供部分保护。

去掉反馈修复循环(执行失败时直接随机重试而不积累修复信号)之后,得分下降2.13个百分点,这个下降相对温和,但也说明有反馈的定向重试比盲目重试更高效。

在题库管理侧,禁用三层退休机制之后,得分下降3.38个百分点,说明允许已掌握的题目持续留在题库中会稀释有效梯度信号,模型的学习资源被浪费在已经不能带来进步的题目上。将动态刷新改为"只在Stage 3开始时生成一批固定题目之后不再更新",得分下降2.88个百分点,进一步证明持续跟踪能力边界而非一次性生成补充数据是RODS有效性的关键要素之一。

八、从连续进度奖励到二值奖励

研究团队还有一个与众不同的设计选择值得特别提及:用"进度奖励"而非简单的"对/错"来衡量每道题的质量。进度奖励是一个0到1之间的连续数值,由每轮对话中环境状态执行正确率与工具调用成功率的乘积平均得到,能细粒度地反映模型在每道题上的部分完成程度。

用二值对错替换连续进度奖励作为边界检测信号时,综合得分下降了3.25个百分点。这个差距直观地说明了进度奖励的价值:对于复杂的多轮任务,一个模型可能能正确完成3轮中的2轮,用二值奖励会把这种部分正确计为"错误",而进度奖励能精确记录这种中间状态,从而更准确地定位能力边界,筛选出更有价值的种子题。

九、局限与未来方向

研究团队在论文中坦诚地指出了RODS当前的主要局限:整套系统依赖一个可以确定性执行并验证结果的模拟环境(用Python对象实现),这样才能保证合成出的数据是正确的。对于那些状态不透明的远程工具(比如通过网络调用的MCP服务器),当前的验证框架无法直接适用——因为你无法访问和控制这些外部服务的内部状态来验证执行结果。

研究团队表示,下一步将探索如何把模拟抽象层扩展到能够安全包装和交互有状态MCP端点的形式,让合成引擎能够在不直接访问底层内部状态的情况下捕获输入-观测动态。此外,多合成引擎集成的方向(用不同大模型分别合成不同类型的任务,然后集成到统一题库)也被列为值得探索的延伸方向。

说到底,RODS解决的是一个在AI训练领域普遍存在但之前缺乏系统化解决方案的问题:如何在训练过程中实时保持数据的"恰到好处"。这个方案的聪明之处在于它的零额外代价——所有用于判断题目价值的信息,都是训练过程本身必须计算的中间结果,RODS只是把这些信息重新利用了起来,不需要额外的标注人员、不需要额外的推理调用、也不需要手动设计课程安排。

归根结底,这项研究告诉我们一件事:在AI训练中,"在正确的地方投入资源"远比"投入更多资源"更重要。用精准瞄准边界的800道题,可以比用17000道随机分布的题取得相近甚至更好的效果——这对于那些数据稀缺、标注成本高昂的实际应用场景,是一个很有价值的方向性启示。

Q&A

Q1:RODS的"能力边界"是怎么判断的?

A:RODS利用强化学习训练本身已经计算好的奖励数据来判断边界。每道题在训练中会被跑16次推理,系统取这16次的平均进度奖励值:如果平均分在0.20到0.85之间,就认为这道题处于模型当前的能力边界——既不太简单(模型每次都对)也不太难(模型每次都错)。这种判断方式完全免费,不需要额外的计算开销。

Q2:RODS合成的题目如何保证多轮对话的逻辑连贯性?

A:RODS通过两个机制保证连贯性。首先,规划阶段会创作一个统一的叙事背景,比如"某用户想完成某项具体任务",让所有轮次的对话围绕同一个故事展开。其次,重写阶段一次性看到全部轮次的函数调用,再统一生成所有轮次的用户提问,而不是逐轮独立生成,这样能确保前后有自然的引用关系和逻辑演进。

Q3:RODS相比直接生成大规模数据集,成本上有什么差异?

A:RODS的合成计算成本大约等于训练本身的成本——训练用了8块A100 GPU跑约56小时,合成也用了同等规模的GPU同步运行。总成本约为896 GPU小时。相比之下,像FunReason-MT这类方案需要预先离线生成17000条数据,其合成成本在训练开始前就已大量投入,而且这17000条数据中很多在训练后期对模型来说已经没有学习价值。RODS的核心优势不在于绝对成本更低,而在于每一条数据的学习价值更高,最终用更少的有效数据量达到相近的训练效果。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策