Gensyn研究:AI批改作业批注比答案更重要

2026-06-17阅读 0热度 0
ai

这项研究来自Gensyn公司,发表于2026年6月,被收入ICML 2026 RL from World Feedback(RLxF)研讨会,论文编号arXiv:2606.11173v1。感兴趣的话,可以直接通过编号在arXiv上查阅全文。

当AI老师批改作业时,批注的方式比答案更重要——Gensyn研究团队的发现

想象一下这个场景:考试卷子发下来,老师只在最后写了个大大的“错”字,但没告诉你错在哪里。沮丧吗?当然,因为你根本不知道从何改起。可如果老师能一步步指出:第一步没问题,第二步也对,但第三步在这里漏掉了一个条件……这种有针对性的批注,显然会让你的进步快得多。

这个关于“批改方式”的朴素直觉,恰恰是这篇论文的核心发现。研究团队发现,训练人工智能解题时,给AI的反馈方式——不只是反馈的内容——对最终学习效果有决定性影响。具体来说,一种叫“自我蒸馏”的训练方法,其效果好坏,很大程度上取决于AI收到的是什么形状的反馈。

一、什么是“自我蒸馏”——让同一个AI既当学生又当老师

要理解这项研究,先得搞清楚一个关键概念:自我蒸馏。名字听着像化学实验,但本质上是一种非常聪明的训练方式。

通常,训练AI需要一个“老师模型”来指导“学生模型”。老师模型通常更强大,它会告诉学生该怎么做,这就叫知识蒸馏——好比大厨把毕生厨艺传授给学徒。但这有个明显的缺陷:你需要一个足够强的老师,还得能访问它的内部信息(专业术语叫“logits”,可以理解为老师脑子里每道题每一步的详细思考痕迹)。现实中,很多强大AI(比如ChatGPT这类商业产品)并不对外开放这些内部信息。

另一种常见训练方式叫强化学习,可以理解为用对错奖惩来训练AI:做对了给糖,做错了扣分。这种方式不依赖老师模型,但它只告诉AI最终答案对不对——就像那张只写了个“错”字的试卷。AI根本不知道自己是在第一步就偏了,还是前面都对、只在最后算错了。

自我蒸馏巧妙地融合了两者的优点:让同一个AI模型同时扮演两个角色。一个角色是“学生版AI”,只看题目独立作答;另一个角色是“老师版AI”,看到题目的同时还能看到额外参考信息(比如参考答案,或是对之前答题的点评)。训练目标,是让学生版AI的表现越来越接近老师版AI——也就是说,把那种“有了额外信息才能表现好”的能力,内化成“不需要额外信息也能表现好”的能力。

这个过程有点像备考:平时做题时能查书(老师版),考试时不能查(学生版)。自我蒸馏的目标就是让AI把平时“查着书做题”时的思路,真正消化吸收,变成考场上的能力。

整个过程里,“老师版AI”看到的那些额外参考信息,研究者称之为“上下文”。以往研究都把这个上下文当作固定的设计选择,很少有人深究:这个额外信息到底应该是什么形式,才能让训练效果最好?这正是Gensyn团队这篇论文想要回答的问题。

二、三种批改方式的对决——奖惩信号、参考答案,还是逐步点评

研究团队设计了一个“解题机器人”与“批改机器人”的组合训练框架。解题机器人(他们称之为“求解者”)负责做题,批改机器人(称为“评判者”)负责提供反馈。两者之间的唯一区别就是反馈的形式,其他所有训练参数都完全相同,这样才能公平比较不同反馈方式的效果。

团队比较了三种反馈方式。第一种是强化学习领域常用的GRPO方法,只告诉AI答案对还是错——一个简单的“对或错”二元信号,不使用任何评判者,没有文字反馈。第二种是参考答案方式,评判者提供一个由强大AI写出的完整参考答案,告诉老师版AI“正确的做法应该是这样的”。第三种是逐步对齐批注方式,评判者不只给出参考答案,而是将AI的每一个解题步骤与参考答案一一比对:做对的步骤予以确认,做错的步骤给出纠正。

这种第三种方式的设计有个关键细节:当解题AI的某个步骤是对的,评判者会一字不差地把原文复制过来;当某个步骤错了,评判者才在那个位置用正确的内容替换,并从那里继续推导。这个“对了就抄、错了才改”的设计,研究者称之为“忠实誊写员惯例”,后文会详细解释它为什么如此重要。

求解者模型用的是阿里巴巴的Qwen3-1.7B,一个中等规模的语言模型。训练数据来自OpenMathReasoning数据集中的一个经过筛选的子集,专门挑选了那些对这个模型有挑战性但又不至于完全不会的题目——太简单的题收不到有效反馈,太难的题AI直接放弃,同样无法从反馈中受益。最终筛选出312道题,其中282道用于训练,30道留作测试。

评估时,团队对每道测试题让AI作答12次,从三个维度衡量效果:Pass@12衡量12次尝试里至少有一次答对的比例(体现AI能不能做到);Majority@12衡量12次里投票最多的答案是否正确(体现AI是否稳定可靠);A vg@12则是12次答对的平均比例(最综合的能力指标)。

三、数字说话——逐步批注为何大幅领先

实验结果出来后,差距相当明显。在最综合的A vg@12指标上,逐步对齐批注方式得到35.83分,参考答案方式得到30.56分,而只用对错奖惩的GRPO方式只有19.72分。换句话说,逐步批注比单纯奖惩高出了16.11分,比提供完整参考答案高出了5.27分。

在Majority@12这个反映稳定性的指标上,差距更为突出:逐步批注达到56.67分,参考答案方式只有43.33分,足足差了13.33分。这说明逐步批注训练出来的AI,不只是偶尔能做对,而是形成了更稳定、更集中的正确解法——就像一个不是靠运气蒙对、而是真正掌握了方法的学生。

训练过程中,研究者还观察到一个有趣规律:两种自我蒸馏方法(参考答案和逐步批注)在训练的各个阶段都持续超过GRPO,但它们本身都存在“训练过头”的问题——大约训练到5到6个世代(epoch,可以理解为把所有训练题各做了5到6遍)时效果最好,继续训练反而会变差。这在AI训练中是个常见现象,叫“过拟合”,就像学生背题背太多,思维固化,遇到稍有变化的题就不会了。

研究者特别指出,评估时应该选取各方法各自表现最好的那个训练节点来比较,而不是统一用训练结束时的结果,否则可能低估自我蒸馏方法的真实潜力。这是一个重要的方法论提醒。

唯一一个逐步批注没有赢的指标是答案长度——GRPO训练出的AI答案更简洁,而自我蒸馏的AI倾向于写出更长的答案。这不一定是坏事,因为更长的推理过程往往意味着更严谨的思考,但也值得在特定应用场景中加以注意。

四、打开黑箱——每一个词的“功劳”是如何分配的

知道“逐步批注更好”只是第一步,更重要的是搞清楚为什么。研究团队为此做了一项非常精细的分析:把每一道题的每一个词(准确说是“词元”或token)所获得的训练信号强度都可视化出来,就像给每个字都贴上一个冷热标签——红色代表“被强化了”,蓝色代表“被抑制了”。

在自我蒸馏的框架里,每个词的训练信号强度有一个数学定义:用老师版AI(看到额外信息)预测这个词的概率,减去学生版AI(没有额外信息)预测这个词的概率,两者之差就是这个词的“优势值”。正优势值意味着老师版AI比学生版AI更倾向于写这个词,训练时就会加强;负优势值意味着老师版AI不太喜欢这个词,训练时就会削弱。

当AI做出了完全正确的解答,给它提供参考答案作为反馈,结果是什么?几乎整篇解答的每个词都被打上了负优势值——包括那些完全正确的步骤。原因很简单:参考答案走的是另一条路。哪怕两条路都能到达正确答案,但用词不同、符号不同、步骤的组织方式也不同。老师版AI看到参考答案后,会按照参考答案的风格和路径来思考,而这与学生版AI的正确推导过程在字面上就是不同的。结果就是,AI被训练成“你做得对,但你应该换一种说法”——这相当于在否定那些本来就是对的东西。

相比之下,逐步批注方式做对了什么?当AI做出正确解答,评判者把整个过程原文复制过来,并写上“每一步都正确”。老师版AI看到这份批注后,会沿用完全相同的推导路径——因为批注里本来就是原文复制的。所以每个正确的词都获得正优势值,整个解答被强化了。

当AI做出了包含错误的解答,逐步批注的效果就更加明显。批注会在正确步骤那里原文复制,直到出错的那一步才替换成正确内容。训练信号就精准地集中在出错的那个步骤附近——那里获得大幅负优势值,而前面的正确步骤依然获得正优势值。这就像外科手术一样精准:只切除病灶,健康组织不受影响。

参考答案方式做不到这一点。即使AI在前三步做得完美,第四步才出错,参考答案仍然从头到尾是另一套推导,整篇解答的每个词都会受到干扰,正确的部分和错误的部分被一视同仁地否定。

研究者将这个现象与“过程奖励模型”(Process Reward Model,PRM)联系起来。过程奖励模型是学术界一种专门为推理过程每一步打分的AI系统,已被证明比只看最终答案的方式更有效。但训练一个过程奖励模型需要大量人工标注每个步骤的对错,成本极高。而逐步批注方式不需要这些标注,却在训练信号的分布特征上实现了类似的效果——这是这篇研究最令人惊喜的发现之一。

五、复制粘贴的奥秘——一个关于AI如何“抄作业”的关键发现

研究过程中,团队还发现了一个非常有趣的机制,这个机制解释了为什么“忠实誊写员惯例”如此关键。

在大型语言模型的内部,有一类叫做“归纳头”(induction head)的结构,专门负责识别和复制模式。它的工作原理大致是这样的:当模型在上下文中看到了一段文字A跟着文字B的组合,下次再看到文字A时,它会倾向于预测接下来是文字B。这种机制对于学习语言规律非常有用,但在反馈设计中会产生一个微妙的副作用。

如果把AI的整个答题过程(包括错误步骤)完整地包含在反馈里,然后在后面加上纠正,会发生什么?AI看到了“错误的步骤A”出现在上下文里,于是归纳头被激活,当老师版AI生成到对应位置时,它会倾向于复制出那个错误的步骤A,而不是采用后面的纠正内容。纠正信息出现得太晚,无法覆盖归纳头的强烈复制倾向。结果就是,整篇解答的训练信号都是正的——老师版AI“同意”了错误的推导过程,训练非但没有帮助AI改错,反而强化了错误。

同样,如果完全不在反馈里重复正确的步骤,只说“这一步是对的”,同样会出问题。没有具体的文字锚点,老师版AI在看到批注时,无法精准地“对齐”到学生版AI的推导路径上,于是整个推导过程都会产生负训练信号,正确的步骤也被连带着削弱。

只有“对了就原文抄,错了才替换”这种中间状态,才能让归纳头机制为我所用:正确步骤被原文复制,归纳头锚定了这些步骤,产生正训练信号;错误步骤没有被复制,归纳头没有锚点可依,于是替换后的正确内容就主导了那个位置的预测,产生集中的负训练信号。

研究者认为,这与阿里巴巴研究者华盛顿大学等机构此前发现的“在老师模板里包含学生的原始答案会减少老师的多样性”是同一个机制的两种表现——过度的原文复制会让老师版AI过于依赖学生版AI的原始路径,降低探索能力;而完全不复制又失去了精准对齐的锚点。逐步对齐批注走出了一条精妙的中间路线。

六、这项研究的局限与留给未来的问题

研究团队在论文中坦率地指出了自己工作的局限性。所有实验都在OpenMathReasoning数据集上进行,使用的是同一个小型模型Qwen3-1.7B,评判者是Qwen/QwQ-32B。这些结论能否推广到其他数学数据集、更大的模型、或者完全不同的任务(比如写代码、写文章),目前还不确定。

此外,逐步对齐批注方式有一个不可忽视的代价:需要一个能力足够强的评判模型,而且评判过程需要大量计算资源。用Qwen/QwQ-32B(一个320亿参数的大型推理模型)来为一个17亿参数的小模型批改作业,计算成本相当高。参考答案方式相对廉价,因为参考答案可以提前生成并反复使用,不需要针对每一次解答单独生成批注。如何在保持逐步批注效果的前提下降低评判成本,是未来研究的重要方向。

研究者还提到,当AI的解答完全跑偏(比如在有限的词数内根本没写完、直接停在了半途),评判者会退而求其次,生成一个类似参考答案的完整解法。在这种情况下,逐步批注和参考答案方式的训练信号分布就会非常接近,两者的差异消失了。这说明逐步批注的优势,主要体现在AI的解答至少有部分正确、有具体步骤可以对比的情况下。

说到底,这篇论文传递的核心信息并不复杂:给AI的反馈,不只是内容要正确,结构也要对。一份与AI推导过程在每一步上都精准对应的批注,效果要远远好于一份整体上正确但路径不同的参考答案。这就好像语言学习时的纠错:老师指着你说的那句英语,一词一词地告诉你哪里对哪里错,远比直接给你一个“标准句子”让你自己去猜区别,要有效得多。

这个发现对于如何设计AI训练系统具有相当实际的参考价值。当我们需要让AI从另一个AI(或人类)那里学习时,投入精力去设计一套能够精准对齐到AI推导过程的反馈格式,很可能比单纯追求反馈内容的质量更划算。当然,这个结论还需要在更多模型、更多任务上得到验证,但作为一个研究信号,它已经足够清晰了。

对想进一步钻研的读者来说,这项研究也开了一个有趣的脑洞:能否设计一个更轻量级的评判系统,不需要Qwen/QwQ-32B这样的巨型模型,也能生成足够精准的逐步批注?如果这个问题能得到解答,这套方法的实用性会大大提升,或许会改变未来AI自我改进的标准流程。

Q&A

Q1:自我蒸馏训练方法和普通的强化学习方法有什么本质区别?

A:强化学习方法(如GRPO)只给AI一个“对或错”的最终结果,无法告诉AI推导过程中哪一步出了问题,信用分配很困难。自我蒸馏则让同一个AI同时扮演学生和老师两个角色:学生版只看题目,老师版还能看额外参考信息。训练目标是让学生版的表现接近老师版,这样就把“有了辅助信息才能表现好”的能力内化进去。与此同时,自我蒸馏能为每一个词单独生成训练信号,而不是整道题只有一个信号,因此信用分配更精细。

Q2:为什么逐步对齐批注中“对了就原文抄”这个设计如此重要?

A:这与AI内部一种叫“归纳头”的结构有关。归纳头会让AI倾向于复制上下文中间出现过的内容。如果把错误步骤原文抄进反馈里,归纳头就会锚定那个错误内容,老师版AI反而会“同意”错误推导,训练毫无帮助。反过来,如果完全不复制正确步骤,老师版AI无法精准对齐学生的正确路径,连正确的部分也会被误判为需要修改。只有原文复制正确步骤、只替换错误步骤,才能让归纳头机制精准区分哪里该强化、哪里该纠正。

Q3:逐步对齐批注方法目前有哪些实际使用的限制?

A:最主要的限制是计算成本。研究中用于生成逐步批注的评判模型是Qwen/QwQ-32B,这是一个3200亿参数级别的大型推理模型,为每一次学生解答单独生成批注,计算开销相当可观。相比之下,参考答案可以提前准备好反复使用。此外,目前所有实验都在数学解题任务上进行,能否推广到写代码、写作文等其他类型任务还有待验证。当AI完全没有写出有效的解答步骤时,这种方法的优势也会消失。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策