Gensyn研究：AI批改作业批注比答案更重要

2026-06-17阅读 0热度 0

这项研究来自Gensyn公司，发表于2026年6月，被收入ICML 2026 RL from World Feedback（RLxF）研讨会，论文编号arXiv:2606.11173v1。感兴趣的话，可以直接通过编号在arXiv上查阅全文。

想象一下这个场景：考试卷子发下来，老师只在最后写了个大大的“错”字，但没告诉你错在哪里。沮丧吗？当然，因为你根本不知道从何改起。可如果老师能一步步指出：第一步没问题，第二步也对，但第三步在这里漏掉了一个条件……这种有针对性的批注，显然会让你的进步快得多。

这个关于“批改方式”的朴素直觉，恰恰是这篇论文的核心发现。研究团队发现，训练人工智能解题时，给AI的反馈方式——不只是反馈的内容——对最终学习效果有决定性影响。具体来说，一种叫“自我蒸馏”的训练方法，其效果好坏，很大程度上取决于AI收到的是什么形状的反馈。

一、什么是“自我蒸馏”——让同一个AI既当学生又当老师

要理解这项研究，先得搞清楚一个关键概念：自我蒸馏。名字听着像化学实验，但本质上是一种非常聪明的训练方式。

通常，训练AI需要一个“老师模型”来指导“学生模型”。老师模型通常更强大，它会告诉学生该怎么做，这就叫知识蒸馏——好比大厨把毕生厨艺传授给学徒。但这有个明显的缺陷：你需要一个足够强的老师，还得能访问它的内部信息（专业术语叫“logits”，可以理解为老师脑子里每道题每一步的详细思考痕迹）。现实中，很多强大AI（比如ChatGPT这类商业产品）并不对外开放这些内部信息。

另一种常见训练方式叫强化学习，可以理解为用对错奖惩来训练AI：做对了给糖，做错了扣分。这种方式不依赖老师模型，但它只告诉AI最终答案对不对——就像那张只写了个“错”字的试卷。AI根本不知道自己是在第一步就偏了，还是前面都对、只在最后算错了。

自我蒸馏巧妙地融合了两者的优点：让同一个AI模型同时扮演两个角色。一个角色是“学生版AI”，只看题目独立作答；另一个角色是“老师版AI”，看到题目的同时还能看到额外参考信息（比如参考答案，或是对之前答题的点评）。训练目标，是让学生版AI的表现越来越接近老师版AI——也就是说，把那种“有了额外信息才能表现好”的能力，内化成“不需要额外信息也能表现好”的能力。

这个过程有点像备考：平时做题时能查书（老师版），考试时不能查（学生版）。自我蒸馏的目标就是让AI把平时“查着书做题”时的思路，真正消化吸收，变成考场上的能力。

整个过程里，“老师版AI”看到的那些额外参考信息，研究者称之为“上下文”。以往研究都把这个上下文当作固定的设计选择，很少有人深究：这个额外信息到底应该是什么形式，才能让训练效果最好？这正是Gensyn团队这篇论文想要回答的问题。

二、三种批改方式的对决——奖惩信号、参考答案，还是逐步点评

研究团队设计了一个“解题机器人”与“批改机器人”的组合训练框架。解题机器人（他们称之为“求解者”）负责做题，批改机器人（称为“评判者”）负责提供反馈。两者之间的唯一区别就是反馈的形式，其他所有训练参数都完全相同，这样才能公平比较不同反馈方式的效果。

团队比较了三种反馈方式。第一种是强化学习领域常用的GRPO方法，只告诉AI答案对还是错——一个简单的“对或错”二元信号，不使用任何评判者，没有文字反馈。第二种是参考答案方式，评判者提供一个由强大AI写出的完整参考答案，告诉老师版AI“正确的做法应该是这样的”。第三种是逐步对齐批注方式，评判者不只给出参考答案，而是将AI的每一个解题步骤与参考答案一一比对：做对的步骤予以确认，做错的步骤给出纠正。

这种第三种方式的设计有个关键细节：当解题AI的某个步骤是对的，评判者会一字不差地把原文复制过来；当某个步骤错了，评判者才在那个位置用正确的内容替换，并从那里继续推导。这个“对了就抄、错了才改”的设计，研究者称之为“忠实誊写员惯例”，后文会详细解释它为什么如此重要。

求解者模型用的是阿里巴巴的Qwen3-1.7B，一个中等规模的语言模型。训练数据来自OpenMathReasoning数据集中的一个经过筛选的子集，专门挑选了那些对这个模型有挑战性但又不至于完全不会的题目——太简单的题收不到有效反馈，太难的题AI直接放弃，同样无法从反馈中受益。最终筛选出312道题，其中282道用于训练，30道留作测试。

评估时，团队对每道测试题让AI作答12次，从三个维度衡量效果：Pass@12衡量12次尝试里至少有一次答对的比例（体现AI能不能做到）；Majority@12衡量12次里投票最多的答案是否正确（体现AI是否稳定可靠）；A vg@12则是12次答对的平均比例（最综合的能力指标）。

三、数字说话——逐步批注为何大幅领先

实验结果出来后，差距相当明显。在最综合的A vg@12指标上，逐步对齐批注方式得到35.83分，参考答案方式得到30.56分，而只用对错奖惩的GRPO方式只有19.72分。换句话说，逐步批注比单纯奖惩高出了16.11分，比提供完整参考答案高出了5.27分。

在Majority@12这个反映稳定性的指标上，差距更为突出：逐步批注达到56.67分，参考答案方式只有43.33分，足足差了13.33分。这说明逐步批注训练出来的AI，不只是偶尔能做对，而是形成了更稳定、更集中的正确解法——就像一个不是靠运气蒙对、而是真正掌握了方法的学生。

训练过程中，研究者还观察到一个有趣规律：两种自我蒸馏方法（参考答案和逐步批注）在训练的各个阶段都持续超过GRPO，但它们本身都存在“训练过头”的问题——大约训练到5到6个世代（epoch，可以理解为把所有训练题各做了5到6遍）时效果最好，继续训练反而会变差。这在AI训练中是个常见现象，叫“过拟合”，就像学生背题背太多，思维固化，遇到稍有变化的题就不会了。

研究者特别指出，评估时应该选取各方法各自表现最好的那个训练节点来比较，而不是统一用训练结束时的结果，否则可能低估自我蒸馏方法的真实潜力。这是一个重要的方法论提醒。

唯一一个逐步批注没有赢的指标是答案长度——GRPO训练出的AI答案更简洁，而自我蒸馏的AI倾向于写出更长的答案。这不一定是坏事，因为更长的推理过程往往意味着更严谨的思考，但也值得在特定应用场景中加以注意。

四、打开黑箱——每一个词的“功劳”是如何分配的

知道“逐步批注更好”只是第一步，更重要的是搞清楚为什么。研究团队为此做了一项非常精细的分析：把每一道题的每一个词（准确说是“词元”或token）所获得的训练信号强度都可视化出来，就像给每个字都贴上一个冷热标签——红色代表“被强化了”，蓝色代表“被抑制了”。

在自我蒸馏的框架里，每个词的训练信号强度有一个数学定义：用老师版AI（看到额外信息）预测这个词的概率，减去学生版AI（没有额外信息）预测这个词的概率，两者之差就是这个词的“优势值”。正优势值意味着老师版AI比学生版AI更倾向于写这个词，训练时就会加强；负优势值意味着老师版AI不太喜欢这个词，训练时就会削弱。

当AI做出了完全正确的解答，给它提供参考答案作为反馈，结果是什么？几乎整篇解答的每个词都被打上了负优势值——包括那些完全正确的步骤。原因很简单：参考答案走的是另一条路。哪怕两条路都能到达正确答案，但用词不同、符号不同、步骤的组织方式也不同。老师版AI看到参考答案后，会按照参考答案的风格和路径来思考，而这与学生版AI的正确推导过程在字面上就是不同的。结果就是，AI被训练成“你做得对，但你应该换一种说法”——这相当于在否定那些本来就是对的东西。

相比之下，逐步批注方式做对了什么？当AI做出正确解答，评判者把整个过程原文复制过来，并写上“每一步都正确”。老师版AI看到这份批注后，会沿用完全相同的推导路径——因为批注里本来就是原文复制的。所以每个正确的词都获得正优势值，整个解答被强化了。

当AI做出了包含错误的解答，逐步批注的效果就更加明显。批注会在正确步骤那里原文复制，直到出错的那一步才替换成正确内容。训练信号就精准地集中在出错的那个步骤附近——那里获得大幅负优势值，而前面的正确步骤依然获得正优势值。这就像外科手术一样精准：只切除病灶，健康组织不受影响。

参考答案方式做不到这一点。即使AI在前三步做得完美，第四步才出错，参考答案仍然从头到尾是另一套推导，整篇解答的每个词都会受到干扰，正确的部分和错误的部分被一视同仁地否定。

研究者将这个现象与“过程奖励模型”（Process Reward Model，PRM）联系起来。过程奖励模型是学术界一种专门为推理过程每一步打分的AI系统，已被证明比只看最终答案的方式更有效。但训练一个过程奖励模型需要大量人工标注每个步骤的对错，成本极高。而逐步批注方式不需要这些标注，却在训练信号的分布特征上实现了类似的效果——这是这篇研究最令人惊喜的发现之一。

五、复制粘贴的奥秘——一个关于AI如何“抄作业”的关键发现

研究过程中，团队还发现了一个非常有趣的机制，这个机制解释了为什么“忠实誊写员惯例”如此关键。

在大型语言模型的内部，有一类叫做“归纳头”（induction head）的结构，专门负责识别和复制模式。它的工作原理大致是这样的：当模型在上下文中看到了一段文字A跟着文字B的组合，下次再看到文字A时，它会倾向于预测接下来是文字B。这种机制对于学习语言规律非常有用，但在反馈设计中会产生一个微妙的副作用。

如果把AI的整个答题过程（包括错误步骤）完整地包含在反馈里，然后在后面加上纠正，会发生什么？AI看到了“错误的步骤A”出现在上下文里，于是归纳头被激活，当老师版AI生成到对应位置时，它会倾向于复制出那个错误的步骤A，而不是采用后面的纠正内容。纠正信息出现得太晚，无法覆盖归纳头的强烈复制倾向。结果就是，整篇解答的训练信号都是正的——老师版AI“同意”了错误的推导过程，训练非但没有帮助AI改错，反而强化了错误。

同样，如果完全不在反馈里重复正确的步骤，只说“这一步是对的”，同样会出问题。没有具体的文字锚点，老师版AI在看到批注时，无法精准地“对齐”到学生版AI的推导路径上，于是整个推导过程都会产生负训练信号，正确的步骤也被连带着削弱。

只有“对了就原文抄，错了才替换”这种中间状态，才能让归纳头机制为我所用：正确步骤被原文复制，归纳头锚定了这些步骤，产生正训练信号；错误步骤没有被复制，归纳头没有锚点可依，于是替换后的正确内容就主导了那个位置的预测，产生集中的负训练信号。

研究者认为，这与阿里巴巴研究者华盛顿大学等机构此前发现的“在老师模板里包含学生的原始答案会减少老师的多样性”是同一个机制的两种表现——过度的原文复制会让老师版AI过于依赖学生版AI的原始路径，降低探索能力；而完全不复制又失去了精准对齐的锚点。逐步对齐批注走出了一条精妙的中间路线。

六、这项研究的局限与留给未来的问题

研究团队在论文中坦率地指出了自己工作的局限性。所有实验都在OpenMathReasoning数据集上进行，使用的是同一个小型模型Qwen3-1.7B，评判者是Qwen/QwQ-32B。这些结论能否推广到其他数学数据集、更大的模型、或者完全不同的任务（比如写代码、写文章），目前还不确定。

此外，逐步对齐批注方式有一个不可忽视的代价：需要一个能力足够强的评判模型，而且评判过程需要大量计算资源。用Qwen/QwQ-32B（一个320亿参数的大型推理模型）来为一个17亿参数的小模型批改作业，计算成本相当高。参考答案方式相对廉价，因为参考答案可以提前生成并反复使用，不需要针对每一次解答单独生成批注。如何在保持逐步批注效果的前提下降低评判成本，是未来研究的重要方向。

研究者还提到，当AI的解答完全跑偏（比如在有限的词数内根本没写完、直接停在了半途），评判者会退而求其次，生成一个类似参考答案的完整解法。在这种情况下，逐步批注和参考答案方式的训练信号分布就会非常接近，两者的差异消失了。这说明逐步批注的优势，主要体现在AI的解答至少有部分正确、有具体步骤可以对比的情况下。

说到底，这篇论文传递的核心信息并不复杂：给AI的反馈，不只是内容要正确，结构也要对。一份与AI推导过程在每一步上都精准对应的批注，效果要远远好于一份整体上正确但路径不同的参考答案。这就好像语言学习时的纠错：老师指着你说的那句英语，一词一词地告诉你哪里对哪里错，远比直接给你一个“标准句子”让你自己去猜区别，要有效得多。

这个发现对于如何设计AI训练系统具有相当实际的参考价值。当我们需要让AI从另一个AI（或人类）那里学习时，投入精力去设计一套能够精准对齐到AI推导过程的反馈格式，很可能比单纯追求反馈内容的质量更划算。当然，这个结论还需要在更多模型、更多任务上得到验证，但作为一个研究信号，它已经足够清晰了。

对想进一步钻研的读者来说，这项研究也开了一个有趣的脑洞：能否设计一个更轻量级的评判系统，不需要Qwen/QwQ-32B这样的巨型模型，也能生成足够精准的逐步批注？如果这个问题能得到解答，这套方法的实用性会大大提升，或许会改变未来AI自我改进的标准流程。

Q&A

Q1：自我蒸馏训练方法和普通的强化学习方法有什么本质区别？

A：强化学习方法（如GRPO）只给AI一个“对或错”的最终结果，无法告诉AI推导过程中哪一步出了问题，信用分配很困难。自我蒸馏则让同一个AI同时扮演学生和老师两个角色：学生版只看题目，老师版还能看额外参考信息。训练目标是让学生版的表现接近老师版，这样就把“有了辅助信息才能表现好”的能力内化进去。与此同时，自我蒸馏能为每一个词单独生成训练信号，而不是整道题只有一个信号，因此信用分配更精细。

Q2：为什么逐步对齐批注中“对了就原文抄”这个设计如此重要？

A：这与AI内部一种叫“归纳头”的结构有关。归纳头会让AI倾向于复制上下文中间出现过的内容。如果把错误步骤原文抄进反馈里，归纳头就会锚定那个错误内容，老师版AI反而会“同意”错误推导，训练毫无帮助。反过来，如果完全不复制正确步骤，老师版AI无法精准对齐学生的正确路径，连正确的部分也会被误判为需要修改。只有原文复制正确步骤、只替换错误步骤，才能让归纳头机制精准区分哪里该强化、哪里该纠正。

Q3：逐步对齐批注方法目前有哪些实际使用的限制？

A：最主要的限制是计算成本。研究中用于生成逐步批注的评判模型是Qwen/QwQ-32B，这是一个3200亿参数级别的大型推理模型，为每一次学生解答单独生成批注，计算开销相当可观。相比之下，参考答案可以提前准备好反复使用。此外，目前所有实验都在数学解题任务上进行，能否推广到写代码、写作文等其他类型任务还有待验证。当AI完全没有写出有效的解答步骤时，这种方法的优势也会消失。