AI数学能力倒退?微软揭示自我教学算法的潜在缺陷与优化路径
微软研究院联合韩国科学技术院与首尔国立大学于2026年3月发布的研究,揭示了一个反直觉的AI训练现象:在某些场景下,让模型进行“自我教学”,反而会损害其核心推理能力。
“自我蒸馏”是一种高效的AI训练技术。其核心是让单一模型同时承担“教师”与“学生”的双重角色:教师端拥有标准答案,能生成理想的推理路径;学生端则通过模仿这一路径进行学习。理论上,这能提升模型的表达精炼度与执行效率。在化学、物理及代码生成等结构化任务中,该方法已被证实能有效提升性能。
然而,当研究团队将同一方法应用于数学推理任务时,结果截然相反:模型性能显著下降,部分测试中准确率跌幅高达40%。这引发了关键问题:为何在多数领域奏效的训练策略,在数学推理上却遭遇失败?研究团队对此展开了深度剖析。
一、神秘的“自我蒸馏”:当AI成为自己的老师
理解这一矛盾,需首先厘清“自我蒸馏”的运作机制。
其过程类似于演讲者通过回放自己的录像来改进表现。在训练中,模型基于已知答案生成“完美”的解题示范,随后学习模仿这一示范。该方法的预设是:学习最优路径能提升模型在未知问题上的表现。此前的成功案例也支撑了这一逻辑。
因此,研究团队将其应用于数学推理,在包含17000个问题的数据集上对Qwen3-8B等多个模型进行训练。结果出乎意料:模型输出确实更简洁,但在标准数学基准测试上的成绩却大幅下滑。更关键的是,模型对训练过的问题表现良好,面对全新问题时泛化能力急剧下降。
这类似于学生陷入“题海战术”的僵化思维,无法应对题型变化。但在AI训练中观察到如此显著的负面泛化效应尚属首次。团队推断,问题根源在于数学推理的特殊性——它依赖灵活性、创造性及审慎的逐步推导,而过度的“自信”与“简洁”可能恰恰扼杀了这些关键特质。
二、揭开谜底:信息越多,AI反而越“自信”
为定位问题根源,研究人员设计了一组对照实验,核心是控制模型在生成答案时可获取的信息量。
他们设定了四种条件:完全无引导、看到含完整思考步骤的解题过程、仅看到关键解题步骤、以及参考有答案指导的生成结果。
实验结果呈现明确规律:模型获得的信息越多,其输出就越简短、越确定。在无额外信息时,模型平均生成超过13000字符的回答,并频繁使用“或许”、“让我检查一下”等表达不确定性的词汇。这类似于人类解题时的内部推演与自我质疑过程。
而当模型能看到完整答案时,回答长度骤降至不足2000字符,不确定性词汇几乎消失。推理过程变得线性且武断,失去了原有的审慎与弹性。
研究指出,这些不确定性词汇并非冗余。它们实质上是模型进行自我监督与错误检测的“认知开关”。当模型输出“等等,这一步可能需要重新计算”时,它正在激活内部的元认知机制,对当前推理路径进行二次评估。自我蒸馏提供的“完美”范例,迫使模型模仿一种绝对确定的风格,从而关闭了这一关键的自我调节功能,导致面对新问题时适应性不足。
三、实验验证:简洁未必是美德
为验证上述假设,团队进行了一项决定性对比实验。
他们准备了两组训练数据,均包含800道数学题的正确答案。区别在于风格:第一组是模型自然生成的、冗长且包含不确定性表达的回答;第二组则是在答案指导下生成的、简洁而自信的回答。
如果简洁性有益,那么使用第二组数据训练的模型应表现更优。但实验结果完全相反。
使用简洁自信回答训练的模型,在各项数学测试中性能大幅下降。例如,在AIME24测试中,准确率从54.79%暴跌至20.21%;在AMC23测试中,从89.06%降至57.03%。而使用包含不确定性表达的冗长回答训练的模型,性能保持稳定甚至微升。
这强有力地证明,在数学推理中,那些看似“冗余”的不确定性表达,是维持AI思维灵活性与稳健性的关键。它迫使模型在每一步进行自我验证,从而更善于应对未知的复杂问题。
四、动态训练中的意外发现:固定老师 vs 移动目标
研究进一步深入到“在线训练”场景,即模型边生成边根据反馈改进。此场景下存在一个关键选择:教师的参数是保持固定,还是随训练进程同步更新(即“移动目标”)?
直觉上,一个持续进步的教师应能带来更好的学生。但实验结果再次颠覆预期:固定老师的训练策略普遍优于移动目标。
以擅长生成详细推理的DeepSeek-R1模型为例,使用固定老师训练时,其性能稳步提升,且保留了原有的长回答风格。而使用移动目标训练时,回答长度与不确定性表达迅速减少,性能随之恶化,部分测试跌幅近40%。
这形成了一个恶性循环:模型被训练得越自信,其产出的教学样本就越简洁;这些样本又进一步强化模型的自信风格。最终,模型变得盲目自信,丧失审慎思考能力。固定老师则作为一个稳定参照,避免了这种风格漂移。
研究还发现,不同基础风格的模型受影响程度不同。本身生成超长思考链的模型(如Qwen3-8B),在自我蒸馏后回答被过度压缩,性能受损严重;而原本输出简洁的模型,受影响则相对较小。
五、任务覆盖度的关键作用:为什么有些领域成功,有些失败?
这引出了核心问题:为何自我蒸馏在科学问答、编程等领域有效,却在数学推理上失效?
研究团队用“任务覆盖度”概念进行解释。它指训练数据所涵盖问题类型的广度与多样性。
分析显示,在表现良好的化学问答数据集中,问题主要集中于有限类别,解题模式固定。编程任务的数据集规模较小,训练与评估问题同质化高。这意味着AI只需学习有限的“套路”,简洁高效的风格利于执行固定模式。
但数学推理数据集截然不同。它涵盖上万个问题,横跨多个子领域,且评估使用的是全新的竞赛题。AI面临的是高度多样化、需要灵活思维的挑战。
规模验证实验证实了这一点:当仅用少量(几个到几十个)问题训练时,自我蒸馏效果良好,AI能快速掌握特定题型模式。 但随着训练问题数量增至几百个,覆盖题型越来越广,自我蒸馏的优势迅速消失并转为负面。而传统强化学习方法则随数据量增加表现持续提升。
这揭示了一个深层原理:AI的推理风格必须与任务复杂度相匹配。 对于模式固定的任务,“简洁”是效率;对于复杂多变的任务,“推理冗余”与不确定性表达则是维持泛化能力的必需品。
六、深入机制:不确定性表达的神经基础
那么,不确定性表达在AI内部究竟如何工作?研究团队聚焦于“等等”、“或许”、“检查”等十个常见词汇进行了分析。
统计表明,这些词汇是AI思维的“调节阀”。“等等”通常触发路径重评估;“或许”表明在多选项间权衡;“检查”则直接激活错误检测程序。
这证实了真正的复杂推理是一个动态、自我调节的循环过程。自我蒸馏通过提供“完美答案”,无形中关闭了这个调节阀,使推理变得机械且脆弱。
值得注意的是,这种负面效应随问题难度增加而加剧。在简单测试中性能下降尚可接受;在复杂的AIME测试中,下降幅度则大得多。这说明不确定性表达对于解决高难度问题尤为关键。
结论与启示
这项研究为AI学习机制提供了新的视角。它挑战了一个固有观念:并非所有能提升训练集表现、简化输出的方法都是进步的。有时,这是以牺牲模型处理新问题的“泛化能力”为代价的。
AI推理中那些看似“犹豫”的自言自语,实则是保持其思维开放性与灵活性的核心机制。这项发现提示我们,在开发AI系统时,不能仅关注准确率与效率等表面指标,更需评估其推理过程的健壮性与适应性。
从更广义看,这项研究也在重新定义“智能”。一个真正智能的系统,不仅能在熟悉情境中高效运作,更能在面对未知时,具备审慎探索与动态适应的能力。这种能力,往往始于承认“存在未知”,并保留“重新思考”的空间。
对技术细节感兴趣的读者,可通过论文编号 arXiv:2603.24472v1 查阅完整报告。
Q&A
Q1:什么是AI自我蒸馏技术?
A:这是一种让同一AI模型同时扮演“教师”与“学生”的训练范式。教师端依据标准答案生成理想推理链,学生端通过模仿该链进行学习。其原理类似于通过自我复盘实现能力迭代。
Q2:为什么AI自我蒸馏在数学推理中表现不好?
A:根本原因在于,该训练会抑制AI在推理中自然产生的不确定性表达。数学推理依赖灵活性、试错与路径调整,而不确定性词汇(如“等等”、“可能”)是AI进行自我监督与错误修正的关键信号。自我蒸馏提供的“完美”范例过于简洁确定,导致AI模仿后丧失了这种审慎思维机制,在面对新颖问题时泛化能力下降。
Q3:这项研究对AI发展有什么实际意义?
A:它指出,在优化AI输出简洁度与训练效率时,必须系统性评估其对模型“泛化能力”与“思维健壮性”的潜在影响。尤其在数学、科学发现等需要复杂推理的领域,训练方法设计应致力于保留或鼓励AI的审慎思维机制,而非单纯追求“自信”的输出风格。这为构建更可靠、更具适应性的AI系统提供了关键的设计准则。
