AI数学能力倒退？微软揭示自我教学算法的潜在缺陷与优化路径

2026-05-14阅读 0热度 0

微软研究院联合韩国科学技术院与首尔国立大学于2026年3月发布的研究，揭示了一个反直觉的AI训练现象：在某些场景下，让模型进行“自我教学”，反而会损害其核心推理能力。

“自我蒸馏”是一种高效的AI训练技术。其核心是让单一模型同时承担“教师”与“学生”的双重角色：教师端拥有标准答案，能生成理想的推理路径；学生端则通过模仿这一路径进行学习。理论上，这能提升模型的表达精炼度与执行效率。在化学、物理及代码生成等结构化任务中，该方法已被证实能有效提升性能。

然而，当研究团队将同一方法应用于数学推理任务时，结果截然相反：模型性能显著下降，部分测试中准确率跌幅高达40%。这引发了关键问题：为何在多数领域奏效的训练策略，在数学推理上却遭遇失败？研究团队对此展开了深度剖析。

一、神秘的“自我蒸馏”：当AI成为自己的老师

理解这一矛盾，需首先厘清“自我蒸馏”的运作机制。

其过程类似于演讲者通过回放自己的录像来改进表现。在训练中，模型基于已知答案生成“完美”的解题示范，随后学习模仿这一示范。该方法的预设是：学习最优路径能提升模型在未知问题上的表现。此前的成功案例也支撑了这一逻辑。

因此，研究团队将其应用于数学推理，在包含17000个问题的数据集上对Qwen3-8B等多个模型进行训练。结果出乎意料：模型输出确实更简洁，但在标准数学基准测试上的成绩却大幅下滑。更关键的是，模型对训练过的问题表现良好，面对全新问题时泛化能力急剧下降。

这类似于学生陷入“题海战术”的僵化思维，无法应对题型变化。但在AI训练中观察到如此显著的负面泛化效应尚属首次。团队推断，问题根源在于数学推理的特殊性——它依赖灵活性、创造性及审慎的逐步推导，而过度的“自信”与“简洁”可能恰恰扼杀了这些关键特质。

二、揭开谜底：信息越多，AI反而越“自信”

为定位问题根源，研究人员设计了一组对照实验，核心是控制模型在生成答案时可获取的信息量。

他们设定了四种条件：完全无引导、看到含完整思考步骤的解题过程、仅看到关键解题步骤、以及参考有答案指导的生成结果。

实验结果呈现明确规律：模型获得的信息越多，其输出就越简短、越确定。在无额外信息时，模型平均生成超过13000字符的回答，并频繁使用“或许”、“让我检查一下”等表达不确定性的词汇。这类似于人类解题时的内部推演与自我质疑过程。

而当模型能看到完整答案时，回答长度骤降至不足2000字符，不确定性词汇几乎消失。推理过程变得线性且武断，失去了原有的审慎与弹性。

研究指出，这些不确定性词汇并非冗余。它们实质上是模型进行自我监督与错误检测的“认知开关”。当模型输出“等等，这一步可能需要重新计算”时，它正在激活内部的元认知机制，对当前推理路径进行二次评估。自我蒸馏提供的“完美”范例，迫使模型模仿一种绝对确定的风格，从而关闭了这一关键的自我调节功能，导致面对新问题时适应性不足。

三、实验验证：简洁未必是美德

为验证上述假设，团队进行了一项决定性对比实验。

他们准备了两组训练数据，均包含800道数学题的正确答案。区别在于风格：第一组是模型自然生成的、冗长且包含不确定性表达的回答；第二组则是在答案指导下生成的、简洁而自信的回答。

如果简洁性有益，那么使用第二组数据训练的模型应表现更优。但实验结果完全相反。

使用简洁自信回答训练的模型，在各项数学测试中性能大幅下降。例如，在AIME24测试中，准确率从54.79%暴跌至20.21%；在AMC23测试中，从89.06%降至57.03%。而使用包含不确定性表达的冗长回答训练的模型，性能保持稳定甚至微升。

这强有力地证明，在数学推理中，那些看似“冗余”的不确定性表达，是维持AI思维灵活性与稳健性的关键。它迫使模型在每一步进行自我验证，从而更善于应对未知的复杂问题。

四、动态训练中的意外发现：固定老师 vs 移动目标

研究进一步深入到“在线训练”场景，即模型边生成边根据反馈改进。此场景下存在一个关键选择：教师的参数是保持固定，还是随训练进程同步更新（即“移动目标”）？

直觉上，一个持续进步的教师应能带来更好的学生。但实验结果再次颠覆预期：固定老师的训练策略普遍优于移动目标。

以擅长生成详细推理的DeepSeek-R1模型为例，使用固定老师训练时，其性能稳步提升，且保留了原有的长回答风格。而使用移动目标训练时，回答长度与不确定性表达迅速减少，性能随之恶化，部分测试跌幅近40%。

这形成了一个恶性循环：模型被训练得越自信，其产出的教学样本就越简洁；这些样本又进一步强化模型的自信风格。最终，模型变得盲目自信，丧失审慎思考能力。固定老师则作为一个稳定参照，避免了这种风格漂移。

研究还发现，不同基础风格的模型受影响程度不同。本身生成超长思考链的模型（如Qwen3-8B），在自我蒸馏后回答被过度压缩，性能受损严重；而原本输出简洁的模型，受影响则相对较小。

五、任务覆盖度的关键作用：为什么有些领域成功，有些失败？

这引出了核心问题：为何自我蒸馏在科学问答、编程等领域有效，却在数学推理上失效？

研究团队用“任务覆盖度”概念进行解释。它指训练数据所涵盖问题类型的广度与多样性。

分析显示，在表现良好的化学问答数据集中，问题主要集中于有限类别，解题模式固定。编程任务的数据集规模较小，训练与评估问题同质化高。这意味着AI只需学习有限的“套路”，简洁高效的风格利于执行固定模式。

但数学推理数据集截然不同。它涵盖上万个问题，横跨多个子领域，且评估使用的是全新的竞赛题。AI面临的是高度多样化、需要灵活思维的挑战。

规模验证实验证实了这一点：当仅用少量（几个到几十个）问题训练时，自我蒸馏效果良好，AI能快速掌握特定题型模式。 但随着训练问题数量增至几百个，覆盖题型越来越广，自我蒸馏的优势迅速消失并转为负面。而传统强化学习方法则随数据量增加表现持续提升。

这揭示了一个深层原理：AI的推理风格必须与任务复杂度相匹配。 对于模式固定的任务，“简洁”是效率；对于复杂多变的任务，“推理冗余”与不确定性表达则是维持泛化能力的必需品。

六、深入机制：不确定性表达的神经基础

那么，不确定性表达在AI内部究竟如何工作？研究团队聚焦于“等等”、“或许”、“检查”等十个常见词汇进行了分析。

统计表明，这些词汇是AI思维的“调节阀”。“等等”通常触发路径重评估；“或许”表明在多选项间权衡；“检查”则直接激活错误检测程序。

这证实了真正的复杂推理是一个动态、自我调节的循环过程。自我蒸馏通过提供“完美答案”，无形中关闭了这个调节阀，使推理变得机械且脆弱。

值得注意的是，这种负面效应随问题难度增加而加剧。在简单测试中性能下降尚可接受；在复杂的AIME测试中，下降幅度则大得多。这说明不确定性表达对于解决高难度问题尤为关键。

结论与启示

这项研究为AI学习机制提供了新的视角。它挑战了一个固有观念：并非所有能提升训练集表现、简化输出的方法都是进步的。有时，这是以牺牲模型处理新问题的“泛化能力”为代价的。

AI推理中那些看似“犹豫”的自言自语，实则是保持其思维开放性与灵活性的核心机制。这项发现提示我们，在开发AI系统时，不能仅关注准确率与效率等表面指标，更需评估其推理过程的健壮性与适应性。

从更广义看，这项研究也在重新定义“智能”。一个真正智能的系统，不仅能在熟悉情境中高效运作，更能在面对未知时，具备审慎探索与动态适应的能力。这种能力，往往始于承认“存在未知”，并保留“重新思考”的空间。

对技术细节感兴趣的读者，可通过论文编号 arXiv:2603.24472v1 查阅完整报告。

Q&A

Q1：什么是AI自我蒸馏技术？

A：这是一种让同一AI模型同时扮演“教师”与“学生”的训练范式。教师端依据标准答案生成理想推理链，学生端通过模仿该链进行学习。其原理类似于通过自我复盘实现能力迭代。

Q2：为什么AI自我蒸馏在数学推理中表现不好？

A：根本原因在于，该训练会抑制AI在推理中自然产生的不确定性表达。数学推理依赖灵活性、试错与路径调整，而不确定性词汇（如“等等”、“可能”）是AI进行自我监督与错误修正的关键信号。自我蒸馏提供的“完美”范例过于简洁确定，导致AI模仿后丧失了这种审慎思维机制，在面对新颖问题时泛化能力下降。

Q3：这项研究对AI发展有什么实际意义？

A：它指出，在优化AI输出简洁度与训练效率时，必须系统性评估其对模型“泛化能力”与“思维健壮性”的潜在影响。尤其在数学、科学发现等需要复杂推理的领域，训练方法设计应致力于保留或鼓励AI的审慎思维机制，而非单纯追求“自信”的输出风格。这为构建更可靠、更具适应性的AI系统提供了关键的设计准则。