清华大学与滴滴揭示AI优化关键：剔除0.01%低效词汇可提升20%模型性能

2026-05-12阅读 0热度 0

清华大学

清华大学车辆与运载学院与滴滴自动驾驶团队的合作研究成果，已于2026年2月17日发布于arXiv预印本平台，论文编号为arXiv:2602.15620v1。如需查阅完整技术细节，可通过此编号获取论文全文。

训练AI进行数学推理，其过程与指导学生备考有相似之处。常规的强化学习方法是根据最终答案的正误给予奖励或惩罚，从而引导模型掌握正确的解题路径。然而，研究者长期观察到一个顽固的难题：模型在训练中后期会突然发生“崩溃”——原本清晰的推理逻辑瓦解，输出开始变得混乱或陷入无意义的循环。

这类似于一个成绩稳定的学生，突然在试卷上写下毫不相干的答案，或反复涂写同一句话。更关键的是，这种性能塌陷往往发生在模型看似已掌握大量知识后的训练关键期。

为定位问题根源，研究团队深入到模型生成过程的微观层面：分析模型输出每个词汇时的内部状态。他们发现了一个关键线索：在那些最终被判定为正确的答案序列中，混杂着一小部分“害群之马”——这些词汇本身对解题逻辑没有贡献，甚至会产生误导，却因身处正确答案的整体语境中，被错误地给予了正向奖励。

一、发现隐藏在正确答案中的“捣乱分子”

深入分析表明，AI学习陷入了一种特定的困境。当一个数学问题的最终答案正确时，整个生成序列都会获得奖励。问题在于，这个序列中可能包含不精确或不恰当的词汇选择。

例如，在描述“移除图中的边”这一操作时，模型可能选用“broken”而非更准确的“removed”。在日常对话中，“broken”或许可以理解，但在严谨的数学表述中，它不够专业。然而，由于整体答案正确，模型的学习机制会误认为使用“broken”是可取的，从而强化这种不精确的表达。

更严重的情况涉及实质性的数学错误。研究案例显示，模型在验证一个分解式时写道“6901 = 67 × 103 - 1”。实际上，67乘以103等于6901，减1后结果为6900，这是一个明显的计算错误。但由于最终答案正确，这个错误步骤反而被系统当作有效推理进行了强化。

第三类问题在于格式错误。模型可能在数学表达式中产生排版问题，例如该留空格的地方直接连写。这类错误在渲染时或许能被自动修正，看似无害，但模型却因此习得了非标准的格式规范。

研究团队将这类问题词汇定义为“虚假信号词汇”。它们通常具备三个特征：在训练数据中出现概率极低；模型在选择时置信度非常高；却因身处正确答案中而获得了正面奖励信号。

二、数学证明：为什么微小的问题会引发巨大的混乱

团队不仅观察到了现象，更从数学原理上揭示了这些“害群之马”为何具有超乎比例的破坏力。

在策略优化的学习机制中，每个被生成的词汇都会产生一个“学习强度”，它决定了模型对该词汇偏好参数的更新幅度。研究发现，这个强度与两个关键因素成反比：词汇的出现概率，以及模型做出选择时的不确定性（或熵）。

当一个词汇本身非常罕见（低概率），同时模型又对其深信不疑（低不确定性）时，所产生的学习信号会被异常放大。这就像在安静的环境中，微小的杂音也会显得格外刺耳。

具体的数学推导证实，学习强度与（概率 × 不确定性）成反比关系。概率越低或不确定性越低，学习强度就被放大得越厉害。这精准解释了虚假信号词汇的危害：它们虽然只占总词汇量的极少数（约0.01%），但每一个都能释放出强度远超正常水平的错误信号，足以严重干扰整体的学习轨迹。

对训练数据的实证分析支撑了这一理论。具备虚假信号特征的词汇，其产生的平均学习强度比正常词汇高出16.7%。这意味着，极少数的“坏词”掌握了不成比例的影响力。

三、STAPO方法：精准消除害群之马的智能过滤系统

基于对问题根源的透彻理解，研究团队提出了名为STAPO（虚假信号词汇感知策略优化）的解决方案。其核心思想是为模型的学习过程引入一个智能过滤器，能够精准识别并抑制那些有害的噪声信号。

STAPO的工作原理如下：在模型的每次策略更新迭代中，系统实时监控每个生成词汇的三个指标：获得的奖励信号（正/负）、其在训练数据中的出现概率、以及模型选择该词的不确定性水平。当一个词汇同时满足“获得正面奖励”、“出现概率极低”、“模型选择确定性极高”这三个条件时，便会被标记为潜在的虚假信号词汇。

识别之后，STAPO并非直接删除这些词汇，而是进行精细的“信号静音”处理。系统将这些词汇产生的策略梯度信号置零，然后对剩余正常词汇的学习权重进行重新归一化，确保整体学习强度保持平衡。

该方法最精妙之处在于其精准性与微创性。数据显示，STAPO在整个训练过程中仅屏蔽了约0.01%的词汇学习信号。改动极小，效果却非常显著。

为确保判断的准确性，团队设计了自适应的阈值机制。对于不确定性阈值，系统根据每批数据的分布动态调整（例如，将不确定性最低的20%词汇视为“高确定性”）。对于概率阈值，经过大量实验，他们选择了一个固定的绝对值，以避免误伤那些虽不常见却真正有用的专业术语或符号。

四、实验验证：小改动带来大提升的惊人效果

研究团队在多种参数规模的模型上验证了STAPO的有效性，使用了六个不同的数学推理基准测试集进行全面评估。

最显著的改善体现在训练稳定性上。传统方法中常见的“熵爆炸”或“熵崩溃”现象——即模型输出随机性失控地激增或骤降——在应用STAPO后得到了有效抑制。模型的学习曲线变得平滑稳定。

在最终性能上，STAPO同样表现出色。在17亿参数模型上，相比最佳基线方法，STAPO实现了13.50%的相对性能提升。这种优势在不同规模的模型（如80亿、140亿参数）上均得以保持。无论是在标准评估设置下，还是在采用更保守解码参数的约束设置下，STAPO都表现出了稳健的优越性。

深入的消融实验进一步证实了STAPO设计逻辑的有效性。实验表明，仅依据低概率或仅依据高确定性进行判断都是不充分的，必须将两者与奖励信号结合，才能精准定位那些真正有害的“虚假信号”。

五、深入分析：揭开虚假信号词汇的真面目

为了更直观地理解STAPO的工作，研究团队对被屏蔽的词汇进行了定性分析，主要归纳为三类：

第一类：非常规语法。 这类词汇语法上可能成立，但在数学语境下不够专业或准确。例如用“broken”代替“removed”，或用“calculation”指代“code”。它们因答案整体正确而被强化，导致模型逐渐偏离标准表达范式。

第二类：幻觉与数学错误。 这是最严重的一类，包含明显的事实或计算错误。如前文提到的错误等式“6901 = 67 × 103 - 1”，它们被意外地“奖励”，让模型误以为错误步骤是合理的。

第三类：格式错误。 涉及数学公式的排版规范，如缺少必要的空格或使用非标准分隔符。这些错误可能被显示系统自动纠正，但模型内化学到的却是错误的格式规则。

统计分析显示，虚假信号词汇总量虽少，但在各类数学问题中分布均匀，表明这是一个系统性问题，而非特定题目类型的偶然现象。词云分析进一步揭示，被屏蔽的词汇常包括某些特定数字、数学符号和转折词；而被保留的核心词汇，则多是构成数学推理骨架的“Let”、“find”、“we”、“therefore”等。

六、技术细节：STAPO的精妙设计哲学

STAPO的成功，关键在于其设计中体现的平衡智慧：既要有效过滤噪声，又要避免误伤有用的低频信息。

在阈值设计上，团队采用了混合策略。对于不确定性阈值，使用基于百分位数的动态调整，以适应不同训练批次的数据分布。对于概率阈值，则选用经过大量实验确定的固定值，以防止无差别地屏蔽所有低频词。

在实现上，STAPO引入了一个关键的“重新归一化”步骤。在屏蔽掉虚假信号后，系统会重新调整剩余词汇策略梯度的权重，确保整体更新强度一致，这类似于在降噪后对有效信号进行增益补偿。

尽管增加了实时监控逻辑，STAPO带来的额外计算开销极小，训练时间仅增加不到2%，相对于其带来的性能提升，这一代价几乎可以忽略不计。

七、广泛验证：跨规模跨任务的卓越表现

为确保方法的普适性，团队进行了极为全面的测试。从17亿到140亿参数，STAPO在不同规模的模型上都表现出一致的优越性，这说明它解决的是一个基础性、共性的学习机制问题。

在涵盖代数、几何、概率、数论等多个数学分支的六个基准测试上，STAPO均表现稳定。敏感性分析进一步优化了参数：概率阈值过高会误伤有用低频词，过低则过滤不全；不确定性阈值选择最低的20%左右效果最佳，比例过高则会屏蔽正常的高确定性选择。

消融研究最终证实，只有将奖励信号、低概率、高确定性三个维度结合起来，才能达到最佳效果，任何单一维度的判断都是不充分的。

这项研究揭示了一个深刻的洞察：最棘手的问题，有时恰恰隐藏在最微小的细节之中。就像一粒微小的沙砾足以影响精密仪器的运转，那些占比仅0.01%的错误词汇信号，竟能严重干扰整个AI系统的学习航向。STAPO的成功启示我们，解决复杂系统问题未必需要架构级的大改，一次精准的、针对信号噪声的“微创手术”或许就能取得显著成效。

这项工作的意义，超越了提升AI解数学题能力的范畴。它为我们理解AI学习过程中的微观信号机制打开了新的窗口，也为构建更稳定、更可靠的AI系统提供了新的技术路径。在业界普遍追求更大模型、更多数据的浪潮中，这项研究提醒我们：有时，关注并修正那些“细节中的魔鬼”，能带来事半功倍的效率提升。

从根本上说，STAPO的故事指向一个更根本的智能构建哲学：高级的智能，或许不仅在于高效地吸收信息，更在于具备识别并过滤掉那些看似正确实则有害的噪声信息的能力。这，或许是AI迈向更高可靠性与鲁棒性必须修炼的内功。

Q&A

Q1：STAPO方法是如何识别出有害词汇的？

A：STAPO通过实时监控三个关键指标来识别：该词汇是否获得正面奖励、其在训练数据中的出现概率是否极低（例如低于0.002%）、以及模型选择该词时的不确定性是否极低（处于不确定性分布的最低20%区间）。只有同时满足这三项条件的词汇，才会被判定为虚假信号词汇并予以屏蔽。

Q2：为什么只屏蔽0.01%的词汇就能带来显著的性能提升？

A：因为这些被屏蔽的虚假信号词汇虽然数量极少，但每个词汇产生的“错误学习信号”强度异常高（平均比正常词汇高16.7%）。低概率与高确定性的组合，会显著放大其梯度更新幅度。这就好比在通信系统中，少量高强度的干扰信号足以覆盖大量正常信号，从而严重扭曲模型的参数更新方向。

Q3：STAPO方法适用于数学题以外的其他AI任务吗？

A：目前的研究聚焦于数学推理任务，但其核心原理具有普适性。任何要求精确表达、严谨逻辑和事实一致性的任务（如代码生成、科学论文推理、逻辑证明）都可能存在类似的“虚假信号”问题。要将STAPO迁移到其他领域，需要根据该领域任务的特点和数据分布，对概率和不确定性的判断阈值进行相应的调整与验证。