防止大模型跑偏的3个训练技巧

2026-06-20阅读 0热度 0

Layer

该成果源自加拿大Layer 6 AI研究团队的一篇预印本，论文编号arXiv:2606.16154。读者可依据此编号检索完整原文，深入研读。

一、模型训练的"崩溃"困局

设想一位平时成绩优异的学生，在考场上突然失控——要么输出大段毫无意义的重复数字，要么混杂中、英、日、阿拉伯语等生成一堆乱码。这种看似荒诞的情形，在大语言模型的强化学习训练中已成为高频陷阱。

研究团队明确记录了两种典型崩溃模式：高熵崩溃，模型输出如同思维紊乱，内容混杂多种语言、代码片段与无意义字符；低熵崩溃，模型走向另一极端，输出极度单调重复，例如无限循环输出“00000”或某个固定模板，仿佛遭遇思维冻结。

两种崩溃的根源指向同一病灶：强化学习过程中的训练不稳定性。本研究的核心目标，正是精准定位这种不稳定性的底层机制，并提供一套简洁有效的解决方案。

二、强化学习训练究竟是怎么回事

要透彻理解这项研究，需先厘清大语言模型训练中强化学习的具体运作逻辑。

大众熟知的预训练，旨在让模型通过海量文本学习“预测下一个词”。但为了赋予模型真正的解题能力——例如解数学题、执行多步推理——研究人员推出了带有可验证奖励的强化学习（RLVR）。

直观来说：给模型一道数学题，它生成多种解法，答对则给予正向奖励，答错则施加惩罚。通过反复试错，模型逐渐学会“更容易答对”的策略。逻辑看似自洽，但实际落地时却问题丛生。

当前主流的训练方法是GRPO（群组相对策略优化）。其核心流程是：对于同一道题，让“旧版本模型”生成一批答案，依据优劣为每个答案计算相对分值（即“优势值”），随后用于更新“新版本模型”。关键矛盾在于，新旧模型之间存在分布偏移——用旧模型生成的样本来训练新模型，如同用三年前的食谱指导今天的厨师。

为控制这种偏离，研究人员引入了重要性比率截断机制：当新旧模型在某个词上的概率差距过大时，便截断该词的训练信号。直觉上这似乎稳健——差距越大越不可信，截断它们合情合理。

然而，Layer 6 AI团队通过实验推翻了这一直觉。他们发现，截断阈值调得越严格——即截断更多“差距大”的词——训练崩溃得越彻底、越频繁。截得越狠，问题越严重。这说明，“与旧模型差距大”并非崩溃的根本诱因，问题必然另有根源。

三、一把手术刀：解剖每一个词的梯度效果

研究团队转换了分析视角：不再追问“这个词离旧模型有多远”，而是探究“更新这个词，会将模型在当前步的概率分布导向何方”。

要理解这一思路，需先明确语言模型如何“选词”。在每个生成步骤，模型为词汇表中的每个词计算得分，再通过softmax函数转化为概率。例如，在“我今天吃了___”这一位置，“饭”的概率可能为30%，“苹果”为20%，“汽车”可能仅为0.001%。

训练时，模型生成了某个词，并依据正确答案获得奖励信号，随后对模型参数进行微调。这一调整将如何改变下次遇到相同位置时各词的概率？

研究团队推导出一个数学公式（论文中方程1），揭示了一条反直觉的规律：对于所有未被采样到的词，其概率变化取决于三个因素：采样到该词的概率、该未采样词自身的概率，以及一个参考值C(p)。C(p)等于所有词概率的平方和，如同一把“标尺”，衡量当前概率分布的集中或分散程度。

更直观地讲，每个词都有一个“地位”：若其概率高于C(p)阈值，称为峰值词；低于阈值，则是谷值词。同时，采样词的奖励信号有正负之别——若答案优于平均水平，优势值为正；反之为负。

由此，每一次对某个词的训练，均可归入四个象限之一：正优势+峰值词（Pos-peak）、正优势+谷值词（Pos-valley）、负优势+峰值词（Neg-peak）、负优势+谷值词（Neg-valley）。

这四个象限对模型的影响截然不同。研究团队通过理论推导与实验验证发现，Pos-valley和Neg-peak两类更新会使模型分布变得更加混乱、随机，它们是推动高熵崩溃的主要力量。Pos-peak更新则让分布更集中、更稳定，属于安全更新。而Neg-valley更新虽在短期内能降低混乱度，但当模型整体已处于高熵状态时，反而会将分布过度压缩，引发低熵崩溃。

这一发现至关重要：决定训练是否崩溃的关键，并非某个词“离旧模型有多远”，而是“这个词在当前模型中属于峰值还是谷值，以及其携带的奖励信号是正还是负”。

四、实验验证：把四种训练方式分开测试

为验证理论，研究团队设计了一组极为干净的实验：使用SmolLM3-3B模型在NuminaMath-LEAN数学数据集上训练，每次仅激活四个象限中的一个，观察训练走向。

实验结果完全契合理论预测。仅执行Pos-peak训练，模型极为稳定，熵值持续下降，但成绩快速达到天花板后便不再进步——模型只是在强化已掌握的策略，缺乏探索新路径的动力。仅执行Pos-valley或Neg-peak训练，模型熵值迅速飙升，随后生成内容崩溃为乱码。仅执行Neg-valley训练，模型早期有所进步，但后期陷入过度自信，生成内容单调重复，出现低熵崩溃。

将四象限按“正/负优势”或“峰值/谷值”两两组合测试时，结论进一步明朗：正优势方向的训练——仅强化那些优于平均水平的答案——在稳定性和最终表现上最为均衡，与主流基线方法DAPO表现相当。换言之，从安全性和有效性来看，“只强化赢家”是一条简单而高效的策略。

五、WAPO的提出：只从赢家身上学

基于上述发现，研究团队提出了一种名为赢家优势策略优化（Winner Advantage Policy Optimization，WAPO）的方法。

其核心思想极为简洁：在一批答案中，仅对优势值为正（优于平均水平）的答案执行策略梯度更新，较差的答案直接忽略，不产生任何训练信号。若某道题的所有回答均为错误（没有“赢家”），则该题在本轮训练中不做任何贡献。

打个比方：老师批改作业时，只从做对的题中总结经验，错误题目不纳入分析。这与常规的“分析错题”模式截然不同，但在当前场景下效果更优。

WAPO并非简单粗暴地“丢弃失败案例”。它保留了GRPO家族方法的核心机制：重要性比率（修正新旧模型分布偏移）、截断（防止单次更新步幅过大）、以及以组为单位的优势归一化（确保同题答案之间相互比较）。唯一的改动，是将所有负优势项的贡献置零。

研究团队还从理论上证明了WAPO梯度方向的正确性。在简化的“二元奖励”场景（答对得1分，答错得0分）下，WAPO的梯度更新方向与“直接最大化答对概率”的梯度方向一致，仅多了一个自适应权重因子1-qx（qx为当前模型在该题上的答对率）。该权重因子特性良好：当一道题答对率已较高时，权重自动缩小，模型不会在已掌握的题目上浪费资源；当题目较难时，权重较大，模型会将更多注意力集中于此。这构成了一种天然的“难题优先”机制。

同时，研究团队还比较了另外两个仅使用正样本的方法。PSR不使用截断和相对优势归一化，导致学习效率低下，成绩很快触及天花板。RAFT++按答案长度进行归一化，结果模型学会了“写短答案”的取巧策略，后期专门产出极短的模板化回答，例如“思考了一下，答案是3。答案：3”——这显然是偷懒式崩溃，虽形式未乱，但学习质量极差。WAPO通过保留相对优势归一化和截断，有效规避了这两个问题。

六、大规模实验：跨任务、跨模型的全面验证

研究团队在四个数据集和三个模型家族上进行了系统性实验，覆盖数学推理与多步问答两大类任务。

数学推理方面，选用了Math-500（500道标准数学题）和NuminaMath-LEAN（两万余道数学竞赛题）。多步问答方面，选用了Hotpot-QA和OTT-QA（要求模型先检索信息再综合推理，难度远超单轮问答）。三个测试模型分别为Qwen3-4B、SmolLM3-3B和Gemma3-4B，参数量均在3至4亿之间。

对比的基线方法包括GRPO（标准版）、DAPO（改进长度归一化与截断策略）以及GSPO（用序列级别比率替换词级别比率）。每种方法均针对各数据集进行了调参，以确保公平性。

实验结果呈现出极为清晰的规律。在多步问答任务上，WAPO的优势最为突出。在OTT-QA上，与次优稳定基线相比，WAPO在Qwen3-4B上领先9.9个百分点，在Gemma3-4B上领先3.2个百分点。在Hotpot-QA上，WAPO分别领先4.5和10.6个百分点。DAPO在这些任务中频繁崩溃——Hotpot-QA的三个模型中有两个崩溃；OTT-QA的Qwen3-4B在100步内彻底失效，无法输出有效数字。GRPO和GSPO相对稳定，但常在训练中途停止进步，而WAPO能够持续提升至训练终点。

在数学任务上，WAPO的表现与最强基线基本持平，仅在训练初期偶尔稍慢——这恰是“难题优先”权重因子带来的保守性，不在已擅长的题目上过度优化。从最终成绩来看，WAPO能够追上并与其他方法并驾齐驱。

研究团队还测试了WAPO的“泛化能力”：将Hotpot-QA上训练好的模型直接用于2wiki问答（全新多步问答数据集），将NuminaMath-LEAN上训练好的模型用于AIME'25（顶级数学竞赛题集）。在2wiki测试中，WAPO在三个模型家族上全面领先其他方法，说明其学到的并非特定数据集的技巧，而是更通用的推理能力。在AIME'25上，各方法整体差距不大，WAPO与其他方法基本持平，而该任务本身已属极高难度。

此外，研究团队还考察了一个容易被忽视的指标：pass@k（k次尝试中至少答对一次的概率）。该指标衡量模型的“探索多样性”——若模型总是输出相同内容，其pass@k曲线会很快趋于平缓。结果显示，WAPO在pass@k上的表现优于或持平其他基线，说明尽管仅使用正样本训练，但它并未沦为只会走老路的僵化模型，仍保持了良好的探索能力。

七、说到底，这项研究改变了什么

归根结底，这项研究做了一件简单却极具价值的事：它不再将训练不稳定的原因简单归咎于“模型跑偏”，而是深入每个词的训练信号层面，厘清了“哪类更新有害、哪类有益”。这好比医生不满足于诊断“身体不好”，而是精确指出“是这两根神经的信号传导出现了问题”。

这种分析视角带来了极简解法——WAPO。它只做了一件事——剔除负优势的更新——却在多个任务和模型上显著提升了训练稳定性，尤其在困难的多步推理任务上表现尤为突出。

对普通用户而言，这项研究意味着未来的AI助手在学习新能力时，更不易“走火入魔”输出乱码或陷入循环，整个训练过程更可控、更稳定，最终效果更佳。研究团队已开源完整代码，有兴趣的开发者可通过论文中提供的GitHub地址自行验证。

对研究人员而言，这篇工作也提出了值得深挖的方向：负优势样本中是否也蕴藏部分有价值信息，只是当前难以从粗粒度奖励信号中有效区分？该分析框架能否扩展至更大模型或更复杂任务（如编程、文字转SQL）？若能够更精细地识别并利用负样本中的有效信号，训练效率是否还能进一步提升？

若你对这些问题充满好奇，建议去读读原文，编号arXiv:2606.16154。所有理论推导和实验细节，均在其中等候你的探索。

Q&A

Q1：WAPO方法与普通GRPO训练方式有何本质区别？

A：GRPO训练时，无论答案好坏，均会影响模型参数更新——好的被强化，差的被抑制。WAPO则完全忽略那些比平均表现更差的答案，仅从较优的答案中提取经验。用于更新模型的机制（截断、重要性比率、相对优势归一化）保持不变，唯一改动是将负优势的贡献置零。

Q2：为什么截断更多“离旧模型远的词”反而导致崩溃？

A：研究发现，截断阈值越严格，受影响最大的是那些概率本就极低的词。这些低概率词在负优势更新中，原本是“降低混乱度”的力量（Neg-valley类型）。若将其更新信号也一并截断，剩余训练信号中熵增效应（来自Neg-peak和Pos-valley类型）将相对更占主导，反而导致模型越训越乱，加速崩溃。

Q3：WAPO在数学任务上为何有时比GRPO或GSPO慢？

A：WAPO采用自适应权重因子——当一道题答对率已较高时，会自动减小更新力度。这意味着训练初期，在相对容易的题目上，WAPO的学习步伐较为保守，看起来追得慢。但这种保守在后期会带来好处：模型不会因过度强化简单题而丧失探索难题的能力，最终成绩能够追平甚至超越其他方法，尤其在困难任务上表现更为突出。