防止大模型跑偏的3个训练技巧

2026-06-20阅读 0热度 0
Layer

该成果源自加拿大Layer 6 AI研究团队的一篇预印本,论文编号arXiv:2606.16154。读者可依据此编号检索完整原文,深入研读。

一、模型训练的"崩溃"困局

设想一位平时成绩优异的学生,在考场上突然失控——要么输出大段毫无意义的重复数字,要么混杂中、英、日、阿拉伯语等生成一堆乱码。这种看似荒诞的情形,在大语言模型的强化学习训练中已成为高频陷阱。

研究团队明确记录了两种典型崩溃模式:高熵崩溃,模型输出如同思维紊乱,内容混杂多种语言、代码片段与无意义字符;低熵崩溃,模型走向另一极端,输出极度单调重复,例如无限循环输出“00000”或某个固定模板,仿佛遭遇思维冻结。

两种崩溃的根源指向同一病灶:强化学习过程中的训练不稳定性。本研究的核心目标,正是精准定位这种不稳定性的底层机制,并提供一套简洁有效的解决方案。

二、强化学习训练究竟是怎么回事

要透彻理解这项研究,需先厘清大语言模型训练中强化学习的具体运作逻辑。

大众熟知的预训练,旨在让模型通过海量文本学习“预测下一个词”。但为了赋予模型真正的解题能力——例如解数学题、执行多步推理——研究人员推出了带有可验证奖励的强化学习(RLVR)。

直观来说:给模型一道数学题,它生成多种解法,答对则给予正向奖励,答错则施加惩罚。通过反复试错,模型逐渐学会“更容易答对”的策略。逻辑看似自洽,但实际落地时却问题丛生。

当前主流的训练方法是GRPO(群组相对策略优化)。其核心流程是:对于同一道题,让“旧版本模型”生成一批答案,依据优劣为每个答案计算相对分值(即“优势值”),随后用于更新“新版本模型”。关键矛盾在于,新旧模型之间存在分布偏移——用旧模型生成的样本来训练新模型,如同用三年前的食谱指导今天的厨师。

为控制这种偏离,研究人员引入了重要性比率截断机制:当新旧模型在某个词上的概率差距过大时,便截断该词的训练信号。直觉上这似乎稳健——差距越大越不可信,截断它们合情合理。

然而,Layer 6 AI团队通过实验推翻了这一直觉。他们发现,截断阈值调得越严格——即截断更多“差距大”的词——训练崩溃得越彻底、越频繁。截得越狠,问题越严重。这说明,“与旧模型差距大”并非崩溃的根本诱因,问题必然另有根源。

三、一把手术刀:解剖每一个词的梯度效果

研究团队转换了分析视角:不再追问“这个词离旧模型有多远”,而是探究“更新这个词,会将模型在当前步的概率分布导向何方”。

要理解这一思路,需先明确语言模型如何“选词”。在每个生成步骤,模型为词汇表中的每个词计算得分,再通过softmax函数转化为概率。例如,在“我今天吃了___”这一位置,“饭”的概率可能为30%,“苹果”为20%,“汽车”可能仅为0.001%。

训练时,模型生成了某个词,并依据正确答案获得奖励信号,随后对模型参数进行微调。这一调整将如何改变下次遇到相同位置时各词的概率?

研究团队推导出一个数学公式(论文中方程1),揭示了一条反直觉的规律:对于所有未被采样到的词,其概率变化取决于三个因素:采样到该词的概率、该未采样词自身的概率,以及一个参考值C(p)。C(p)等于所有词概率的平方和,如同一把“标尺”,衡量当前概率分布的集中或分散程度。

更直观地讲,每个词都有一个“地位”:若其概率高于C(p)阈值,称为峰值词;低于阈值,则是谷值词。同时,采样词的奖励信号有正负之别——若答案优于平均水平,优势值为正;反之为负。

由此,每一次对某个词的训练,均可归入四个象限之一:正优势+峰值词(Pos-peak)、正优势+谷值词(Pos-valley)、负优势+峰值词(Neg-peak)、负优势+谷值词(Neg-valley)。

这四个象限对模型的影响截然不同。研究团队通过理论推导与实验验证发现,Pos-valley和Neg-peak两类更新会使模型分布变得更加混乱、随机,它们是推动高熵崩溃的主要力量。Pos-peak更新则让分布更集中、更稳定,属于安全更新。而Neg-valley更新虽在短期内能降低混乱度,但当模型整体已处于高熵状态时,反而会将分布过度压缩,引发低熵崩溃。

这一发现至关重要:决定训练是否崩溃的关键,并非某个词“离旧模型有多远”,而是“这个词在当前模型中属于峰值还是谷值,以及其携带的奖励信号是正还是负”。

四、实验验证:把四种训练方式分开测试

为验证理论,研究团队设计了一组极为干净的实验:使用SmolLM3-3B模型在NuminaMath-LEAN数学数据集上训练,每次仅激活四个象限中的一个,观察训练走向。

实验结果完全契合理论预测。仅执行Pos-peak训练,模型极为稳定,熵值持续下降,但成绩快速达到天花板后便不再进步——模型只是在强化已掌握的策略,缺乏探索新路径的动力。仅执行Pos-valley或Neg-peak训练,模型熵值迅速飙升,随后生成内容崩溃为乱码。仅执行Neg-valley训练,模型早期有所进步,但后期陷入过度自信,生成内容单调重复,出现低熵崩溃。

将四象限按“正/负优势”或“峰值/谷值”两两组合测试时,结论进一步明朗:正优势方向的训练——仅强化那些优于平均水平的答案——在稳定性和最终表现上最为均衡,与主流基线方法DAPO表现相当。换言之,从安全性和有效性来看,“只强化赢家”是一条简单而高效的策略。

五、WAPO的提出:只从赢家身上学

基于上述发现,研究团队提出了一种名为赢家优势策略优化(Winner Advantage Policy Optimization,WAPO)的方法。

其核心思想极为简洁:在一批答案中,仅对优势值为正(优于平均水平)的答案执行策略梯度更新,较差的答案直接忽略,不产生任何训练信号。若某道题的所有回答均为错误(没有“赢家”),则该题在本轮训练中不做任何贡献。

打个比方:老师批改作业时,只从做对的题中总结经验,错误题目不纳入分析。这与常规的“分析错题”模式截然不同,但在当前场景下效果更优。

WAPO并非简单粗暴地“丢弃失败案例”。它保留了GRPO家族方法的核心机制:重要性比率(修正新旧模型分布偏移)、截断(防止单次更新步幅过大)、以及以组为单位的优势归一化(确保同题答案之间相互比较)。唯一的改动,是将所有负优势项的贡献置零。

研究团队还从理论上证明了WAPO梯度方向的正确性。在简化的“二元奖励”场景(答对得1分,答错得0分)下,WAPO的梯度更新方向与“直接最大化答对概率”的梯度方向一致,仅多了一个自适应权重因子1-qx(qx为当前模型在该题上的答对率)。该权重因子特性良好:当一道题答对率已较高时,权重自动缩小,模型不会在已掌握的题目上浪费资源;当题目较难时,权重较大,模型会将更多注意力集中于此。这构成了一种天然的“难题优先”机制。

同时,研究团队还比较了另外两个仅使用正样本的方法。PSR不使用截断和相对优势归一化,导致学习效率低下,成绩很快触及天花板。RAFT++按答案长度进行归一化,结果模型学会了“写短答案”的取巧策略,后期专门产出极短的模板化回答,例如“思考了一下,答案是3。答案:3”——这显然是偷懒式崩溃,虽形式未乱,但学习质量极差。WAPO通过保留相对优势归一化和截断,有效规避了这两个问题。

六、大规模实验:跨任务、跨模型的全面验证

研究团队在四个数据集和三个模型家族上进行了系统性实验,覆盖数学推理与多步问答两大类任务。

数学推理方面,选用了Math-500(500道标准数学题)和NuminaMath-LEAN(两万余道数学竞赛题)。多步问答方面,选用了Hotpot-QA和OTT-QA(要求模型先检索信息再综合推理,难度远超单轮问答)。三个测试模型分别为Qwen3-4B、SmolLM3-3B和Gemma3-4B,参数量均在3至4亿之间。

对比的基线方法包括GRPO(标准版)、DAPO(改进长度归一化与截断策略)以及GSPO(用序列级别比率替换词级别比率)。每种方法均针对各数据集进行了调参,以确保公平性。

实验结果呈现出极为清晰的规律。在多步问答任务上,WAPO的优势最为突出。在OTT-QA上,与次优稳定基线相比,WAPO在Qwen3-4B上领先9.9个百分点,在Gemma3-4B上领先3.2个百分点。在Hotpot-QA上,WAPO分别领先4.5和10.6个百分点。DAPO在这些任务中频繁崩溃——Hotpot-QA的三个模型中有两个崩溃;OTT-QA的Qwen3-4B在100步内彻底失效,无法输出有效数字。GRPO和GSPO相对稳定,但常在训练中途停止进步,而WAPO能够持续提升至训练终点。

在数学任务上,WAPO的表现与最强基线基本持平,仅在训练初期偶尔稍慢——这恰是“难题优先”权重因子带来的保守性,不在已擅长的题目上过度优化。从最终成绩来看,WAPO能够追上并与其他方法并驾齐驱。

研究团队还测试了WAPO的“泛化能力”:将Hotpot-QA上训练好的模型直接用于2wiki问答(全新多步问答数据集),将NuminaMath-LEAN上训练好的模型用于AIME'25(顶级数学竞赛题集)。在2wiki测试中,WAPO在三个模型家族上全面领先其他方法,说明其学到的并非特定数据集的技巧,而是更通用的推理能力。在AIME'25上,各方法整体差距不大,WAPO与其他方法基本持平,而该任务本身已属极高难度。

此外,研究团队还考察了一个容易被忽视的指标:pass@k(k次尝试中至少答对一次的概率)。该指标衡量模型的“探索多样性”——若模型总是输出相同内容,其pass@k曲线会很快趋于平缓。结果显示,WAPO在pass@k上的表现优于或持平其他基线,说明尽管仅使用正样本训练,但它并未沦为只会走老路的僵化模型,仍保持了良好的探索能力。

七、说到底,这项研究改变了什么

归根结底,这项研究做了一件简单却极具价值的事:它不再将训练不稳定的原因简单归咎于“模型跑偏”,而是深入每个词的训练信号层面,厘清了“哪类更新有害、哪类有益”。这好比医生不满足于诊断“身体不好”,而是精确指出“是这两根神经的信号传导出现了问题”。

这种分析视角带来了极简解法——WAPO。它只做了一件事——剔除负优势的更新——却在多个任务和模型上显著提升了训练稳定性,尤其在困难的多步推理任务上表现尤为突出。

对普通用户而言,这项研究意味着未来的AI助手在学习新能力时,更不易“走火入魔”输出乱码或陷入循环,整个训练过程更可控、更稳定,最终效果更佳。研究团队已开源完整代码,有兴趣的开发者可通过论文中提供的GitHub地址自行验证。

对研究人员而言,这篇工作也提出了值得深挖的方向:负优势样本中是否也蕴藏部分有价值信息,只是当前难以从粗粒度奖励信号中有效区分?该分析框架能否扩展至更大模型或更复杂任务(如编程、文字转SQL)?若能够更精细地识别并利用负样本中的有效信号,训练效率是否还能进一步提升?

若你对这些问题充满好奇,建议去读读原文,编号arXiv:2606.16154。所有理论推导和实验细节,均在其中等候你的探索。

Q&A

Q1:WAPO方法与普通GRPO训练方式有何本质区别?

A:GRPO训练时,无论答案好坏,均会影响模型参数更新——好的被强化,差的被抑制。WAPO则完全忽略那些比平均表现更差的答案,仅从较优的答案中提取经验。用于更新模型的机制(截断、重要性比率、相对优势归一化)保持不变,唯一改动是将负优势的贡献置零。

Q2:为什么截断更多“离旧模型远的词”反而导致崩溃?

A:研究发现,截断阈值越严格,受影响最大的是那些概率本就极低的词。这些低概率词在负优势更新中,原本是“降低混乱度”的力量(Neg-valley类型)。若将其更新信号也一并截断,剩余训练信号中熵增效应(来自Neg-peak和Pos-valley类型)将相对更占主导,反而导致模型越训越乱,加速崩溃。

Q3:WAPO在数学任务上为何有时比GRPO或GSPO慢?

A:WAPO采用自适应权重因子——当一道题答对率已较高时,会自动减小更新力度。这意味着训练初期,在相对容易的题目上,WAPO的学习步伐较为保守,看起来追得慢。但这种保守在后期会带来好处:模型不会因过度强化简单题而丧失探索难题的能力,最终成绩能够追平甚至超越其他方法,尤其在困难任务上表现更为突出。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策