多模态大模型训练避坑指南:SFT与RL的关键衔接策略

2026-05-17阅读 0热度 0
多模态大模型

在多模态大模型的后训练流程中,业界普遍遵循一个“两步走”范式:先进行有监督微调(SFT),随后立即应用强化学习(RL)。从DeepSeek到Qwen,从GRPO到DAPO,研发焦点始终集中在如何优化RL算法上——提升稳定性、改进采样效率、设计更精巧的奖励函数。

然而,一个根本性问题被长期忽略:从SFT直接跳跃到RL,这一步骤真的毫无瑕疵吗?

近期,一项由香港科技大学(广州)、南洋理工大学、清华大学等机构合作的研究(Beyond SFT-to-RL,简称PRISM)揭示了一个关键问题:SFT不仅未能为后续的RL铺平道路,反而可能悄然引入性能隐患。

被忽视的“隐形断层”:SFT到底做了什么?

首先分析一组对比数据。在7个主流多模态基准上的平均准确率显示:

阶段 Qwen3-VL-4B Qwen3-VL-8B
原始Instruct模型 59.7% 63.3%
SFT之后 56.8% (-3.0) 58.1% (-5.2)
SFT → GRPO 61.8% 63.3%

一个清晰的趋势是:SFT之后,模型性能出现了显著下降。 对于8B模型,这一现象尤为突出——性能先下跌5.2个百分点,后续经过强化学习,才勉强恢复至基线水平。

这揭示了什么?意味着后续的强化学习,很可能不是在“提升”模型,而是在“弥补”SFT阶段造成的性能损失。这并非孤立现象。在当前主流的强指令模型上,只要SFT数据引入的分布与原始基座模型存在偏差(例如使用来自GPT或Gemini的蒸馏数据),几乎都能观察到类似的性能回落。

原因非常直接:经过大规模后训练的基座模型,其能力已处于相对稳定和高位的状态。SFT强迫模型去模仿一套新的、通常更“窄”的数据分布,结果往往是原有的广泛能力被“冲刷”掉,而新的能力又未能扎实建立。换言之,模型本身越强、越接近实际部署水平,SFT带来的分布偏移就越可能成为一个无法回避的“暗坑”。 这正是PRISM研究提出的核心背景。

其背后的根本问题,是机器学习中经典的“分布漂移”。但在多模态场景下,这一问题表现得更为隐蔽和复杂。

问题根源:SFT引入的两类偏差

SFT在多模态任务中,主要会引入两类容易被忽视的偏差。

偏差一:表面模仿——Token级损失混淆了过程与结果

SFT的优化目标,是在均匀的Token级损失下模仿给定的演示轨迹。它并不区分什么是关键的“推理过程”,什么是次要的“格式化套话”。对模型而言,一个正确的逻辑步骤和一个固定的回答模板,在损失函数中的权重是等同的。

这导致的结果是,模型可能只学会了让输出“看起来像”标准答案,而不是真正“推导出”正确答案。 它习得的是表面的语言模式,而非深层的、忠实于问题的推理能力。

偏差二:感知与推理漂移在同一个损失函数中耦合

这是多模态场景特有的挑战。与纯文本模型不同,多模态模型的漂移不是单一的,而是两种性质完全不同的失败模式在同时发生:

  • 感知漂移:模型对图像内容的识别和定位出现偏差,简单说就是“看错了”。
  • 推理漂移:模型基于视觉信息进行逻辑推导时失败,即“想歪了”。

这两种漂移的成因和纠正方式截然不同,但SFT却用同一个Token级别的损失函数将它们强行拟合在一起。当进入RL阶段时,模型往往已经在感知和推理两端都发生了偏移,变成了一个“既看不准,又想不对”的状态。

现有RL算法为什么救不了?

从GRPO到DAPO,再到GSPO,RL算法近期的确在不断进步。但它们主要解决的是RL阶段内部的问题,比如采样效率、梯度方差或策略崩溃。没有任何一种主流RL算法被设计用来修复SFT阶段留下的分布偏差。

打个比方:这就像参加百米赛跑,SFT不仅没让你站上起跑线,反而把你向后推了50米。现有的RL算法都在研究如何跑得更快,但你的起点还在坑里。而PRISM要做的,就是在SFT和RL之间补上这缺失的一步——不仅把你拉回起跑线,还顺势往前推一把,让后续的RL只需要跑50米就能冲线。

PRISM的核心方案:三阶段流水线

PRISM打破了传统的两阶段范式,提出了一个全新的三阶段流水线:SFT → 分布对齐 (PRISM) → RLVR

其关键创新,就在于中间新增的“分布对齐”阶段。

混合专家判别器

既然感知漂移和推理漂移是两类不同的偏差,就需要分开处理。为此,PRISM设计了一个混合专家判别器,它由两个专门化的专家模块组成:

  • 感知专家 D_v:专门评估模型的输出是否忠实于图像内容,旨在解决“看错了”的问题。
  • 推理专家 D_r:专门评估逻辑推理轨迹是否一致有效,旨在解决“想歪了”的问题。

最终的判别得分是两者的加权组合:r(x,y) = α · D_v(x,c) + (1-α) · D_r(x,t)。这种设计提供了解耦的纠正信号,避免了将两种不同的误差模式塞进一个标量奖励中,从而防止梯度信号变得嘈杂无效。

黑盒蒸馏:无需教师模型内部信息

PRISM的另一个巧妙之处在于它是黑盒操作的。许多知识蒸馏方法需要访问教师模型的logits(内部概率分布),这意味着你必须拥有教师模型的完整权重。然而在实际中,最强的模型往往只提供API接口。

PRISM完全在响应级别工作:从强大的黑盒模型(如Gemini 3 Flash)采集高质量输出作为正样本,从当前策略模型采样作为负样本,通过对抗博弈的方式来实现分布对齐。这意味着,只要你能调用API,就能使用PRISM。

一个关键的设计决策:去掉KL正则化

传统的RL训练通常会加入KL散度约束,以防止策略偏离初始模型太远。但PRISM有意识地去掉了这个约束。道理很清晰:对齐阶段的目标正是要纠正SFT带来的分布偏差,如果再加一个把策略拉回SFT分布的KL约束,岂不是自相矛盾?

分布演变:对齐如何重塑起点

下面的示意图直观展示了模型输出分布的演变过程。从Base(基座)到Post-SFT(SFT后),再到Post-Alignment(对齐后),无论是推理步骤的数量分布,还是视觉描述项数的分布,都逐步向高质量的监督数据靠拢。

可以清晰地看到,Post-SFT(蓝线)与Supervision(黑线)之间仍有明显差距,而Post-Alignment(橙线)则大幅缩小了这一差距。更重要的是,这种改进在后续的Post-RLVR(绿线)阶段得以保持。

实验验证

研究在Qwen3-VL的4B和8B两个模型规模上,将PRISM与GRPO、DAPO、GSPO三种主流RL算法结合,并在4个数学推理基准(MathVista, MathVerse, MathVision, WeMath)3个通用多模态基准(MMMU, MMMU-Pro, HallusionBench)上进行了全面验证。

论文中的主结果(下表,灰色行代表使用了PRISM)揭示了几个关键信号:

  1. 模型越强,PRISM带来的增益越大:8B模型获得了平均+6.0的提升,而4B模型为+4.4。这表明能力更强的基座被SFT“伤害”得更深,也因此从分布对齐中受益更多。
  2. PRISM在绝大多数子任务上取得了同基座下的最佳分数(表中加粗部分),覆盖了数学推理和通用视觉理解两类任务。这意味着对齐带来的不是某个特定领域的局部优化,而是分布层面的全局校准

消融实验:每一步都不可或缺

从消融实验结果可以清晰地看到每个组件的贡献:

  1. 去掉SFT阶段直接导致性能下降16.8个点,这说明SFT作为能力“冷启动”的手段仍然不可替代。PRISM并非要取代SFT,而是修复其带来的副作用。
  2. 去掉对齐阶段性能下降4.4个点,这与4B模型主表中的提升幅度完全对应,直接证明了分布对齐的有效性。
  3. 使用单个4B判别器替代MoE结构,性能下降3.4个点;仅使用文本判别器(无视觉专家),性能下降3.9个点。 后者尤其值得玩味:没有视觉感知能力的判别器只能捕捉表面模式(如格式、模板),这会导致策略学会“鹦鹉学舌”式的对齐——输出听起来像监督数据,但实际上并未准确描述图像内容。

结语

PRISM的出现,相当于为多模态大模型的后训练范式打上了一个关键的“补丁”。这个补丁的重要性,或许不亚于主程序本身。

它揭示了一个长期被忽视的事实:SFT和RL之间并非无缝衔接,而是存在一道分布上的断层。如果起点就是歪的,那么RL算法再强大,跑得越快,偏离目标也就越远。

要让多模态大模型在复杂推理任务上再进一步,未必总是需要更复杂的RL算法或海量的训练数据。有时候,补上SFT和RL之间那缺失的一步对齐,模型自然会跑得更稳、更远。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策