多模态大模型训练避坑指南：SFT与RL的关键衔接策略

2026-05-17阅读 0热度 0

多模态大模型

在多模态大模型的后训练流程中，业界普遍遵循一个“两步走”范式：先进行有监督微调（SFT），随后立即应用强化学习（RL）。从DeepSeek到Qwen，从GRPO到DAPO，研发焦点始终集中在如何优化RL算法上——提升稳定性、改进采样效率、设计更精巧的奖励函数。

然而，一个根本性问题被长期忽略：从SFT直接跳跃到RL，这一步骤真的毫无瑕疵吗？

近期，一项由香港科技大学（广州）、南洋理工大学、清华大学等机构合作的研究（Beyond SFT-to-RL，简称PRISM）揭示了一个关键问题：SFT不仅未能为后续的RL铺平道路，反而可能悄然引入性能隐患。

被忽视的“隐形断层”：SFT到底做了什么？

首先分析一组对比数据。在7个主流多模态基准上的平均准确率显示：

阶段	Qwen3-VL-4B	Qwen3-VL-8B
原始Instruct模型	59.7%	63.3%
SFT之后	56.8% (-3.0)	58.1% (-5.2)
SFT → GRPO	61.8%	63.3%

一个清晰的趋势是：SFT之后，模型性能出现了显著下降。 对于8B模型，这一现象尤为突出——性能先下跌5.2个百分点，后续经过强化学习，才勉强恢复至基线水平。

这揭示了什么？意味着后续的强化学习，很可能不是在“提升”模型，而是在“弥补”SFT阶段造成的性能损失。这并非孤立现象。在当前主流的强指令模型上，只要SFT数据引入的分布与原始基座模型存在偏差（例如使用来自GPT或Gemini的蒸馏数据），几乎都能观察到类似的性能回落。

原因非常直接：经过大规模后训练的基座模型，其能力已处于相对稳定和高位的状态。SFT强迫模型去模仿一套新的、通常更“窄”的数据分布，结果往往是原有的广泛能力被“冲刷”掉，而新的能力又未能扎实建立。换言之，模型本身越强、越接近实际部署水平，SFT带来的分布偏移就越可能成为一个无法回避的“暗坑”。 这正是PRISM研究提出的核心背景。

其背后的根本问题，是机器学习中经典的“分布漂移”。但在多模态场景下，这一问题表现得更为隐蔽和复杂。

问题根源：SFT引入的两类偏差

SFT在多模态任务中，主要会引入两类容易被忽视的偏差。

偏差一：表面模仿——Token级损失混淆了过程与结果

SFT的优化目标，是在均匀的Token级损失下模仿给定的演示轨迹。它并不区分什么是关键的“推理过程”，什么是次要的“格式化套话”。对模型而言，一个正确的逻辑步骤和一个固定的回答模板，在损失函数中的权重是等同的。

这导致的结果是，模型可能只学会了让输出“看起来像”标准答案，而不是真正“推导出”正确答案。 它习得的是表面的语言模式，而非深层的、忠实于问题的推理能力。

偏差二：感知与推理漂移在同一个损失函数中耦合

这是多模态场景特有的挑战。与纯文本模型不同，多模态模型的漂移不是单一的，而是两种性质完全不同的失败模式在同时发生：

感知漂移：模型对图像内容的识别和定位出现偏差，简单说就是“看错了”。
推理漂移：模型基于视觉信息进行逻辑推导时失败，即“想歪了”。

这两种漂移的成因和纠正方式截然不同，但SFT却用同一个Token级别的损失函数将它们强行拟合在一起。当进入RL阶段时，模型往往已经在感知和推理两端都发生了偏移，变成了一个“既看不准，又想不对”的状态。

现有RL算法为什么救不了？

从GRPO到DAPO，再到GSPO，RL算法近期的确在不断进步。但它们主要解决的是RL阶段内部的问题，比如采样效率、梯度方差或策略崩溃。没有任何一种主流RL算法被设计用来修复SFT阶段留下的分布偏差。

打个比方：这就像参加百米赛跑，SFT不仅没让你站上起跑线，反而把你向后推了50米。现有的RL算法都在研究如何跑得更快，但你的起点还在坑里。而PRISM要做的，就是在SFT和RL之间补上这缺失的一步——不仅把你拉回起跑线，还顺势往前推一把，让后续的RL只需要跑50米就能冲线。

PRISM的核心方案：三阶段流水线

PRISM打破了传统的两阶段范式，提出了一个全新的三阶段流水线：SFT → 分布对齐 (PRISM) → RLVR。

其关键创新，就在于中间新增的“分布对齐”阶段。

混合专家判别器

既然感知漂移和推理漂移是两类不同的偏差，就需要分开处理。为此，PRISM设计了一个混合专家判别器，它由两个专门化的专家模块组成：

感知专家 D_v：专门评估模型的输出是否忠实于图像内容，旨在解决“看错了”的问题。
推理专家 D_r：专门评估逻辑推理轨迹是否一致有效，旨在解决“想歪了”的问题。

最终的判别得分是两者的加权组合：r(x,y) = α · D_v(x,c) + (1-α) · D_r(x,t)。这种设计提供了解耦的纠正信号，避免了将两种不同的误差模式塞进一个标量奖励中，从而防止梯度信号变得嘈杂无效。

黑盒蒸馏：无需教师模型内部信息

PRISM的另一个巧妙之处在于它是黑盒操作的。许多知识蒸馏方法需要访问教师模型的logits（内部概率分布），这意味着你必须拥有教师模型的完整权重。然而在实际中，最强的模型往往只提供API接口。

PRISM完全在响应级别工作：从强大的黑盒模型（如Gemini 3 Flash）采集高质量输出作为正样本，从当前策略模型采样作为负样本，通过对抗博弈的方式来实现分布对齐。这意味着，只要你能调用API，就能使用PRISM。

一个关键的设计决策：去掉KL正则化

传统的RL训练通常会加入KL散度约束，以防止策略偏离初始模型太远。但PRISM有意识地去掉了这个约束。道理很清晰：对齐阶段的目标正是要纠正SFT带来的分布偏差，如果再加一个把策略拉回SFT分布的KL约束，岂不是自相矛盾？

分布演变：对齐如何重塑起点

下面的示意图直观展示了模型输出分布的演变过程。从Base（基座）到Post-SFT（SFT后），再到Post-Alignment（对齐后），无论是推理步骤的数量分布，还是视觉描述项数的分布，都逐步向高质量的监督数据靠拢。

可以清晰地看到，Post-SFT（蓝线）与Supervision（黑线）之间仍有明显差距，而Post-Alignment（橙线）则大幅缩小了这一差距。更重要的是，这种改进在后续的Post-RLVR（绿线）阶段得以保持。

实验验证

研究在Qwen3-VL的4B和8B两个模型规模上，将PRISM与GRPO、DAPO、GSPO三种主流RL算法结合，并在4个数学推理基准（MathVista, MathVerse, MathVision, WeMath）和3个通用多模态基准（MMMU, MMMU-Pro, HallusionBench）上进行了全面验证。

论文中的主结果（下表，灰色行代表使用了PRISM）揭示了几个关键信号：

模型越强，PRISM带来的增益越大：8B模型获得了平均+6.0的提升，而4B模型为+4.4。这表明能力更强的基座被SFT“伤害”得更深，也因此从分布对齐中受益更多。
PRISM在绝大多数子任务上取得了同基座下的最佳分数（表中加粗部分），覆盖了数学推理和通用视觉理解两类任务。这意味着对齐带来的不是某个特定领域的局部优化，而是分布层面的全局校准。

消融实验：每一步都不可或缺

从消融实验结果可以清晰地看到每个组件的贡献：

去掉SFT阶段直接导致性能下降16.8个点，这说明SFT作为能力“冷启动”的手段仍然不可替代。PRISM并非要取代SFT，而是修复其带来的副作用。
去掉对齐阶段性能下降4.4个点，这与4B模型主表中的提升幅度完全对应，直接证明了分布对齐的有效性。
使用单个4B判别器替代MoE结构，性能下降3.4个点；仅使用文本判别器（无视觉专家），性能下降3.9个点。 后者尤其值得玩味：没有视觉感知能力的判别器只能捕捉表面模式（如格式、模板），这会导致策略学会“鹦鹉学舌”式的对齐——输出听起来像监督数据，但实际上并未准确描述图像内容。

结语

PRISM的出现，相当于为多模态大模型的后训练范式打上了一个关键的“补丁”。这个补丁的重要性，或许不亚于主程序本身。

它揭示了一个长期被忽视的事实：SFT和RL之间并非无缝衔接，而是存在一道分布上的断层。如果起点就是歪的，那么RL算法再强大，跑得越快，偏离目标也就越远。

要让多模态大模型在复杂推理任务上再进一步，未必总是需要更复杂的RL算法或海量的训练数据。有时候，补上SFT和RL之间那缺失的一步对齐，模型自然会跑得更稳、更远。