Self-Taught RLVR：京东中科院定义大模型自教新范式

2026-06-01阅读 0热度 0

大模型

如何让大模型摆脱对外部数据的依赖，实现自我驱动的能力进化？最近，京东与中科院信工所联合发布的Self-Taught RLVR系列研究，为这个问题提供了一个颇具启发性的答案：让模型自己教自己。

这个系列连续发表了三篇后训练阶段的新工作，它们共同指向一个核心命题：如何为模型设计出最贴合其当前能力、最易被吸收的内部学习信号。研究者们从三个互补的维度展开了探索：

如何让大模型自我指导，实现迭代演化？

具体来说，这三个维度是：RLSD，探究由特权信息增强的“知情自我”来教学；NPO，聚焦由“近未来的自我”来引导；CoPD，探索让“走另一条路的并行自我”来协同教学。

这三项研究分别对应着RLVR（基于人类反馈的强化学习）和OPD（离线策略蒸馏）领域的几个热点难题：如何高效吸收特权信息？如何在RLVR中引入更合适的辅助信号？又如何将多个专家的能力融合进单一模型？

表面上看问题各异，但本质是相通的：核心都在于如何引入并让模型有效吸收更优质的学习信号。Self-Taught RLVR系列给出的统一解法是：让模型自己成为那个最懂自己的老师。

下面，我们来详细拆解这三篇工作。

RLSD：让“看见答案的自己”来教自己

RLSD（RLVR with Self-Distillation）首先试图回答一个有趣的问题：如果我们给模型临时注入一些“特权信息”（比如参考答案），让它变成一个更聪明的版本，那么这个更聪明的自己，能否回过头来指导那个没有特权信息的普通自己呢？

当我们给同一个模型注入特权信息(比如参考答案)后，它能不能成为老师来指导自己？

这个设定并非全新，之前的OPSD（On-Policy Self-Distillation）方法已经探索过，但结果并不理想。模型往往在极少量数据上快速收敛后，便出现严重的“信息泄漏”问题——它在推理时会不由自主地引用那些它本不该看到的“参考解”，导致回答风格扭曲，性能随后坍塌。

RLSD的贡献在于，它从理论和实践两个层面解决了这个问题。理论上，作者证明了OPSD的目标函数存在一个根本缺陷：由于老师拥有特权信息而学生没有，两者之间存在一个无法消除的“互信息鸿沟”。这导致训练中会悄悄将输入与特权答案之间的虚假关联写入模型参数，最终误导学习方向。

方法上，RLSD提出了一个简洁而优雅的修复方案：将学习信号的“方向”和“幅度”解耦。

方向交给RLVR：依靠环境奖励来判断每个token应该被强化还是惩罚。这是一个可靠但稀疏的信号，确保更新的大方向正确。
幅度交给自蒸馏：利用“老师”与“学生”模型对每个token预测概率的比值，来精细调节更新的力度。这是一个密集的信号，确保模型能区分不同token的重要性。

通过这种分工，RLSD巧妙地融合了RLVR的方向可靠性和OPSD的信号密集性。实验效果显著，在Qwen3-VL-8B-Instruct模型以及涵盖文本、图像、视频的8个基准测试上，RLSD不仅收敛更快，最终性能也更高，仅用200步训练就超越了GRPO方法400步的水平。

如果用一幅漫画来概括，RLSD就像是为模型配备了一位“知道答案”的贴身教练，但这位教练只负责纠正细节动作，而前进的大路则由外部路标（环境奖励）来指引。

NPO：让“短暂未来后的自己”教自己

如果说RLSD是让“更强的自己”来教，那么NPO（Near-Future Policy Optimization）则把目光投向了“未来的自己”。它关心一个更根本的问题：究竟什么样的辅助学习信号，能给RLVR带来最大的收益？

为RLVR引入什么样的辅助学习信号能带来最大收益？

研究者将这个问题抽象为一个简洁的指标：有效学习信号 S = Q / V。其中，Q代表信号的价值（有多强、有多少新东西可学），V代表与当前策略的价值差异（有多难吸收）。一个好的辅助信号，应该同时具备高Q值（强）和低V值（易吸收）。

以往的方法很难兼顾这两点。从外部引入专家轨迹，Q值高但V值太大，模型“消化不了”；从自身历史回放中学习，V值低但Q值又被自身过去的水平所限制，学不到新东西。

NPO的核心思想一语中的：用“近未来的自己”作为老师。具体来说，就是使用一个比当前模型稍强一些（沿着优化方向多训练了几步）、但又足够接近（处于同一条优化轨迹上）的模型检查点来提供指导。

理论和实验都证明，这种设计能最大化前述的有效学习信号S。在实现上，NPO采用混合策略的方式，将来自“近未来”检查点的、被验证有效的轨迹混入当前训练批次。这既能加速早期训练，也能帮助后期突破性能瓶颈。研究者还进一步提出了AutoNPO，能够自动从训练信号中检测最佳干预时机，并选择S值最高的检查点作为引导。

最终，在Qwen3-VL-8B-Instruct上的实验表明，GRPO的平均得分从57.88提升至NPO的62.84，AutoNPO进一步推高到63.15，在收敛速度和最终性能上均优于LUFFY等基线方法。值得一提的是，NPO的思想并不局限于混合策略这一种实现方式，它为引入“未来信号”开辟了一个新的设计空间。

漫画比喻下，NPO就像是让今天的你，接受仅仅训练了“一小会儿”后的、明天的你的指导，既前瞻又务实。

CoPD：让“走另一条路的自己”教自己

第三篇工作CoPD（Co-Evolving Policy Distillation）瞄准了当前的一个热点：如何将多个专家模型的能力，高效地整合到一个统一的模型中？

如何更好地把多个expert的能力吸收到同一个模型上？

现有的主流路径无非两种：要么把所有数据混在一起训练一个模型，要么先分开训练多个专家再蒸馏合并。为了看清它们各自的瓶颈，研究者建立了一个统一的效用框架。设X为两个数据集能提供的总优化信号，任何范式P的实际效用可表示为：效用 = aₚ * X + bₚ。其中aₚ是信号转化效率，bₚ是额外损失。

在这个框架下，两种路径的缺陷一目了然：

1. 混合数据RLVR：所有信号都参与优化（aₚ=1），但不同能力的梯度在共享参数中相互冲突，产生严重的“跷跷板”效应，导致额外损失bₚ为负。无论怎么调整数据配比，只要混着训，就免不了要付这笔“能力打架税”。

2. 传统静态OPD流程：先独立训练专家再蒸馏。这避免了能力冲突（bₚ=0），但代价是信号转化效率aₚ极低。专家虽然很强，但学生只能学到皮毛。

一个损失在效率，一个损失在冲突。那么，关键就在于：转化效率aₚ到底由什么决定？研究者的假设是：aₚ取决于老师与学生行为的相似度。就像学游泳，教练的动作如果和你的水平相差太远，你根本模仿不来。

他们用“token重叠率”来量化这种相似性，并通过实验验证：重叠率越高，蒸馏效果越好；而在独立训练过程中，专家与学生行为的重叠率会单调下降。这意味着，传统方法在最不适合吸收的时刻进行了蒸馏。

基于此，CoPD提出了一种全新的思路：让专家们在训练过程中就同步进行蒸馏，协同进化，而不是等各自“长大乘人”后再强行合并。

具体实现上，CoPD并行训练多个分支，每个分支专攻一个特定能力。训练过程交错进行两件事：在自己的数据上做RLVR以提升专业能力；同时，各个分支之间进行双向的OPD，以拉近彼此的行为模式，降低未来知识融合的难度。

这就好比让几个兄弟从小一起长大，过程中各自学习不同的技能（RLVR），同时经常交流切磋（Mutual OPD），最终自然就能融会贯通，而不是等各自成为大师后再艰难地磨合。

实验结果显示，CoPD训练出的单一模型，在文本、图像、视频任务上能够同时超越各自领域的独立专家模型，也优于传统的多专家蒸馏基线。更重要的是，CoPD暗示了一种新的模型并行训练范式，为未来的扩展提供了新思路。

漫画总结如下：

总的来说，这三项研究从“知情自我”、“近未来自我”和“并行自我”三个角度，系统性地探索了模型自我指导的潜力。它们共同描绘了一幅图景：最有效的老师，可能正是处于不同状态下的模型自己。

当然，自我指导的维度远不止于此。模型还可以从不同条件设定下的自己、以不同采样“温度”运行的自己、经过人类交互微调后的自己等多种形态中学习。Self-Taught RLVR系列为后训练优化打开了一扇新的大门，其核心思想——设计更易吸收的内部学习信号——无疑将继续启发后续的研究。

Self-Taught RLVR：京东中科院定义大模型自教新范式

RLSD：让“看见答案的自己”来教自己

NPO：让“短暂未来后的自己”教自己

CoPD：让“走另一条路的自己”教自己

相关阅读

最新教程

最新资讯