阿里达摩院RLVR新作测评:告别重复采样,实现高效探索
在优化大语言模型推理性能的实践中,基于可验证奖励的强化学习(RLVR)是主流技术路径。其核心机制在于:模型针对同一问题生成多条推理链,系统依据奖励信号强化有效路径,弱化无效尝试。这类似于学生通过对比多种解题草稿来提炼最优方法。
然而,这一范式存在显著的效率瓶颈。一个直觉性策略是增加采样路径数量以寻求更优解,但实际效果常遇天花板。其根源在于强化学习固有的“探索-利用”权衡。模型倾向于“利用”已知的高概率、高奖励路径,而“探索”新颖但不确定的解法则动力不足。现有采样机制往往过早收敛至少数几种看似安全的推理模板,导致生成路径在表述上虽有差异,底层逻辑却高度同质。这种同质化使得额外采样难以提供有效的梯度信号,限制了性能提升。
因此,关键问题在于:如何设计一种机制,引导模型进行高质量、有差异化的探索?我们的研究指出,“不确定性”本身可能蕴藏着答案。
表 1: 高熵 Token 类别示例
熵,作为量化模型预测下一个词时不确定性的指标,是探索潜力的有效指示器。实验分析表明,策略熵值较高的生成位置,通常对应着逻辑转折、步骤跳跃或自我修正的关键决策点(如表1所示)。这些节点是推理流程中真正的“分岔路口”。
识别关键节点仅是第一步。真正的挑战在于:如何在这些节点施加精准干预,引导模型走向实质不同的推理分支,而非产生语义重复或逻辑错误的无效探索。
图 1:RLVR 中不同探索范式的对比(a)序列级整体正则化方法通过全局平滑token分布来提升熵,但易诱发模型生成冗长、重复或离题的文本,形成“高熵低信息量”的无效探索。(b)词级概率扰动方法仅在局部高熵token上调整输出概率,通常仅能带来连接词替换或同义表达变化,难以突破预训练模型固化的深层推理偏好,无法持续改变后续推理方向。
当前基于熵的探索方法主要受限于两大问题(如图1所示):一是“奖励黑客”行为,模型为最大化熵奖励,会生成无信息量的冗余文本;二是预训练“归纳偏置”难以克服,仅在表层词汇概率上扰动,无法撼动模型内化的推理模式,探索流于形式。
为突破上述限制,我们提出了I²B-LPO框架。其核心创新在于:在识别出的高熵关键节点,不直接扰动输出词表概率,而是向模型的潜在表示空间注入结构化的、可控的探索分支。这相当于在推理的十字路口,为模型提供了几条内在逻辑迥异的“思维路标”。同时,框架集成了反馈过滤机制,能自动甄别并剔除冗长或无意义的探索路径,保障探索质量。该方法旨在固定的计算预算内,最大化探索效率,从而推动大模型推理能力的边界。
论文标题:I²B-LPO: Latent Policy Optimization via Iterative Information Bottleneck论文链接:https://arxiv.org/pdf/2601.05870开源链接:https://github.com/denghuilin-cyber/IIB-LPO



