阿里达摩院RLVR新作测评：告别重复采样，实现高效探索

2026-05-14阅读 0热度 0

达摩院

在优化大语言模型推理性能的实践中，基于可验证奖励的强化学习（RLVR）是主流技术路径。其核心机制在于：模型针对同一问题生成多条推理链，系统依据奖励信号强化有效路径，弱化无效尝试。这类似于学生通过对比多种解题草稿来提炼最优方法。

然而，这一范式存在显著的效率瓶颈。一个直觉性策略是增加采样路径数量以寻求更优解，但实际效果常遇天花板。其根源在于强化学习固有的“探索-利用”权衡。模型倾向于“利用”已知的高概率、高奖励路径，而“探索”新颖但不确定的解法则动力不足。现有采样机制往往过早收敛至少数几种看似安全的推理模板，导致生成路径在表述上虽有差异，底层逻辑却高度同质。这种同质化使得额外采样难以提供有效的梯度信号，限制了性能提升。

因此，关键问题在于：如何设计一种机制，引导模型进行高质量、有差异化的探索？我们的研究指出，“不确定性”本身可能蕴藏着答案。

表 1: 高熵 Token 类别示例

熵，作为量化模型预测下一个词时不确定性的指标，是探索潜力的有效指示器。实验分析表明，策略熵值较高的生成位置，通常对应着逻辑转折、步骤跳跃或自我修正的关键决策点（如表1所示）。这些节点是推理流程中真正的“分岔路口”。

识别关键节点仅是第一步。真正的挑战在于：如何在这些节点施加精准干预，引导模型走向实质不同的推理分支，而非产生语义重复或逻辑错误的无效探索。

图 1：RLVR 中不同探索范式的对比（a）序列级整体正则化方法通过全局平滑token分布来提升熵，但易诱发模型生成冗长、重复或离题的文本，形成“高熵低信息量”的无效探索。（b）词级概率扰动方法仅在局部高熵token上调整输出概率，通常仅能带来连接词替换或同义表达变化，难以突破预训练模型固化的深层推理偏好，无法持续改变后续推理方向。

当前基于熵的探索方法主要受限于两大问题（如图1所示）：一是“奖励黑客”行为，模型为最大化熵奖励，会生成无信息量的冗余文本；二是预训练“归纳偏置”难以克服，仅在表层词汇概率上扰动，无法撼动模型内化的推理模式，探索流于形式。

为突破上述限制，我们提出了I²B-LPO框架。其核心创新在于：在识别出的高熵关键节点，不直接扰动输出词表概率，而是向模型的潜在表示空间注入结构化的、可控的探索分支。这相当于在推理的十字路口，为模型提供了几条内在逻辑迥异的“思维路标”。同时，框架集成了反馈过滤机制，能自动甄别并剔除冗长或无意义的探索路径，保障探索质量。该方法旨在固定的计算预算内，最大化探索效率，从而推动大模型推理能力的边界。

论文标题：I²B-LPO: Latent Policy Optimization via Iterative Information Bottleneck论文链接：https://arxiv.org/pdf/2601.05870开源链接：https://github.com/denghuilin-cyber/IIB-LPO

阿里达摩院RLVR新作测评：告别重复采样，实现高效探索

01 工作概述

相关阅读

最新教程

最新资讯