阿里达摩院RLVR新作测评:告别重复采样,实现高效探索

2026-05-14阅读 0热度 0
达摩院



在优化大语言模型推理性能的实践中,基于可验证奖励的强化学习(RLVR)是主流技术路径。其核心机制在于:模型针对同一问题生成多条推理链,系统依据奖励信号强化有效路径,弱化无效尝试。这类似于学生通过对比多种解题草稿来提炼最优方法。

然而,这一范式存在显著的效率瓶颈。一个直觉性策略是增加采样路径数量以寻求更优解,但实际效果常遇天花板。其根源在于强化学习固有的“探索-利用”权衡。模型倾向于“利用”已知的高概率、高奖励路径,而“探索”新颖但不确定的解法则动力不足。现有采样机制往往过早收敛至少数几种看似安全的推理模板,导致生成路径在表述上虽有差异,底层逻辑却高度同质。这种同质化使得额外采样难以提供有效的梯度信号,限制了性能提升。

因此,关键问题在于:如何设计一种机制,引导模型进行高质量、有差异化的探索?我们的研究指出,“不确定性”本身可能蕴藏着答案。



表 1: 高熵 Token 类别示例

熵,作为量化模型预测下一个词时不确定性的指标,是探索潜力的有效指示器。实验分析表明,策略熵值较高的生成位置,通常对应着逻辑转折、步骤跳跃或自我修正的关键决策点(如表1所示)。这些节点是推理流程中真正的“分岔路口”。

识别关键节点仅是第一步。真正的挑战在于:如何在这些节点施加精准干预,引导模型走向实质不同的推理分支,而非产生语义重复或逻辑错误的无效探索。



图 1:RLVR 中不同探索范式的对比(a)序列级整体正则化方法通过全局平滑token分布来提升熵,但易诱发模型生成冗长、重复或离题的文本,形成“高熵低信息量”的无效探索。(b)词级概率扰动方法仅在局部高熵token上调整输出概率,通常仅能带来连接词替换或同义表达变化,难以突破预训练模型固化的深层推理偏好,无法持续改变后续推理方向。

当前基于熵的探索方法主要受限于两大问题(如图1所示):一是“奖励黑客”行为,模型为最大化熵奖励,会生成无信息量的冗余文本;二是预训练“归纳偏置”难以克服,仅在表层词汇概率上扰动,无法撼动模型内化的推理模式,探索流于形式。

为突破上述限制,我们提出了I²B-LPO框架。其核心创新在于:在识别出的高熵关键节点,不直接扰动输出词表概率,而是向模型的潜在表示空间注入结构化的、可控的探索分支。这相当于在推理的十字路口,为模型提供了几条内在逻辑迥异的“思维路标”。同时,框架集成了反馈过滤机制,能自动甄别并剔除冗长或无意义的探索路径,保障探索质量。该方法旨在固定的计算预算内,最大化探索效率,从而推动大模型推理能力的边界。



论文标题:I²B-LPO: Latent Policy Optimization via Iterative Information Bottleneck论文链接:https://arxiv.org/pdf/2601.05870开源链接:https://github.com/denghuilin-cyber/IIB-LPO

01 工作概述

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策