多目标强化学习新突破：GDPO高效优化路径

2026-06-11阅读 0热度 0

人工智能

论文标题：GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
作者列表：Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Peter Belcak, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pa vlo Molchanov

研究概述

本文聚焦语言模型训练中日益关键的多奖励强化学习优化问题。现有GRPO算法在单奖励场景下表现良好，但面对多个奖励信号时，奖励坍缩导致训练信号区分度丢失，模型收敛至次优点甚至训练失败。作者提出GDPO——对各奖励分别做组归一化，再结合批次优势归一化，从而保留奖励差异并维持数值稳定性。实验涵盖工具调用、数学推理、代码推理三大任务，结果显示GDPO在正确性、约束遵守度等指标上全面超越GRPO及其变体。此外，文章还探讨了通过调整奖励权重和设计条件化奖励函数来应对目标难度差异的实用方案，为语言模型对齐多样化人类偏好提供了更稳定高效的优化框架。

核心技术解析

语言模型能力增强后，用户需求同步升级——答案不仅要正确，还需高效、安全、逻辑清晰。这使得多奖励强化学习成为主流训练范式。那么，关键挑战在哪里？

研究背景

领域现状：当前许多研究直接采用组相对策略优化（GRPO）处理多奖励场景，但GRPO本质为单奖励设计。面对异构奖励组合时，不同奖励得分被压缩为近似相同的优势值，训练信号分辨率大幅降低，收敛效果严重受损。
关键问题：GRPO在多奖励场景下的适用性缺乏充分验证，信号坍缩问题被普遍忽视。

研究目的

核心目标：解决GRPO在多奖励强化学习中奖励信号坍缩问题，恢复不同奖励维度的区分度。
提出稳定高效的策略优化方法，使模型在多目标任务中更好收敛，更贴合人类偏好。
系统探索奖励权重调整与奖励函数修改两种方式，分析其应对目标难度差异的效果，以实现更精准的偏好优先级建模。

本文核心贡献

揭示GRPO缺陷：通过实验数据证明GRPO在多奖励场景下压缩奖励信号，导致优势估计信息丢失——这是结构性局限而非小问题。
提出GDPO方法：设计组奖励解耦归一化策略，即对每个奖励独立进行组内归一化后聚合，再通过批次归一化稳定数值范围。思路简洁但效果显著。
提供优先级建模方案：系统说明如何通过调整奖励权重或修改奖励函数（如条件化奖励）来应对目标难度差异，使偏好优先级融入更可控。
多场景验证：在工具调用、数学推理、代码推理三大任务中验证，覆盖不同奖励数量和模型规模，结论具有充分说服力。

研究方法

核心方法论：采用对比实验法，以GRPO及去除标准差归一化的GRPO变体为基线，验证GDPO效果。
技术路线：GDPO操作流程：先对各奖励单独组内归一化，再聚合归一化后的优势值，最后用批次归一化稳定数值范围。该流程确保每个奖励信号不被其他奖励稀释。
实验设计：
- 任务设置：工具调用任务优化正确性和格式合规性；数学推理任务优化准确性和长度约束；代码推理任务优化通过率、长度约束和bug率。
- 模型与数据：基于Qwen、DeepSeek系列模型，在ToolACE、DeepScaleR-Preview、Eurus-2-RL等数据集上训练。
- 评估指标：包括正确性（准确率、通过率）、约束遵守度（格式合规率、长度超标率）、代码质量（bug率）等。
- 数据处理：采用HF-TRL、verl、Nemo-RL等框架实现，统一超参数设置，通过多次实验取平均值与四分位距保证结果可靠性。

研究结果

GDPO全面优于GRPO：工具调用任务中准确率和格式合规率显著提升；数学推理任务中AIME数据集准确率最高提升6.3%，准确率与长度约束平衡更佳；代码推理任务中多奖励设置下通过率未下降，长度超标率和bug率反而降低。
GRPO变体效果有限：去除标准差归一化的GRPO虽略微增加优势组数量，但导致训练不稳定，如工具调用格式合规率直接降至0%，无法改善核心性能。
条件化奖励更有效：针对目标难度差异，条件化奖励函数比单纯调整权重更能实现偏好优先级对齐。GDPO结合该函数可进一步提升优先级目标性能。

总结与展望

核心结论：GDPO通过解耦奖励归一化成功解决GRPO在多奖励优化中的信号坍缩问题，在稳定性、收敛速度和偏好对齐度上显著优于GRPO，是多奖励强化学习的更优选择。
局限性：目前未深入探索超过3个奖励的场景，奖励权重和条件化函数的自适应调整尚不充分。
未来方向：可拓展至更多奖励维度和复杂任务场景，研究奖励优先级自适应建模方法，也可探索GDPO与PPO变体等其他RL算法的结合。