清华大学与UCSD联合发布：OREO训练法详解，让AI实现学霸级推理

2026-05-12阅读 0热度 0

清华大学

这项由清华大学与加州大学圣地亚哥分校（UCSD）等顶尖高校合作的研究，于2024年12月发表在arXiv预印本平台，论文编号为arXiv:2412.16145v2。它为AI训练领域带来了一个值得关注的新思路。

观察ChatGPT解数学题时，一个自然的疑问是：它究竟是如何一步步思考的？理想的推理过程，应当像一位学霸那样，先理解题意，再规划步骤，最后得出答案。然而，当前主流的AI训练方式，却更像一个只给最终分数、不做过程点评的老师——它告诉模型“这个答案对，那个答案错”，却无法指出具体哪一步的推理出了问题。

研究团队精准地指出了这个痛点：目前最流行的直接偏好优化（DPO）方法，在处理需要多步推理的复杂任务时显得力不从心。它依赖于成对的偏好数据，且只能对整个答案进行“好”或“坏”的粗糙评判。这就像只根据考试总分来指导学生，效率低下，尤其在步骤繁多、环环相扣的任务中。为此，团队提出了一套名为“离线推理优化”（OREO）的新训练框架。其核心，是为AI配备了一位“双料导师”：不仅评判最终结果，更能对推理链条中的每一步进行精准评估与指导。

传统方法的困境：过程评估的缺失

要理解OREO的创新，首先得看清现有方法的局限。DPO这类方法的工作原理，本质上是一种基于结果的二元反馈。它需要大量人工标注的“配对数据”（即明确哪个答案更好），并将整个输出序列视为一个不可分割的整体进行优化。

对于生成一段流畅的文本或回答一个简单问题，这种方式或许够用。但面对一道需要十几步推导的数学难题，或是一个需要分解为多个动作的机器人控制任务时，问题就暴露了。AI无法知晓错误究竟源于第三步的公式误用，还是最后一步的计算疏忽。更棘手的是，为复杂推理任务获取高质量、成对的偏好数据成本极高，且DPO平等对待所有词汇和步骤，无法区分关键决策点与常规操作，导致学习信号模糊，效率受限。

OREO的核心思想：双脑协同，步骤级优化

OREO的突破在于引入了“双脑协同”的架构。它不再只训练一个生成答案的模型，而是同步训练两个紧密配合的模块：

策略模型：负责生成具体的推理步骤，如同解题的“学生”。
价值函数：负责评估每一步推理的“好坏”与潜在价值，如同旁观的“点评导师”。

这两个模块并非孤立工作。策略模型在生成每一步时，会参考价值函数的评估来调整方向；价值函数则通过观察策略模型的生成轨迹来优化自己的评判标准。这种协同优化的理论基础是“软贝尔曼方程”，它引导系统不仅追求当前步骤的即时收益，更要考虑其对达成最终目标的长期价值，类似于高手下棋时的全局谋划。

技术实现：精准的步骤级信用分配

在具体实现上，OREO的核心是“步骤级信用分配”。传统方法如同仅公布比赛胜负，而OREO则致力于分析每一次传球、每一次射门的贡献。它会剖析推理链中的每一步：这一步是否澄清了问题？是否为后续关键推导铺平了道路？

价值函数的训练目标，是学会预测“从当前状态出发，最终成功解决问题的期望有多大”。研究团队设计了三种变体以适应不同场景：精细到每个词语的“词语级OREO”、以完整逻辑步骤为单位的“步骤级OREO”，以及用于对比的、模仿DPO整体评判模式的“响应级OREO”。为确保训练稳定，还采用了“停止梯度”等技术，防止两个模块在协同更新时相互干扰。

实验验证：数学与智能体任务上的显著提升

为了验证效果，团队在数学推理和智能体控制两大经典任务上进行了测试。

在数学领域，使用GSM8K（小学数学）和MATH（竞赛数学）数据集。结果令人印象深刻：一个仅1.5亿参数的“小模型”，经OREO训练后，在GSM8K上达到77.3%的正确率，在更具挑战的MATH上达到52.5%的正确率，相比传统监督学习方法提升显著。即便在一个已经表现很好的70亿参数“大模型”上，OREO仍能带来3.6%至5.1%的额外性能提升，证明了其普适性。

在ALFWorld模拟家庭环境的智能体控制任务中，OREO同样表现出色。尤其是在训练时未见过的新环境里，智能体的任务成功率提升了17.7%，这表明该方法增强了AI的泛化能力，而非仅仅记忆特定场景。

迭代训练与价值函数的双重红利

OREO支持迭代式训练。模型在首轮训练后，可以生成新的数据用于下一轮训练，如此循环，性能得以持续提升，且未出现传统方法常见的性能饱和现象。这是因为OREO能有效从失败经验中学习，明确哪些步骤导致了错误。

更巧妙的是，训练好的价值函数本身就是一个强大的推理辅助工具。在模型解题时，可以运用价值函数进行“树搜索”：在关键步骤同时探索多种可能路径，并选择价值评分最高的方向前进。这一技巧在MATH数据集上带来了17.9%的相对性能提升，相当于获得了一个“免费”的推理增强器。

理论贡献与应用前景

从理论上看，OREO的重要贡献在于将强化学习中的经典框架（如路径一致性学习）与语言模型训练进行了巧妙桥接。它从原理上解释了DPO的局限性——DPO可被视为OREO框架下一种放松了关键约束的特殊情况，这导致了其在多步推理任务上的信息损失。

展望未来，OREO所代表的“过程优化”范式潜力广阔。无论是需要多步规划的程序代码生成、涉及复杂逻辑链的科学推理，还是需理解上下文的多轮对话系统，凡是依赖分步决策的任务，都可能从这种细粒度的步骤评估与优化中受益。其迭代学习的能力，也为AI模型的持续进化提供了新路径。

总而言之，OREO的成功在于它正视并尝试解决了复杂推理的核心难题：对步骤差异化和步骤间依赖关系的建模。它标志着AI训练从只关注“最终答案是否正确”，向同时关注“获得答案的过程是否合理”迈出了关键一步。虽然这项研究聚焦于数学与智能体任务，但其核心思想——培养AI的“步骤意识”与“自我评估”能力——无疑为构建更可靠、更智能的AI系统提供了富有启发性的方向。

Q&A

Q1：OREO训练法和传统的DPO方法有什么区别？
A：核心区别在于评估粒度。OREO同时训练策略模型和价值函数，能对推理过程中的每一步进行好坏评估与优化；而DPO只能对整个最终答案进行简单的优劣比较，无法提供步骤级指导。此外，OREO不需要配对的偏好数据，能更有效地利用失败案例。

Q2：OREO方法在哪些任务上表现最好？
A：在需要多步推理的复杂任务上表现尤为突出，例如数学解题和智能体控制。实验显示，在竞赛级数学数据集MATH上，小模型就能达到优异水平；在陌生环境中的智能体控制任务上，成功率也有显著提升。

Q3：价值函数除了训练还有什么用处？
A：训练好的价值函数可直接用于增强推理时的决策。通过“树搜索”策略，在解题的每个关键点评估多种可能路径并选择最优，这能额外提升解题准确率，在实验中带来了可观的性能增益。