阿联酋AI大学新算法：更精准的评分系统深度解析

2026-05-26阅读 0热度 0

人工智能

（来源：科技行者）

阿联酋人工智能大学（MBZUAI）联合林雪平大学与澳大利亚国立大学的研究团队，于2026年5月在预印本平台arXiv上发布了一项新研究，论文编号为arXiv:2605.19436。

一、一个关于“信用分配”的核心难题

设想一个场景：三十名学生参加数学考试。老师批改后，仅依据最终答案正误进行奖惩——答对者全体加分，答错者全体扣分。问题随之浮现：一位学生写下了一个关键公式，成为解题的核心；另一位则在卷面上填充了大量“让我想想”之类的无关语句。然而，在现有规则下，关键步骤与无效文本获得了完全相同的奖励。

这个看似不公的比喻，精准映射了当前大语言模型训练中的“信用分配”困境。主流强化学习方法为AI生成的整段回答打分，答对则整体奖励，答错则整体惩罚。回答中的每个词元，无论是核心推理逻辑还是无意义的填充词，都接收到完全相同的训练信号。系统无法分辨究竟哪些词元对结果真正负责。

MBZUAI团队提出的“对比证据策略优化”（CEPO）方法，直指这一痛点。其核心逻辑是：判断一个词元是否关键，不能仅看它是否出现在正确答案中，还必须同时验证它是否在错误答案中缺席。只有同时满足这两个条件，该词元才被视为真正的功臣。

二、当前AI解题训练的主流范式

在深入CEPO之前，有必要厘清当前AI学习数学推理的主流技术路径。

目前广泛采用的是“基于可验证奖励的强化学习”。其流程是：AI针对问题生成多个候选回答，由自动验证器判断最终答案的正误，并据此给出整体得分。随后，系统依据得分高低，对高分组回答中的所有词元进行强化，对低分组中的所有词元进行削弱。这种方法被称为GRPO。

GRPO的优势在于实现简单、无需额外训练奖励模型。但其根本缺陷正是前述的信用分配模糊问题。在数学推理任务中，一个长篇回答可能包含数百个词元，而决定对错的往往只是寥寥几步关键推导。将宝贵的训练信号均匀分摊给所有词元，效率低下，且随着问题复杂度与回答长度的增加，这一问题会急剧恶化。

三、“特权信息”方法的理论陷阱

一个直观的改进思路是：既然已知正确答案，何不让AI在“知晓答案”的前提下回顾解题过程，从而识别关键步骤？

这类“特权信息自蒸馏”方法，如OPSD和SDPO，正是基于此构想。它们将正确答案作为额外输入，让模型生成一个“教师”概率分布，并以此指导常规训练。

然而，MBZUAI的合作研究者已从理论上证明，此类方法存在一个结构性缺陷：只要使用“知晓答案时的全词汇概率分布”作为目标，梯度中就必然混杂一种“信息泄漏”的毒素。这种毒素会引导模型直接记忆答案模式，而非学习推理过程。随着训练推进，模型会逐渐学会“猜答案”而非“解问题”。

实验结果印证了这一理论：OPSD和SDPO训练后的模型，在五个基准测试中的四个出现了性能倒退，准确率甚至低于未经训练的基础模型。这并非工程失误，而是方法本身固有的理论局限。

四、RLSD：安全但不够精准的初步方案

为规避信息泄漏，此前的研究提出了RLSD方法。

RLSD的机制可类比为：允许证人影响判决的“力度”，但不能改变判决的“方向”。具体而言，它不再使用完整的教师分布，而是仅针对模型实际生成的每个词元，计算“知晓答案时生成该词元的概率”与“不知晓答案时生成该词元的概率”的比值（即证据比）。该比值仅用于微调GRPO原有奖励的幅度，而不改变其正负符号。

这种方法成功封堵了信息泄漏，但其提供的信号质量存在三个显著局限：

1. 流畅度混淆：证据比的分母是词元的基础生成概率。高频词（如“的”、“是”）本身概率就高，导致其证据比被压低，即使正确答案支持它，也难以获得高权重。

2. 不对称的负向信号：对于错误回答，RLSD的惩罚逻辑是“正确答案不喜欢这个词，所以加大惩罚”，但这并未直接关联“错误答案是否特别喜欢这个词”。

3. 单侧证据：RLSD无法区分“正确答案和错误答案都喜欢的词”与“仅正确答案喜欢且错误答案厌恶的关键词”。后者显然更为重要，但两者可能拥有相同的证据比。

五、CEPO的核心突破：引入双重对照

CEPO的解决思路是实施“双重考察”。

评估一个词元是否关键，不能只看它在成功样本中是否出现，更要看它在失败样本中是否恰好缺席。CEPO将RLSD的“证据比”替换为“对比证据差值”，即计算“知晓正确答案时生成该词元的概率”与“知晓错误答案时生成该词元的概率”之差。

这里的“错误答案”可直接从同一批训练数据中错误回答的最终答案获取，无需额外计算成本。

这一差值具有清晰的贝叶斯解释：它衡量了该词元在多大程度上同时增强了对正确答案的信念并削弱了对错误答案的信念。差值大的词元是真正的推理枢纽；差值接近零的词元则很可能是无关的填充内容。

由此，RLSD的三个问题迎刃而解：流畅度因子被消除；对错误回答的惩罚信号变得对称且明确；能够有效区分“双侧无感词”与“单侧关键词”。

六、CEPO的理论安全保障

研究团队严格证明了CEPO具备以下关键特性：

方向锚定：对比证据差值仅调整训练信号的强度，绝不会反转其方向（即不会将应奖励的变为惩罚，反之亦然）。

无泄漏梯度：正确答案与错误答案在计算中以“停止梯度”的形式存在，仅作为静态参考值，不参与参数更新，从根本上杜绝了信息泄漏。

RLSD包含性：当“错误答案教师”的概率分布与基础学生模型相同时，CEPO精确退化为RLSD。这意味着CEPO是RLSD更一般的泛化形式。

此外，研究证明，CEPO仅在错误答案“主动排斥”某个词元时，才会赋予其比RLSD更高的信用权重——而这正是关键推理步骤的典型特征。对于填充词，CEPO与RLSD的权重基本一致，避免了在无信号处引入噪声。

七、CEPO算法流程详解

CEPO的训练流程清晰且高效：

1. 生成与分组：针对给定问题，模型生成一批回答，并根据验证结果分为“正确组”与“错误组”。

2. 获取对照答案：从正确组提取正确答案文本；从错误组选取得分最低的回答，提取其最终答案作为错误答案参考。

3. 计算对比证据：让当前模型分别扮演“知晓正确答案”和“知晓错误答案”的两位“教师”，对回答中的每个词元，计算两位教师生成概率的差值。

4. 调整奖励：使用该差值对GRPO的基础奖励进行缩放。对于正确回答，正差值调高奖励；对于错误回答，正差值（意味着错误答案喜欢该词）则加大惩罚。调整幅度设有截断阈值，以确保训练稳定性。

5. 渐进衰减：引入一个随时间衰减的系数，使对比证据的影响在训练后期逐渐减弱。这符合模型早期更需要精细指导，后期趋于稳定的学习规律。

八、实验结果：性能显著提升

实验在包含3000道几何题的数据集上训练，并在五个独立的多模态数学推理基准上评估。

在20亿参数模型上，CEPO平均准确率达到43.43%，较GRPO的41.17%提升2.26个百分点。而OPSD与SDPO分别降至34.96%和35.70%，低于基础模型，证实了信息泄漏的危害。

在40亿参数模型上，CEPO达到60.56%，GRPO为57.43%，提升3.13个百分点。

提升幅度因任务而异：在需要多步、细粒度推理的基准上，提升最高达约6个百分点；而在以选择题为主、推理链较短的基准上，提升较小。这与信用分配问题在复杂任务中影响更大的预期相符。

训练曲线显示，CEPO在早期即展现出加速收敛优势。计算开销方面，CEPO因需额外一次前向传播，训练时间从GRPO的约6小时增至6.5小时，代价可控。

九、消融实验验证设计有效性

研究通过一系列消融实验，验证了各个设计环节的必要性：

教师参数：让“教师”与“学生”共享同一套参数效果最佳，且更节省内存。

参考构建：最佳方案是使用正确答案文本作为正向参考，仅使用错误回答的最终答案（而非全文）作为负向参考。过多的错误文本反而引入噪声。

截断阈值：在0.4至0.5之间效果最优，过高导致不稳定，过低则效果趋近于GRPO。

衰减策略：线性衰减或快速衰减方案均优于固定强度方案，表明对比信号的主要收益集中在训练早期。

十、可视化洞察：信用分配的精准化

分析显示，训练早期，模型生成与正确答案逻辑一致的词元的比例持续上升，而与错误答案逻辑相符的词元比例下降。

在一道具体的几何题案例中，可视化对比清晰地展示了CEPO与RLSD的差异：RLSD将较高权重分配给了“让我整理思路”等叙述性语句；而CEPO则将高权重精准聚焦于建立方程、代数求解等关键推导步骤上。同时，CEPO对关键步骤的权重区分度更高，动态范围更广。

这直观印证了CEPO的理论优势：当错误答案概率主动压低某个词元时，CEPO的对比差值会显著升高，从而精准捕获那些推动正确答案、同时被错误答案排斥的核心推理词。

CEPO的本质，是将评估标准从一个简单问题升级为一个更苛刻的问题：不仅问“答对时是否用了它”，更要问“答错时是否没用它”。这一转变，将训练信号从“大水漫灌”变为“精准滴灌”。

这项研究的巧妙之处在于，其核心创新并非增加复杂模块，而是更换了比较的基准——用“犯错的自己”作为分母，替代了原有的“基础自己”。仅此一换，就在不增加采样、不引入外部模型的前提下，实现了性能的实质性提升。

从应用角度看，这意味着未来的AI在处理复杂推理时，将更倾向于聚焦关键逻辑，减少无关赘述。随着大模型被应用于更长链条的推理任务，这种精准信用分配技术的优势将愈发凸显。

目前研究已在几何推理和视觉语言模型上得到验证。团队指出，将CEPO推广至纯文本推理、代码生成及更大规模模型，是下一步明确的研究方向。

Q&A

Q1：CEPO和GRPO训练AI的本质区别是什么？

GRPO对回答中的所有词元给予无差别的奖励或惩罚。CEPO则引入了一个基于错误答案的对照信号，使那些“在正确回答中出现、在错误回答中缺席”的关键词元获得显著更高的信用分，而无关的填充词元所得信号基本不变，从而实现更精准、高效的训练。

Q2：OPSD和SDPO为什么训练后反而比没训练的AI更差？

这两种方法在训练目标中引入了“知晓正确答案时的完整概率分布”，导致梯度中包含直接编码答案信息的“信息泄漏”信号。这会使模型逐渐学会记忆答案模式而非推理过程，在新问题上泛化能力下降。这是方法固有的理论缺陷。

Q3：CEPO的负向参考答案从哪里来，需要额外生成吗？

不需要额外生成。负向参考直接取自同一训练批次中，由模型自身产生的错误回答。通常选取其中得分最低的错误回答的最终答案即可。该过程完全利用已有数据，没有额外的采样或计算成本，工程上非常高效。