ACL'26美团中稿：能力评测与推理优化新范式

2026-06-06阅读 0热度 0

美团

ACL（计算语言学协会年会）是计算语言学和自然语言处理（NLP）领域公认的国际顶级学术会议。自1962年创会以来，它已成为全球NLP研究者心目中的标杆性盛会，汇集了学术界与工业界最前沿的思维与创新成果。

今年，美团技术团队的多篇论文被ACL、SIGIR、ICML、KDD等顶会收录。我们从这些论文中精选了32篇，按五大主题进行解读。本场聚焦ACL收录的6篇，涵盖大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化、生成式推荐等方向。以下直接进入正题。

01 CoreCodeBench: Decoupling Code Intelligence via Fine-Grained Repository-Level Tasks

CoreCodeBench：通过细粒度仓库级任务解耦代码智能

论文下载：PDF

这篇论文提出了一套名为CoreCodeBench的评测基准，用于精准评估大语言模型的编程能力。其核心思路是利用COREPIPE框架，从12个Python开源库中自动生成1,524个结构化的编程任务。这些任务不仅限于编写函数，还覆盖开发、调试、测试驱动开发等真实软件工程场景。关键亮点在于它能够有效区分不同认知负载的任务，并动态调整任务难度。实验显示，该方法的有效性达到78.55%，显著优于现有方案，同时揭示了模型在不同任务类型上存在明显的“能力错配”——模型可能擅长小脚本，但在修复仓库级复杂问题时表现欠佳。CoreCodeBench还支持多任务组合评测，更贴近实际开发环境，为代码智能评估提供了更全面、更精确的度量标准。

02 SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating Procedures

SOP-Maze：评估大语言模型在复杂业务标准操作流程上的表现

论文下载：PDF

当前大模型被广泛用作智能体，但多数评测仍停留在“下指令、做决策”这类单一任务上。真实业务场景通常伴随着一套复杂且严谨的标准操作流程（SOP）。模型能否严格遵循这份“操作手册”完成任务？为解答这一问题，研究者基于真实业务数据构建了SOP-Maze测试集，包含来自23个复杂SOP场景的397个实例和3422个子任务。

论文将SOP任务分为两大类：“侧根系统”（LRS）代表选项众多、需要精准选择的“广”型任务；“主根系统”（HRS）则强调带有复杂分支、需要深度逻辑推理的“深”型任务。结果显明，几乎所有先进模型在SOP-Maze上表现都不理想。作者归纳出三类典型失败场景：一是“路线盲区”，模型难以完整遵循流程；二是“对话脆弱性”，无法处理真实对话中的细微偏差；三是“计算错误”，在复杂上下文中时间或算术推理频繁出错。简而言之，这项工作是对模型“按复杂流程办事”的综合能力测试，结果暴露了当前模型在广度和深度上的明显短板。

03 AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

AMO-Bench：大语言模型在高中数学竞赛中仍面临挑战

论文下载：PDF

这是一个“较真”的评测。当顶尖大模型在AIME这类数学竞赛上性能趋于饱和，不少人以为AI已接近“奥数金牌”水平。但该论文给出了一个更严苛的测试基准——AMO-Bench，包含50道人工命题、极高难度的数学推理题。其“含金量”由三个设计原则保障：第一，经专家验证，题目难度达到或超过国际奥数（IMO）水平；第二，所有题目完全原创，杜绝数据污染；第三，只要求最终答案，支持自动评测。结果如何？在26款大模型的评测中，表现最好的模型准确率仅为52.4%，绝大多数模型甚至不到40%。这一结果直观表明：尽管通过增加“测试时计算”展现出一定扩展潜力，但大模型在真正的数学推理上仍有巨大提升空间，远未达到“毕业”阶段。

04 The Evolution of Thought: Tracking LLM Overthinking via Reasoning Dynamics Analysis

思维的进化：通过推理动态分析追踪大语言模型的过度思考

论文下载：PDF

使用推理模型时，常遇到模型在答案已明确后仍“自言自语”，生成大量冗余思考过程。该论文聚焦于这一“过度思考”现象。作者从两类推理动态入手分析：一是思维长度与答案内容之间的补偿关系，二是语义表示从探索到收敛的轨迹变化。基于这些发现，他们提出了关键概念——实例级推理完成点（RCP），用于区分答案形成前的有效探索和答案稳定后的冗余延伸。更实用的是，他们进一步设计了RCP检测器，能在AIME、GPQA等任务上有效减少生成Token的数量，同时基本保持模型准确率。这意味着，或许可以帮助模型“戒掉”不必要的思考，使其更快、更果断地给出答案。

05 MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning

MASPO：统一梯度利用、概率质量和信号可靠性以实现鲁棒且样本高效的大语言模型推理

论文下载：PDF

这篇论文针对大模型推理后训练中的强化学习优化问题。在可验证奖励的强化学习（RLVR）场景下，现有的GRPO等方法在训练稳定性和样本效率上存在不足。问题根源在于，它们依赖固定、对称的硬截断信任域，与token的长尾分布、稀疏奖励以及正负样本的可靠性差异不匹配。

针对这些问题，MASPO提出了三大创新：

Soft Gaussian Gating，用软门控替代硬裁剪，更有效地保留梯度信息；
Mass-Adaptive Limiter，根据token的概率动态调整约束，提升了模型在长尾部分探索的可能性；
Asymmetric Risk Controller，区分对待正负样本的可靠性，对噪声多的负样本处理更谨慎。

实验证明，在多个数学推理基准和不同模型规模上，MASPO相比基线获得了更优的Avg@32与Pass@32表现。这意味着训练过程更鲁棒，模型在面对复杂推理任务时上限也更高。

06 Factorized Latent Reasoning for LLM-based Recommendation

基于分解式隐式推理的生成式推荐

论文下载：PDF

最后一篇关于生成式推荐。在推荐任务中，现有隐式推理方法通常用一个单一的隐向量表征用户意图。但问题在于，用户偏好往往是多维的——例如既喜欢科幻片，又对喜剧片情有独钟，还偏爱某位导演的作品，这些偏好很难用一个“小盒子”完全装下。

本文提出的FLR，将隐式推理分解为多个语义解耦的偏好因子，并引入轻量级的多因子注意力模块，在隐式思维空间中进行多维推理。为避免训练不稳定，他们还提出了FLR-GRPO，利用噪声注入与无噪声组内对比实现稳定对齐。在Amazon数据集上，FLR相比最强基线LatentR3平均提升3.2%，其中Games子集提升达到10.26%。该方案使隐式推理语义透明，推荐效果更佳。

活动报名

识别图上二维码或点击报名

ACL'26美团中稿：能力评测与推理优化新范式

01 CoreCodeBench: Decoupling Code Intelligence via Fine-Grained Repository-Level Tasks

02 SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating Procedures

03 AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

04 The Evolution of Thought: Tracking LLM Overthinking via Reasoning Dynamics Analysis

05 MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning

06 Factorized Latent Reasoning for LLM-based Recommendation

活动报名

相关阅读

最新教程

最新资讯