ACL'26美团中稿:能力评测与推理优化新范式

2026-06-06阅读 0热度 0
美团

ACL(计算语言学协会年会)是计算语言学和自然语言处理(NLP)领域公认的国际顶级学术会议。自1962年创会以来,它已成为全球NLP研究者心目中的标杆性盛会,汇集了学术界与工业界最前沿的思维与创新成果。

今年,美团技术团队的多篇论文被ACL、SIGIR、ICML、KDD等顶会收录。我们从这些论文中精选了32篇,按五大主题进行解读。本场聚焦ACL收录的6篇,涵盖大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化、生成式推荐等方向。以下直接进入正题。

01 CoreCodeBench: Decoupling Code Intelligence via Fine-Grained Repository-Level Tasks

CoreCodeBench:通过细粒度仓库级任务解耦代码智能

论文下载:PDF

这篇论文提出了一套名为CoreCodeBench的评测基准,用于精准评估大语言模型的编程能力。其核心思路是利用COREPIPE框架,从12个Python开源库中自动生成1,524个结构化的编程任务。这些任务不仅限于编写函数,还覆盖开发、调试、测试驱动开发等真实软件工程场景。关键亮点在于它能够有效区分不同认知负载的任务,并动态调整任务难度。实验显示,该方法的有效性达到78.55%,显著优于现有方案,同时揭示了模型在不同任务类型上存在明显的“能力错配”——模型可能擅长小脚本,但在修复仓库级复杂问题时表现欠佳。CoreCodeBench还支持多任务组合评测,更贴近实际开发环境,为代码智能评估提供了更全面、更精确的度量标准。

02 SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating Procedures

SOP-Maze:评估大语言模型在复杂业务标准操作流程上的表现

论文下载:PDF

当前大模型被广泛用作智能体,但多数评测仍停留在“下指令、做决策”这类单一任务上。真实业务场景通常伴随着一套复杂且严谨的标准操作流程(SOP)。模型能否严格遵循这份“操作手册”完成任务?为解答这一问题,研究者基于真实业务数据构建了SOP-Maze测试集,包含来自23个复杂SOP场景的397个实例和3422个子任务。

论文将SOP任务分为两大类:“侧根系统”(LRS)代表选项众多、需要精准选择的“广”型任务;“主根系统”(HRS)则强调带有复杂分支、需要深度逻辑推理的“深”型任务。结果显明,几乎所有先进模型在SOP-Maze上表现都不理想。作者归纳出三类典型失败场景:一是“路线盲区”,模型难以完整遵循流程;二是“对话脆弱性”,无法处理真实对话中的细微偏差;三是“计算错误”,在复杂上下文中时间或算术推理频繁出错。简而言之,这项工作是对模型“按复杂流程办事”的综合能力测试,结果暴露了当前模型在广度和深度上的明显短板。

03 AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

AMO-Bench:大语言模型在高中数学竞赛中仍面临挑战

论文下载:PDF

这是一个“较真”的评测。当顶尖大模型在AIME这类数学竞赛上性能趋于饱和,不少人以为AI已接近“奥数金牌”水平。但该论文给出了一个更严苛的测试基准——AMO-Bench,包含50道人工命题、极高难度的数学推理题。其“含金量”由三个设计原则保障:第一,经专家验证,题目难度达到或超过国际奥数(IMO)水平;第二,所有题目完全原创,杜绝数据污染;第三,只要求最终答案,支持自动评测。结果如何?在26款大模型的评测中,表现最好的模型准确率仅为52.4%,绝大多数模型甚至不到40%。这一结果直观表明:尽管通过增加“测试时计算”展现出一定扩展潜力,但大模型在真正的数学推理上仍有巨大提升空间,远未达到“毕业”阶段。

04 The Evolution of Thought: Tracking LLM Overthinking via Reasoning Dynamics Analysis

思维的进化:通过推理动态分析追踪大语言模型的过度思考

论文下载:PDF

使用推理模型时,常遇到模型在答案已明确后仍“自言自语”,生成大量冗余思考过程。该论文聚焦于这一“过度思考”现象。作者从两类推理动态入手分析:一是思维长度与答案内容之间的补偿关系,二是语义表示从探索到收敛的轨迹变化。基于这些发现,他们提出了关键概念——实例级推理完成点(RCP),用于区分答案形成前的有效探索和答案稳定后的冗余延伸。更实用的是,他们进一步设计了RCP检测器,能在AIME、GPQA等任务上有效减少生成Token的数量,同时基本保持模型准确率。这意味着,或许可以帮助模型“戒掉”不必要的思考,使其更快、更果断地给出答案。

05 MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning

MASPO:统一梯度利用、概率质量和信号可靠性以实现鲁棒且样本高效的大语言模型推理

论文下载:PDF

这篇论文针对大模型推理后训练中的强化学习优化问题。在可验证奖励的强化学习(RLVR)场景下,现有的GRPO等方法在训练稳定性和样本效率上存在不足。问题根源在于,它们依赖固定、对称的硬截断信任域,与token的长尾分布、稀疏奖励以及正负样本的可靠性差异不匹配。

针对这些问题,MASPO提出了三大创新:

  • Soft Gaussian Gating,用软门控替代硬裁剪,更有效地保留梯度信息;
  • Mass-Adaptive Limiter,根据token的概率动态调整约束,提升了模型在长尾部分探索的可能性;
  • Asymmetric Risk Controller,区分对待正负样本的可靠性,对噪声多的负样本处理更谨慎。

实验证明,在多个数学推理基准和不同模型规模上,MASPO相比基线获得了更优的Avg@32与Pass@32表现。这意味着训练过程更鲁棒,模型在面对复杂推理任务时上限也更高。

06 Factorized Latent Reasoning for LLM-based Recommendation

基于分解式隐式推理的生成式推荐

论文下载:PDF

最后一篇关于生成式推荐。在推荐任务中,现有隐式推理方法通常用一个单一的隐向量表征用户意图。但问题在于,用户偏好往往是多维的——例如既喜欢科幻片,又对喜剧片情有独钟,还偏爱某位导演的作品,这些偏好很难用一个“小盒子”完全装下。

本文提出的FLR,将隐式推理分解为多个语义解耦的偏好因子,并引入轻量级的多因子注意力模块,在隐式思维空间中进行多维推理。为避免训练不稳定,他们还提出了FLR-GRPO,利用噪声注入与无噪声组内对比实现稳定对齐。在Amazon数据集上,FLR相比最强基线LatentR3平均提升3.2%,其中Games子集提升达到10.26%。该方案使隐式推理语义透明,推荐效果更佳。

活动报名

识别图上二维码或点击报名

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策