Agent基准测试榜单:最强模型仅8.6%,Claude Code挂零

2026-06-11阅读 0热度 0
Claude

当前AI模型在围棋博弈中击败人类冠军,并在各类标准基准测试中持续突破最高分。但为何这些能力难以转化为真实世界的生产力?

加州大学伯克利分校联合250多位行业专家组成的研究团队指出症结所在:“核心瓶颈并非AI技术,而是评估框架。”当前主流基准测试已无法有效反映AI在长周期、高价值真实业务流程中的表现。

针对这一缺陷,团队推出全新基准Agents’ Last Exam(ALE)。“最后考试”命名蕴含双重含义:既代表检验AI能力下限的门槛标准,也指向当前技术所能挑战的最高难度边界。只有当AI智能体真正通过ALE,其在标准基准上的分数跃进才具备实际参考价值。

ALE的测试结果直截了当:当前主流大模型在传统基准上表现亮眼,但在ALE最高难度层级中,平均完整任务通过率仅为2.6%。这表明AI智能体距离可靠执行复杂多步骤专业任务,还存在显著差距。

图注:Agents’ Last Exam 囊括了横跨多个行业的专业任务与真实工作流。

ALE究竟考核哪些能力?

Agents' Last Exam (ALE)是由250多位行业专家联合构建的AI智能体评估基准,专门用于衡量AI在持续时间长、经济回报高的真实工作流中的实际效能。

为测试AI能否像人类一样在计算机上完成真实职业任务,研究团队汇集了1490个实战任务,涵盖制造、法律、医疗、视觉媒体等多元领域。这些任务直接取自一线从业者的日常操作:例如要求AI绘制3D模型,或在达芬奇软件中完成绿幕抠像与视频合成。

图注:ALE分类体系下1490个任务实例的领域分布。

与常见的问答式或短流程基准不同,这些任务对智能体提出了更严苛的能力要求。研究团队将这类AI定义为通用型计算机使用智能体(Generalist Computer-Use Agent,GCUA):它必须同时掌握界面操作、命令行执行、文件管理、代码编写、工具调用等技能,以完成完整的工作流程。

图注:通用型计算机使用智能体的典型架构。

为客观评估智能体真实水平,ALE搭建了一套可执行且可自动评分的任务环境。执行流程中,测试脚本负责加载任务、初始化环境并最终评分;智能体则依据任务描述自行感知环境状态决策下一动作持续迭代执行。任务完成后,脚本自动校验结果——93.2%的任务可实现全自动评分,无需人工干预

图注:ALE任务构建与执行流程示意图。

ALE测试结果概览

研究团队数据显示,在最高难度任务层级中,当前最佳配置(Codex + GPT-5.5)完整通过率仅8.6%;主流AI系统的平均完整通过率仅为2.6%

研究团队还提供了多个典型失败案例。例如音乐转谱任务要求输出总谱PDF、MIDI文件及界面截图,AI仅导出MIDI,得分为0。注塑仿真任务中,AI虽在Moldex3D中完成仿真并导出结果,但未能准确提取关键数值,最终得分0.4762。绿幕合成任务里,AI成功导出视频,但输出未达到参考标准,同样获得0分

图注:ALE全面测试结果汇总。

图注:失败原因与实验分析概览。

研究团队进一步对失败原因进行归类。以Claude Code + Opus 4.7为分析对象,31%的错误源于理解偏差,47%源于方法选择不当,22%源于执行失误。理解与方法两类问题合计占比约八成。据此,研究团队推断当前智能体的主要短板在于领域知识储备不足,而非执行能力欠佳

团队同时对比了模型与智能体框架对结果的影响程度。数据显示,切换模型带来的性能波动远大于切换Agent框架。固定Agent框架仅更换模型时,最高与最低通过率相差18个百分点;固定模型仅更换Agent框架时,差距仅约5-6个百分点。模型变量的影响范围约为Agent框架的三倍。

当前局限与后续发展

研究团队同时承认,ALE以SOC 2018职业分类体系为框架,目前主要覆盖软件型、数字化专业工作。测试任务目前也局限于在Linux或Windows虚拟机环境中运行。

此外,ALE各领域覆盖并不均匀。部分方向任务密度高,另一些则明显稀疏。例如能源与核工程仅有4个任务实例,城市与空间规划5个,法律领域15个。当前公开任务集仅占完整池的一部分。团队在Claude Code + Opus 4.7上验证发现,公开子集与完整任务池在各领域通过率上的相关系数仅为0.89。

团队强调,ALE被设计为持续迭代的开放式基准。未来将不断扩展任务池,纳入新的工作流与行业领域,同时私有池中的任务也会定期轮换至公开集。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策