Agent基准测试榜单：最强模型仅8.6%，Claude Code挂零

2026-06-11阅读 0热度 0

Claude

当前AI模型在围棋博弈中击败人类冠军，并在各类标准基准测试中持续突破最高分。但为何这些能力难以转化为真实世界的生产力？

加州大学伯克利分校联合250多位行业专家组成的研究团队指出症结所在：“核心瓶颈并非AI技术，而是评估框架。”当前主流基准测试已无法有效反映AI在长周期、高价值真实业务流程中的表现。

针对这一缺陷，团队推出全新基准Agents’ Last Exam（ALE）。“最后考试”命名蕴含双重含义：既代表检验AI能力下限的门槛标准，也指向当前技术所能挑战的最高难度边界。只有当AI智能体真正通过ALE，其在标准基准上的分数跃进才具备实际参考价值。

ALE的测试结果直截了当：当前主流大模型在传统基准上表现亮眼，但在ALE最高难度层级中，平均完整任务通过率仅为2.6%。这表明AI智能体距离可靠执行复杂多步骤专业任务，还存在显著差距。

图注：Agents’ Last Exam 囊括了横跨多个行业的专业任务与真实工作流。

ALE究竟考核哪些能力？

Agents' Last Exam (ALE)是由250多位行业专家联合构建的AI智能体评估基准，专门用于衡量AI在持续时间长、经济回报高的真实工作流中的实际效能。

为测试AI能否像人类一样在计算机上完成真实职业任务，研究团队汇集了1490个实战任务，涵盖制造、法律、医疗、视觉媒体等多元领域。这些任务直接取自一线从业者的日常操作：例如要求AI绘制3D模型，或在达芬奇软件中完成绿幕抠像与视频合成。

图注：ALE分类体系下1490个任务实例的领域分布。

与常见的问答式或短流程基准不同，这些任务对智能体提出了更严苛的能力要求。研究团队将这类AI定义为通用型计算机使用智能体（Generalist Computer-Use Agent，GCUA）：它必须同时掌握界面操作、命令行执行、文件管理、代码编写、工具调用等技能，以完成完整的工作流程。

图注：通用型计算机使用智能体的典型架构。

为客观评估智能体真实水平，ALE搭建了一套可执行且可自动评分的任务环境。执行流程中，测试脚本负责加载任务、初始化环境并最终评分；智能体则依据任务描述自行感知环境状态、决策下一动作并持续迭代执行。任务完成后，脚本自动校验结果——93.2%的任务可实现全自动评分，无需人工干预。

图注：ALE任务构建与执行流程示意图。

ALE测试结果概览

研究团队数据显示，在最高难度任务层级中，当前最佳配置（Codex + GPT-5.5）完整通过率仅8.6%；主流AI系统的平均完整通过率仅为2.6%。

研究团队还提供了多个典型失败案例。例如音乐转谱任务要求输出总谱PDF、MIDI文件及界面截图，AI仅导出MIDI，得分为0。注塑仿真任务中，AI虽在Moldex3D中完成仿真并导出结果，但未能准确提取关键数值，最终得分0.4762。绿幕合成任务里，AI成功导出视频，但输出未达到参考标准，同样获得0分。

图注：ALE全面测试结果汇总。

图注：失败原因与实验分析概览。

研究团队进一步对失败原因进行归类。以Claude Code + Opus 4.7为分析对象，31%的错误源于理解偏差，47%源于方法选择不当，22%源于执行失误。理解与方法两类问题合计占比约八成。据此，研究团队推断当前智能体的主要短板在于领域知识储备不足，而非执行能力欠佳。

团队同时对比了模型与智能体框架对结果的影响程度。数据显示，切换模型带来的性能波动远大于切换Agent框架。固定Agent框架仅更换模型时，最高与最低通过率相差18个百分点；固定模型仅更换Agent框架时，差距仅约5-6个百分点。模型变量的影响范围约为Agent框架的三倍。

当前局限与后续发展

研究团队同时承认，ALE以SOC 2018职业分类体系为框架，目前主要覆盖软件型、数字化专业工作。测试任务目前也局限于在Linux或Windows虚拟机环境中运行。

此外，ALE各领域覆盖并不均匀。部分方向任务密度高，另一些则明显稀疏。例如能源与核工程仅有4个任务实例，城市与空间规划5个，法律领域15个。当前公开任务集仅占完整池的一部分。团队在Claude Code + Opus 4.7上验证发现，公开子集与完整任务池在各领域通过率上的相关系数仅为0.89。

团队强调，ALE被设计为持续迭代的开放式基准。未来将不断扩展任务池，纳入新的工作流与行业领域，同时私有池中的任务也会定期轮换至公开集。

Agent基准测试榜单：最强模型仅8.6%，Claude Code挂零

ALE究竟考核哪些能力？

ALE测试结果概览

当前局限与后续发展

相关阅读

最新教程

最新资讯