37万次实测Agent榜单:GPT-5.5High第一,Claude最稳,五维能力解析

2026-06-14阅读 0热度 0
Claude

过去模型在SWE-Bench等标准化测试中能拿到80%的准确率,但部署到真实开发环境后,失败率高达七成。这种基准分数与实际Agent能力之间的鸿沟,每一位Agent开发者都感同身受——这已经是行业共识的痛点。

6月4日,Arena.ai正式发布Agent Arena排行榜,基于373,431次真实用户会话数据,对18个主流模型的Agent实战能力进行了全面评估。这一次,评测脱离了标准化的考试框架,直接聚焦模型的真实干活能力。

战力榜首:GPT-5.5 High登顶,前五名被OpenAI与Anthropic包揽

先看总榜。Agent Arena的排名核心指标是“净改进”(Net Improvement),通过因果推断方法计算每个模型相较于随机基线的性能提升幅度。正值表示优于随机选择,负值则意味着表现更差。

GPT-5.5 High以+10.66%的净改进率拿下第一,Claude Opus 4.7 Thinking紧随其后,达到+9.47%。GPT-5.4 High排名第三,净改进+8.92%。Claude Opus 4.6位居第四,+8.14%。GPT-5.5标准版位列第五,+7.47%。前五名全部来自OpenAI和Anthropic,这两家厂商在Agent能力上的领先优势十分突出。

37万次真实会话实测Agent榜单:GPT-5.5High第一,Claude最稳,真实干活能力看这五项核心指标

国产模型方面,GLM-5.1(智谱)以+3.38%的净改进位列第八,Bash恢复能力表现亮眼,达到10.37%,已接近第一梯队水平。Kimi K2.6和DeepSeek V4 Pro也进入了总榜,但分项指标上各有短板。整体而言,国产模型在工具稳定性方面仍有提升空间,但任务恢复能力已经具备一定竞争力。

分项指标上的差异比总榜更具分析价值。Claude Opus 4.7 Thinking在“确认成功”指标上的净改进达到7.95%,为所有模型最高——这意味着它在确保任务真正完成方面最可靠。GPT-5.5 High在“表扬与抱怨”信号上的净改进以14.95%大幅领先,超出Opus 4.7 Thinking的12.18%

37万次真实会话实测Agent榜单:GPT-5.5High第一,Claude最稳,真实干活能力看这五项核心指标

37万次真实会话实测Agent榜单:GPT-5.5High第一,Claude最稳,真实干活能力看这五项核心指标

Agent Arena:让模型走出考场,回到真实开发场景

传统基准测试(SWE-Bench、MMLU等)考察的是标准化题目,一次问答、一次打分即可完成。但实际工作中,Agent需要应对多轮交互、工具调用失败、shell报错、用户中途变更需求等复杂场景。传统基准无法覆盖这些维度,分数自然无法反映真实干活能力。

Agent Arena采用了截然不同的方法。它没有预设题目,而是记录真实用户在平台上使用Agent执行任务的完整会话。每个会话包含多轮交互,用户可以对结果进行批准、纠正或表达不满,Agent则要应对shell报错、工具调用失败等真实环境反馈。一次会话记录的不只是最终结果,还包括每一轮的工具调用链、bash命令的退出码以及用户的实时评价。

本次排行榜共记录了373,431次会话,18个模型参与评估。仅最近一周就记录了160,480个任务、206万次工具调用,Agent生成的代码总量达4,030万行。任务类型覆盖了开发者日常的绝大部分场景:代码编写占17.5%、研究查找占10.8%、规划与头脑风暴占10.6%、图片视频处理占10.2%、文档创建占9.1%、代码调试占8.9%——基本涵盖了开发者在实际工作中会遇到的各类场景。

37万次真实会话实测Agent榜单:GPT-5.5High第一,Claude最稳,真实干活能力看这五项核心指标

37万次真实会话实测Agent榜单:GPT-5.5High第一,Claude最稳,真实干活能力看这五项核心指标

排行榜采用五个独立分项指标来拆解Agent表现,每个指标对应真实工作中的一项核心能力:

确认成功:用户最终是否点击“批准”按钮。这是最直接的成败指标,统计每次会话中用户对最终结果的判定。Claude Opus 4.7 Thinking在此信号上以+7.95%领先。

表扬与抱怨:系统自动识别用户消息中的正面与负面表达。表扬数量超过抱怨则任务记为成功。GPT-5.5 High以+14.95%排名第一,说明其输出结果最让用户满意。

可控性:Agent被用户纠正后能否正确调整。现实中错误难以避免,能否被顺利纠回正轨才是硬功夫。GPT-5.5 High以+12.03%领先,GLM-5.1此项为-3.41%,被纠正后容易偏离方向。

Bash恢复:统计Agent执行bash命令报错后需要多少轮才能恢复正常运行,放弃恢复会额外扣分。GPT-5.5 High(+17.73%)和Claude Sonnet 4.6(+17.23%)表现最强。Grok 4.3此项为-89.43%,几乎不具备恢复能力。Gemma 4 31B也仅为-21.86%。

工具幻觉:Agent是否调用不存在的工具、编造工具名、或将内部标记泄露到工具字段。一旦出现直接标记为失败。该信号上各模型分化严重:GPT-5.5和Kimi K2.6都控制在+1.52%,DeepSeek V4 Pro为-5.48%,Gemma 4 31B达到-32.64%。

Agent Arena的核心方法论是因果推断:将“使用哪个模型”作为一个随机变量——用户被随机分配模型,然后对比不同模型在相同类型任务上的表现差异。排行榜上的“净改进”就是这个差值。这种方法的好处是模型无法通过刷题来提升分数,每次任务都是真实用户随机分配,确保了评估的公平性。

榜单背后,藏着几个容易被忽视的关键信号

分项指标揭示了明显的风格分化。简单总结:Claude偏稳健,GPT偏“让用户满意”

用户行为数据也揭示了一些值得关注的模式。Agent Arena的统计显示,45%的用户开场就将整个任务直接交付给Agent(“交付完整成果”模式),只有28%的用户是来寻求建议的。但Agent首次回复后,用户收回控制权的频率是再次授权的2.3倍。这说明用户一开始愿意放手,但看到初步结果后反而更加谨慎——信任的建立并不容易。

被纠正后的Agent还存在一个普遍现象:虚张声势。数据显示,Agent被纠正后有26%的情况表现得自信满满,但真正拒绝修改的只有2.7%,敢于指出用户错误的仅占1.4%。大多数Agent的应对策略是口头答应“好的我改”,实际是否改对则是另一回事。开发者在调试Agent行为时,这个现象值得多加留意。

成本也是一个容易被忽略的维度。Agent Arena统计了每次会话的实际花费,发现部分模型理论定价低但实际成本更高。行为模式差异导致:有的模型每轮调用工具更多、执行步骤更长,或者需要用户反复操作才能满意,最终账单远超预期。选型时只看Token单价很容易踩坑。

排名≠生产力,选模型要结合具体场景

排行榜只是参考。不同场景下各信号的权重完全不同。

写代码和调bug的场景中,Bash恢复和确认成功应优先关注。shell报错是家常便饭,恢复能力直接决定使用体验。数据显示,GPT-5.5 High和Claude Sonnet 4.6在Bash恢复上表现最稳定,Grok 4.3和Gemma系列在此维度有明显短板。

37万次真实会话实测Agent榜单:GPT-5.5High第一,Claude最稳,真实干活能力看这五项核心指标

做内容生成或需要频繁与非技术人员协作的场景中,可控性和表扬与抱怨更关键。需求来回调整频繁,模型能否被顺利纠回正轨直接影响效率。GPT-5.5系列在可控性上大幅领先(+12.03%),Claude Opus 4.7 Thinking表现也不错(+9.04%)。GLM-5.1可控性为负值(-3.41%),在此场景下需要谨慎评估。

如果你在意成本,还需要结合工具幻觉和会话长度来核算总支出。工具幻觉高的模型会导致大量无效调用,实际花费远超理论定价。DeepSeek V4 Pro(-5.48%)和Gemma 4 31B(-32.64%)在此维度上是明显短板。

写在最后

Agent Arena榜单表明,Agent评测正在从过去的“考试模式”转向“工作考核模式”,榜单结果也更接近真实的用户体验。37.3万次真实会话数据评测出的结果,可以作为选型参考。但最终选择哪款模型更适合,还是要回归到自己的实际场景中验证。

你目前的主力Agent模型是哪一款?它在Bash恢复和可控性上表现如何?如果已经在实际项目中遇到过“榜单高分、干活翻车”的情况,欢迎留言分享,看看大家踩的是不是同一个坑。

参考链接:
https://arena.ai/leaderboard/agent

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策