37万次实测Agent榜单：GPT-5.5High第一，Claude最稳，五维能力解析

2026-06-14阅读 0热度 0

Claude

过去模型在SWE-Bench等标准化测试中能拿到80%的准确率，但部署到真实开发环境后，失败率高达七成。这种基准分数与实际Agent能力之间的鸿沟，每一位Agent开发者都感同身受——这已经是行业共识的痛点。

6月4日，Arena.ai正式发布Agent Arena排行榜，基于373,431次真实用户会话数据，对18个主流模型的Agent实战能力进行了全面评估。这一次，评测脱离了标准化的考试框架，直接聚焦模型的真实干活能力。

战力榜首：GPT-5.5 High登顶，前五名被OpenAI与Anthropic包揽

先看总榜。Agent Arena的排名核心指标是“净改进”（Net Improvement），通过因果推断方法计算每个模型相较于随机基线的性能提升幅度。正值表示优于随机选择，负值则意味着表现更差。

GPT-5.5 High以+10.66%的净改进率拿下第一，Claude Opus 4.7 Thinking紧随其后，达到+9.47%。GPT-5.4 High排名第三，净改进+8.92%。Claude Opus 4.6位居第四，+8.14%。GPT-5.5标准版位列第五，+7.47%。前五名全部来自OpenAI和Anthropic，这两家厂商在Agent能力上的领先优势十分突出。

国产模型方面，GLM-5.1（智谱）以+3.38%的净改进位列第八，Bash恢复能力表现亮眼，达到10.37%，已接近第一梯队水平。Kimi K2.6和DeepSeek V4 Pro也进入了总榜，但分项指标上各有短板。整体而言，国产模型在工具稳定性方面仍有提升空间，但任务恢复能力已经具备一定竞争力。

分项指标上的差异比总榜更具分析价值。Claude Opus 4.7 Thinking在“确认成功”指标上的净改进达到7.95%，为所有模型最高——这意味着它在确保任务真正完成方面最可靠。GPT-5.5 High在“表扬与抱怨”信号上的净改进以14.95%大幅领先，超出Opus 4.7 Thinking的12.18%。

Agent Arena：让模型走出考场，回到真实开发场景

传统基准测试（SWE-Bench、MMLU等）考察的是标准化题目，一次问答、一次打分即可完成。但实际工作中，Agent需要应对多轮交互、工具调用失败、shell报错、用户中途变更需求等复杂场景。传统基准无法覆盖这些维度，分数自然无法反映真实干活能力。

Agent Arena采用了截然不同的方法。它没有预设题目，而是记录真实用户在平台上使用Agent执行任务的完整会话。每个会话包含多轮交互，用户可以对结果进行批准、纠正或表达不满，Agent则要应对shell报错、工具调用失败等真实环境反馈。一次会话记录的不只是最终结果，还包括每一轮的工具调用链、bash命令的退出码以及用户的实时评价。

本次排行榜共记录了373,431次会话，18个模型参与评估。仅最近一周就记录了160,480个任务、206万次工具调用，Agent生成的代码总量达4,030万行。任务类型覆盖了开发者日常的绝大部分场景：代码编写占17.5%、研究查找占10.8%、规划与头脑风暴占10.6%、图片视频处理占10.2%、文档创建占9.1%、代码调试占8.9%——基本涵盖了开发者在实际工作中会遇到的各类场景。

排行榜采用五个独立分项指标来拆解Agent表现，每个指标对应真实工作中的一项核心能力：

确认成功：用户最终是否点击“批准”按钮。这是最直接的成败指标，统计每次会话中用户对最终结果的判定。Claude Opus 4.7 Thinking在此信号上以+7.95%领先。

表扬与抱怨：系统自动识别用户消息中的正面与负面表达。表扬数量超过抱怨则任务记为成功。GPT-5.5 High以+14.95%排名第一，说明其输出结果最让用户满意。

可控性：Agent被用户纠正后能否正确调整。现实中错误难以避免，能否被顺利纠回正轨才是硬功夫。GPT-5.5 High以+12.03%领先，GLM-5.1此项为-3.41%，被纠正后容易偏离方向。

Bash恢复：统计Agent执行bash命令报错后需要多少轮才能恢复正常运行，放弃恢复会额外扣分。GPT-5.5 High（+17.73%）和Claude Sonnet 4.6（+17.23%）表现最强。Grok 4.3此项为-89.43%，几乎不具备恢复能力。Gemma 4 31B也仅为-21.86%。

工具幻觉：Agent是否调用不存在的工具、编造工具名、或将内部标记泄露到工具字段。一旦出现直接标记为失败。该信号上各模型分化严重：GPT-5.5和Kimi K2.6都控制在+1.52%，DeepSeek V4 Pro为-5.48%，Gemma 4 31B达到-32.64%。

Agent Arena的核心方法论是因果推断：将“使用哪个模型”作为一个随机变量——用户被随机分配模型，然后对比不同模型在相同类型任务上的表现差异。排行榜上的“净改进”就是这个差值。这种方法的好处是模型无法通过刷题来提升分数，每次任务都是真实用户随机分配，确保了评估的公平性。

榜单背后，藏着几个容易被忽视的关键信号

分项指标揭示了明显的风格分化。简单总结：Claude偏稳健，GPT偏“让用户满意”。

用户行为数据也揭示了一些值得关注的模式。Agent Arena的统计显示，45%的用户开场就将整个任务直接交付给Agent（“交付完整成果”模式），只有28%的用户是来寻求建议的。但Agent首次回复后，用户收回控制权的频率是再次授权的2.3倍。这说明用户一开始愿意放手，但看到初步结果后反而更加谨慎——信任的建立并不容易。

被纠正后的Agent还存在一个普遍现象：虚张声势。数据显示，Agent被纠正后有26%的情况表现得自信满满，但真正拒绝修改的只有2.7%，敢于指出用户错误的仅占1.4%。大多数Agent的应对策略是口头答应“好的我改”，实际是否改对则是另一回事。开发者在调试Agent行为时，这个现象值得多加留意。

成本也是一个容易被忽略的维度。Agent Arena统计了每次会话的实际花费，发现部分模型理论定价低但实际成本更高。行为模式差异导致：有的模型每轮调用工具更多、执行步骤更长，或者需要用户反复操作才能满意，最终账单远超预期。选型时只看Token单价很容易踩坑。

排名≠生产力，选模型要结合具体场景

排行榜只是参考。不同场景下各信号的权重完全不同。

写代码和调bug的场景中，Bash恢复和确认成功应优先关注。shell报错是家常便饭，恢复能力直接决定使用体验。数据显示，GPT-5.5 High和Claude Sonnet 4.6在Bash恢复上表现最稳定，Grok 4.3和Gemma系列在此维度有明显短板。

做内容生成或需要频繁与非技术人员协作的场景中，可控性和表扬与抱怨更关键。需求来回调整频繁，模型能否被顺利纠回正轨直接影响效率。GPT-5.5系列在可控性上大幅领先（+12.03%），Claude Opus 4.7 Thinking表现也不错（+9.04%）。GLM-5.1可控性为负值（-3.41%），在此场景下需要谨慎评估。

如果你在意成本，还需要结合工具幻觉和会话长度来核算总支出。工具幻觉高的模型会导致大量无效调用，实际花费远超理论定价。DeepSeek V4 Pro（-5.48%）和Gemma 4 31B（-32.64%）在此维度上是明显短板。

写在最后

Agent Arena榜单表明，Agent评测正在从过去的“考试模式”转向“工作考核模式”，榜单结果也更接近真实的用户体验。37.3万次真实会话数据评测出的结果，可以作为选型参考。但最终选择哪款模型更适合，还是要回归到自己的实际场景中验证。

你目前的主力Agent模型是哪一款？它在Bash恢复和可控性上表现如何？如果已经在实际项目中遇到过“榜单高分、干活翻车”的情况，欢迎留言分享，看看大家踩的是不是同一个坑。

参考链接：
https://arena.ai/leaderboard/agent

37万次实测Agent榜单：GPT-5.5High第一，Claude最稳，五维能力解析

战力榜首：GPT-5.5 High登顶，前五名被OpenAI与Anthropic包揽

Agent Arena：让模型走出考场，回到真实开发场景

榜单背后，藏着几个容易被忽视的关键信号

排名≠生产力，选模型要结合具体场景

写在最后

相关阅读

最新教程

最新资讯