Opus 4.8评测：烧1万美元冲刺AI最难考试，领先GPT-5.5达4倍

2026-06-03阅读 0热度 0

直接给出几项关键结论。

就在几分钟前，Claude Opus 4.8（High）登顶了公认最具挑战性的AI评估榜单。它在ARC-AGI-3上取得了1.5%的得分——这个数字是第二名得分的整整三倍。但代价同样高昂，单次评测成本高达1万美元。

放在其他AI测试标准下，1.5%的成绩或许只能用惨不忍睹来形容。但在ARC-AGI-3中，这却是史无前例的最高分，而且没有并列。此前的纪录保持者是Opus 4.6（Max），得分0.5%。至于GPT-5.5？仅有0.4%，甚至不及Opus 4.8的零头。

截至6月1日的完整排名如下（按得分降序排列）：

Opus 4.8（High）：1.5%，成本1万美元
Opus 4.6（Max）：0.5%，成本8900美元
GPT-5.5（High）：0.4%，成本1万美元
Gemini 3.1 Pro（Preview）：0.4%，成本2200美元
Opus 4.7（High）：0.2%，成本1万美元
GPT-5.4（High）：0.2%，成本5200美元
Grok 4.20（Beta Reasoning）：0.1%，成本3800美元

Opus 4.8登顶，最难评估测试诞生新SOTA

最高分仅1.5%——这张试卷究竟难在哪里？

之前的ARC-AGI-1和2虽然也不简单，但本质上仍是带有标准答案的填空题。而ARC-AGI-3完全是另一套玩法：将算法置于一个从未见过的游戏环境中，没有操作说明，没有任何提示。它必须自主探索、自行推导规则、推断胜利条件、并规划行动路线。测试发布后，所有前沿AI的得分直接归零。

简言之，ARC-AGI-3的核心考核指标就是Agent能力。而Opus 4.8这次升级的重心，恰好全部集中于此。在大多数传统基准测试上，它确实只是在Opus 4.7的基础上小幅提升——SWE-bench Verified从87.6%升至88.6%，GPQA Diamond持平于93.6%。但所有与Agent相关的评估，数据则发生突变。SWE-bench Pro（更具挑战性的代码修复测试）从64.3%直接跃升至69.2%，领先GPT-5.5的58.6%超过10个百分点。Online-Mind2Web（浏览器操作测试）拿下84%，同时超越Opus 4.7和GPT-5.5。Terminal-Bench Hard则增长了6.8个百分点。

反观GPT-5.5。它在静态推理方面依然是顶尖水平——ARC-AGI-2获得85%，Terminal-Bench表现同样出色。但一旦任务从“解答问题”转变为“在复杂环境中持续执行操作”，GPT-5.5便开始出现性能下降。SWE-bench Pro落后Opus 4.8超过10个百分点，在GDPval-AA真实工作场景评估中，Opus 4.8以1890 Elo领先约120分，胜率达到67%。

换句话说，衡量“已知领域的推理深度”，GPT-5.5依然最强；衡量“未知场景下的持续适应能力”，Opus 4.8正在拉开差距。而ARC-AGI-3，恰好是后者的极端表现版本。

5帧推导出规则，然后陷入死胡同

为了更深入地分析Opus 4.8的表现，ARC Prize同步公开了它的完整解题过程。总结下来，核心关键词只有一个——“抽象层级”。

Opus 4.7看待ARC-AGI-3画面时，将其视为一张“图片”，逐像素处理；Opus 4.8则将其视为“物体和系统”——它开始能够识别画面中的独立实体、背景元素以及交互关系。差一个抽象层级，结果天差地别。

在ar25环境中，Opus 4.8仅用了5帧就推导出了镜像反射规则（“蓝色向左移动3格，橙色则向右移动3格……关于第31列的镜像反射”），并以24步通过第一关。在lp85环境中表现更为突出，这是ARC Prize标注的Opus 4.8“得分最高的公开环境”，多个关卡均展现出接近人类水平的效率。

不过，在dc22环境中，Opus 4.8虽然漂亮地通过了第1至第3关，但在第4关时却锁定在一个错误的子目标上，无法挣脱。这是Opus 4.7根本达不到的阶段，也是一种全新的失败模式。可以说，进步与新问题同步出现。

每一代ARC-AGI，都预言了下一场技术竞赛

从诞生至今，ARC-AGI每一次迭代，都精准地预示了下一代AI的核心战场。

ARC-AGI-1预示了推理变革。2024年底o3的突破，明确标记了大推理模型（LRM）范式的到来。半年后，推理能力成为所有前沿模型的标配。

ARC-AGI-2预示了编程Agent的爆发。2025年各AI模型在ARC-AGI-2上的快速进步，与Claude Code、Codex等编程Agent的产品化进程几乎同步。

ARC-AGI-3目前正在评估的，是交互式环境中的自主探索与适应能力。如果这一规律再次成立，那么下一轮竞争的核心，将是谁能在从未见过的世界中更快地摸清状况。

GPT-5.5在旧测试中领先11个百分点。Opus 4.8在新测试中领先近4倍。哪项测试更能代表未来方向？答案或许很快会揭晓。

参考资料：

https://arcprize.org/leaderboard

https://x.com/scaling01/status/2061513383287882111?s=20

Opus 4.8评测：烧1万美元冲刺AI最难考试，领先GPT-5.5达4倍

Opus 4.8登顶，最难评估测试诞生新SOTA

5帧推导出规则，然后陷入死胡同

每一代ARC-AGI，都预言了下一场技术竞赛

相关阅读

最新教程

最新资讯