Opus 4.8评测:烧1万美元冲刺AI最难考试,领先GPT-5.5达4倍
直接给出几项关键结论。
就在几分钟前,Claude Opus 4.8(High)登顶了公认最具挑战性的AI评估榜单。它在ARC-AGI-3上取得了1.5%的得分——这个数字是第二名得分的整整三倍。但代价同样高昂,单次评测成本高达1万美元。
放在其他AI测试标准下,1.5%的成绩或许只能用惨不忍睹来形容。但在ARC-AGI-3中,这却是史无前例的最高分,而且没有并列。此前的纪录保持者是Opus 4.6(Max),得分0.5%。至于GPT-5.5?仅有0.4%,甚至不及Opus 4.8的零头。
截至6月1日的完整排名如下(按得分降序排列):
- Opus 4.8(High):1.5%,成本1万美元
- Opus 4.6(Max):0.5%,成本8900美元
- GPT-5.5(High):0.4%,成本1万美元
- Gemini 3.1 Pro(Preview):0.4%,成本2200美元
- Opus 4.7(High):0.2%,成本1万美元
- GPT-5.4(High):0.2%,成本5200美元
- Grok 4.20(Beta Reasoning):0.1%,成本3800美元
Opus 4.8登顶,最难评估测试诞生新SOTA
最高分仅1.5%——这张试卷究竟难在哪里?
之前的ARC-AGI-1和2虽然也不简单,但本质上仍是带有标准答案的填空题。而ARC-AGI-3完全是另一套玩法:将算法置于一个从未见过的游戏环境中,没有操作说明,没有任何提示。它必须自主探索、自行推导规则、推断胜利条件、并规划行动路线。测试发布后,所有前沿AI的得分直接归零。
简言之,ARC-AGI-3的核心考核指标就是Agent能力。而Opus 4.8这次升级的重心,恰好全部集中于此。在大多数传统基准测试上,它确实只是在Opus 4.7的基础上小幅提升——SWE-bench Verified从87.6%升至88.6%,GPQA Diamond持平于93.6%。但所有与Agent相关的评估,数据则发生突变。SWE-bench Pro(更具挑战性的代码修复测试)从64.3%直接跃升至69.2%,领先GPT-5.5的58.6%超过10个百分点。Online-Mind2Web(浏览器操作测试)拿下84%,同时超越Opus 4.7和GPT-5.5。Terminal-Bench Hard则增长了6.8个百分点。
反观GPT-5.5。它在静态推理方面依然是顶尖水平——ARC-AGI-2获得85%,Terminal-Bench表现同样出色。但一旦任务从“解答问题”转变为“在复杂环境中持续执行操作”,GPT-5.5便开始出现性能下降。SWE-bench Pro落后Opus 4.8超过10个百分点,在GDPval-AA真实工作场景评估中,Opus 4.8以1890 Elo领先约120分,胜率达到67%。
换句话说,衡量“已知领域的推理深度”,GPT-5.5依然最强;衡量“未知场景下的持续适应能力”,Opus 4.8正在拉开差距。而ARC-AGI-3,恰好是后者的极端表现版本。
5帧推导出规则,然后陷入死胡同
为了更深入地分析Opus 4.8的表现,ARC Prize同步公开了它的完整解题过程。总结下来,核心关键词只有一个——“抽象层级”。
Opus 4.7看待ARC-AGI-3画面时,将其视为一张“图片”,逐像素处理;Opus 4.8则将其视为“物体和系统”——它开始能够识别画面中的独立实体、背景元素以及交互关系。差一个抽象层级,结果天差地别。
在ar25环境中,Opus 4.8仅用了5帧就推导出了镜像反射规则(“蓝色向左移动3格,橙色则向右移动3格……关于第31列的镜像反射”),并以24步通过第一关。在lp85环境中表现更为突出,这是ARC Prize标注的Opus 4.8“得分最高的公开环境”,多个关卡均展现出接近人类水平的效率。
不过,在dc22环境中,Opus 4.8虽然漂亮地通过了第1至第3关,但在第4关时却锁定在一个错误的子目标上,无法挣脱。这是Opus 4.7根本达不到的阶段,也是一种全新的失败模式。可以说,进步与新问题同步出现。
每一代ARC-AGI,都预言了下一场技术竞赛
从诞生至今,ARC-AGI每一次迭代,都精准地预示了下一代AI的核心战场。
ARC-AGI-1预示了推理变革。2024年底o3的突破,明确标记了大推理模型(LRM)范式的到来。半年后,推理能力成为所有前沿模型的标配。
ARC-AGI-2预示了编程Agent的爆发。2025年各AI模型在ARC-AGI-2上的快速进步,与Claude Code、Codex等编程Agent的产品化进程几乎同步。
ARC-AGI-3目前正在评估的,是交互式环境中的自主探索与适应能力。如果这一规律再次成立,那么下一轮竞争的核心,将是谁能在从未见过的世界中更快地摸清状况。
GPT-5.5在旧测试中领先11个百分点。Opus 4.8在新测试中领先近4倍。哪项测试更能代表未来方向?答案或许很快会揭晓。
参考资料:
https://arcprize.org/leaderboard
https://x.com/scaling01/status/2061513383287882111?s=20




