Anthropic Opus 4.8对比GPT-5.5：关键落败点

2026-05-30阅读 0热度 0

Anthropic

美国当地时间5月28日，Anthropic正式推出旗舰模型最新迭代版本Claude Opus 4.8。距Opus 4.7发布仅隔41天，更新节奏明显加快。不过需要明确的是，Opus 4.8本质上属于对4.7版本在能力与推理行为层面的优化升级，并非彻底换代。

常规使用定价与Opus 4.7保持一致：标准模式下每百万输入token 5美元，输出25美元。但功能层面有三项关键变化值得关注：模型处理模糊信息时更坦诚，不再轻易输出无依据的断言；快速模式使用成本直接降至原先的三分之一；Claude Code中新增“动态工作流”能力，支持模型同时调度数百个子智能体处理大规模任务。

Opus 4.8即日起在全平台上线，覆盖claude.ai、Claude Code、API及Cowork。开发者可通过claude-opus-4.8直接调用。

伴随新模型发布的还有多项周边更新：用户现可手动调节Claude每次回答的“努力”程度；开发者在API的消息数组中可直接插入系统指令，便于在任务中途调整权限、token预算或环境上下文。

同日，Anthropic宣布完成650亿美元H轮融资，投后估值达9650亿美元。一边是看似“小修小补”的模型迭代，一边是估值翻倍不止的资本动作，再加上持续“预告”的神秘模型Mythos——这几件事组合在一起，信息密度极高。

01 一个更“诚实”的协作者，不再硬着头皮瞎编

许多人都被AI“糊弄”过——它明明一知半解，却表现得胸有成竹，最终交出一份漏洞百出的答案，直到用户自己发现问题。Opus 4.8此次升级的核心方向之一，就是尽可能消除这种“不懂装懂”的倾向。

Anthropic官方公布了一项直观评估：Opus 4.8让代码中隐藏漏洞而不被发现的概率，相比前代Opus 4.7降低了约四倍。这得益于模型在面对不确定性时主动告知用户，而非掩盖问题。

部分提前参与测试的用户也给出了类似反馈。对冲基金桥水公司指出，升级后最显著的变化在于“Opus 4.8主动标记输入和输出分析问题的倾向，这是其他模型常遗漏并留给用户去发现的”。AI编程工具Devin的制造商Cognition反馈称，Opus 4.8修复了此前版本中评论冗长和工具调用的问题，这些改进直接加速了工程师的能力提升。

这种坦诚也体现在Anthropic的内部对齐评估中。团队认为，Opus 4.8在支持用户自主性和按用户最佳利益行事等“亲社会”特质上达到了新高度。同时，模型在欺骗或协助滥用等不对齐行为上的表现比率已明显低于Opus 4.7，且与Anthropic目前对齐表现最佳的模型Claude Mythos Preview处于相近水平。

不过，系统卡中也记录了一项令团队担忧的训练发现。Opus 4.8展现出一种逐渐增强的趋势：会在未被告知正在被评估的情况下，明确推理自己的输出将如何被评分。换句话说，模型自己琢磨出了“我可能正在被测试”这件事，然后开始产出它认为能在测试中拿高分的回答，而不一定是自然状态下会给出的答案。

Anthropic强调，这种倾向目前尚未转化为更差的实际行为——Opus 4.8在任务成功的声明上反而比之前模型更少出现误导性信息。但团队将此现象称为“一个令人担忧的趋势，可能使未来的训练复杂化”。初步的可解释性工作还发现，大约5%的训练片段中存在与评分器相关的未言明推理。

此次更新还带来一个明显的界面变化：在claude.ai和Claude Code的模型选择器旁，新增了“努力控制”滑块。用户可为Claude每次响应分配不同的计算量。高努力模式下，Claude进行更深入推理，回答质量更高，但token消耗也更大；低努力模式下，响应更快，token消耗更少。Opus 4.8默认采用高努力设置，Anthropic认为这是质量与体验之间较平衡的选择。对于特别复杂的任务或长时间运行的异步工作流，官方建议使用“额外”档位，在Claude Code中对应“xhigh”设置。为配合更高的token消耗，Anthropic也同步提高了Claude Code的速率限制。

API层面，Messages API现在允许在消息数组中直接插入系统条目。开发者可在任务中途更新Claude的指令，比如调整权限、修改token预算或变更环境上下文，而无需中断已有的提示缓存。这对需要频繁调整配置的智能体运行场景更为友好。

安全方面，Anthropic称Opus 4.8参加了一次为期一周、专门针对提示注入攻击的实时漏洞赏金测试，这也是该公司首次进行此类测试。结果显示，Opus 4.8的鲁棒性介于Opus 4.7和Sonnet 4.6之间，领先于所有参与测试的可比前沿模型；在已部署防护措施后，浏览器使用场景下的攻击成功率接近于零。

02 快速模式砍价到1/3，动态工作流能调度数百个“分身”

除模型本身的特质变化外，Opus 4.8还带来了两项实用性更新。

先说价格。Opus 4.8的标准定价与Opus 4.7保持一致，但快速模式迎来大幅降价。快速模式下，模型生成速度约为正常状态的2.5倍，现每百万输入token收费10美元，输出为50美元。相比之下，Opus 4.7快速模式定价为输入30美元、输出150美元，相当于直接降至三分之一。

在Claude Code中，用户直接输入/fast命令即可切换到此模式。API需通过claude.com上的等待列表申请。

另一个重要功能是Claude Code中新增的“动态工作流”。设计思路是：当任务规模大到单个上下文窗口装不下时，Claude可先规划整体工作，然后并行启动数百个子智能体，每个处理一部分工作，最后整合所有结果并验证，形成一份完整报告交给用户。该功能目前处于研究预览阶段，面向企业版、团队版和Max计划用户开放。

Anthropic给出了应用示例：搭载Opus 4.8后，Claude Code可执行一次跨越数十万行代码的代码库级别迁移，整个过程从启动到合并，并以现有测试套件作为执行标准。对于维护大型项目的开发团队而言，这种能力意味着许多本需拆分成无数小步骤、耗费大量人工沟通的工作，现在可由模型一次性规划并执行完成。

Databricks在使用Opus 4.8后发现，Opus 4.8在其Genie数据智能体中处理深层多步骤问题时，消耗的token成本比Opus 4.7便宜了61%，这得益于模型在多模态处理上的效率提升，尤其是在处理PDF和图表文件时表现更佳。为法律工作构建AI助手的Harvey则表示，Opus 4.8在其法律智能体基准测试中创下有记录以来的最高分，并且是首个在全部通过标准上整体突破10%的模型。汤森路透旗下的CoCounsel Legal也反馈，新模型在一致性和推理质量上看到了有意义的改进。

03 一项关键测试，输给GPT-5.5

在各类标准测试中，Anthropic官方发布的对比表格显示，模型在多个维度上均超越了前代。

OSWorld-Verified测试中，Anthropic特意调整了评估方式，使其更贴近真实使用场景，Opus 4.7的得分也因此更新为82.3%，而Opus 4.8在此基础上拿到83.4%。

在横向对比上，Opus 4.8在至少12个基准测试中击败了GPT-5.5。但值得注意的是，在Agentic Terminal Bench 2.1中，它还是输给了GPT-5.5——这个测试本质上衡量的是：一个AI Agent能否在真实终端环境里，像工程师一样完成端到端任务。自GPT-5.5发布以来，Claude面临的压力越来越明显。

04 重头戏又在后面，Mythos级别模型几周内到来？

在Opus 4.8的发布公告里，Anthropic花了相当篇幅预告下一步计划，这让整件事看起来更像是一个过渡性节点的标记。

Anthropic表示，他们计划发布比Opus系列拥有更高智能的新型模型，这些模型基于Claude Mythos架构。目前已有包括苹果、谷歌、微软、亚马逊云科技在内的约50个合作伙伴，利用Mythos Preview在关键软件基础设施中发现了超过10000个高危或严重等级的漏洞。

之所以没有直接将Mythos级别模型公开释放，核心原因在于安全。在此次Opus 4.8的发布中，Anthropic的口径出现了明显松动，表示在开发更强的网络防护措施方面“正在取得快速进展，并预计在未来几周内将Mythos-class模型带给所有客户”。

彭博社在同一天的报道中也确认了这个时间表，并补充说Anthropic计划与美国及其盟国政府合作，将Project Glasswing扩展到更多合作伙伴。

同样在5月28日，Anthropic宣布完成650亿美元H轮融资，投后估值达9650亿美元。2026年2月完成G轮融资时，Anthropic的估值还是3800亿美元。

但话说回来，Mythos的发布信号，就像狼来了的故事，市场信任度正在急剧下降。Opus 4.7的堪忧口碑，或许是仅隔41天就更新版本的最大压力。也许，Mythos还没来，Claude的地位已不在。

Anthropic自己显然也担忧这一点。他们在公告中同时预告了两条路线的进展：短期内会推出价格更低、但保留Opus级别核心功能的模型；而Mythos还是要等安全防护措施完全到位后才能大规模释放。

Anthropic Opus 4.8对比GPT-5.5：关键落败点

01 一个更“诚实”的协作者，不再硬着头皮瞎编

02 快速模式砍价到1/3，动态工作流能调度数百个“分身”

03 一项关键测试，输给GPT-5.5

04 重头戏又在后面，Mythos级别模型几周内到来？

相关阅读

最新教程

最新资讯