Claude Fable 5深度测评:GPT5.5与Opus4.8性能对决

2026-06-11阅读 0热度 0
Claude

昨天已有传闻称 Claude Code 即将推出新模型,今日正式上线验证了这一动向。

回溯背景。Opus 4.8 发布时官方曾预告,数周内将 Mythos 级模型开放给全体用户。但 Mythos Preview 一直未正式发布,仅限安全机构和基础设施厂商使用,理由是其在网络安全领域能力过强,存在滥用风险。

此次 Claude Code 的做法是将同一底层模型拆分为两个版本:Mythos 5 继续保留在原有合作伙伴手中,普通用户无法触及;Fable 5 则叠加一层安全分类器,面向所有用户开放。

命名也颇具深意。Fable 源自拉丁语 fabula,与希腊语 mythos 同源。一个译为“寓言”,一个译为“神话”——面向公众的版本叫“寓言”。

直接看评测数据。

表头写法本身就透露信息:标注为 Claude Mythos 5 and Fable 5。小字特别说明,两个模型分数差异在 1 到 3 个百分点以内,表格中取较高值。

与 Opus 4.8 相比,全线领先,多项拉开明显差距:SWE-Bench Pro 从 69.2% 提升至 80.3%;FrontierCode 从 13.4% 翻倍至 29.3%;空间推理 Blueprint-Bench 从 14.5% 飙升至 38.6%,接近三倍。

对比 GPT-5.5,大部分指标同样呈现压制态势。SWE-Bench Pro 上 80.3% 对 58.6%,差距达 21 个百分点。FrontierCode 图表更为直观——Fable 5 并非单纯靠堆 token 硬冲,而是在成本曲线上实现了漂亮平衡。

不过 Terminal-Bench 需单独分析。上次 Opus 4.8 发布时已指出,该项表现不及 GPT-5.5。此次表内数据为 88.0%,压过 Codex CLI 的 83.4%,但该数字带星号。

星号含义在表底注释中明确:带星号项目,因 Fable 5 在网络安全和生物相关问题上做了安全降级,实际得分更接近 Opus 4.8。即 88.0% 属 Mythos 5 成绩,用户手中的 Fable 5 处理 terminal 任务时,分数约 82.7%,与 Codex CLI 基本持平。

典型例证是 ExploitBench,表中成绩 78.0%,Opus 4.8 仅 40.0%,看似碾压式胜利。但同样带星号——若用 Fable 5 实际运行,分数会回落至 40% 附近。

与 Mythos Preview 对比反而最有意思。SWE-Bench Pro 为 80.3% 对 77.8%,OSWorld 为 85.0% 对 85.4%,HLE 带工具为 64.5% 对 64.7%——后两项 Preview 甚至略微反超。简言之,Fable 5 与当初让网络安全股集体暴跌的 Preview 本质属同一水平,互有胜负。

降级机制值得关注。官方明确:当涉及敏感话题时,模型会静默切换至 Opus 4.8 回答。限制主要集中于三类——网络安全、生物与化学、模型蒸馏。

官方提供早期数据:超过 95% 的 Fable 会话未触发 fallback。换言之,若从事正常写代码、改文档、看财报、跑长任务等常规操作,绝大多数情况下获取的依然是 Mythos 级底座能力。

此次发布中,Anthropic 也将防越狱能力置于台面。内部评测中,自动红队会持续进行 400 轮重试、回滚、再绕;外部 bug bounty 测试超过 1000 小时,未出现一次 universal jailbreak。官方还提及,一个外部合作伙伴测试了 30 种公开 jailbreak 技术,Fable 5 对有害单轮网络安全请求的配合次数为 0。

当然,官方自测与合作伙伴测试数据不能全盘照收。但方向已明确:Fable 5 不会直接拒绝执行任务,而是在遇到此类任务时自动将模型降级为 Opus 4.8。

生物与化学:能力的两面性

除网络安全外,官方用相当篇幅讨论了生物与化学领域能力。

Mythos 5 完成了 AA V 相关评测,简单说是预测病毒外壳实验属性。官方表示,候选数据来自 Dyno Therapeutics,模型未专门针对该任务训练,但 Mythos 级模型凭借生物推理能力,表现超越了专门的 protein language model baseline。

这存在两面性。好的一面:基因疗法、药物研发等方向,模型确实开始发挥作用。官方提到,内部蛋白设计专家使用 Mythos 5,将部分药物设计流程加速约 10 倍;在 14 个蛋白靶点中,有 9 个产出了正在继续研究的强候选。

风险面同样不容忽视:相同能力若落入错误之人手中,同样可作恶。因此,Fable 5 对大多数生物和化学请求暂时回落到 Opus 4.8 水平。官方后续将推出生物方向 trusted access program:去除生物与化学限制,保留网络安全限制。

这就是 Anthropic 当前的思路——拆分能力,同时拆分权限。

定价与订阅窗口

价格为每百万 token 10 美元(输入)/ 50 美元(输出)。两个参照系:这是 Opus 4.8 标准价格($5 / $25)的两倍,正好等于 Opus 4.8 fast mode 价位;比 Mythos Preview 当初研究预览的 $25 / $125 便宜一半以上。上下文窗口为 1M,最大输出 128K。

订阅方面有一项需重点标注的时间节点。Claude Code 模型选择器上挂着小字:Included until June 22。6 月 22 日前,Fable 5 对 Pro、Max、Team 和企业订阅用户免费开放;从 6 月 23 日起,将从订阅中移除,仅能通过 API 按量付费。官方表示,待容量充足后再重新放回订阅计划。

也就是说,接下来这 12 天是一个窗口期,Pro 用户也在覆盖范围内。这 12 天的额度,直接拉满 Fable 5 来用就对了。

一个有趣的细节

顺便提一句,我在 Claude 官方发布的小视频中看到了汉字。这是否从某个角度说明,情况可能对中国用户更友好了一些?

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策