Claude Fable 5深度测评：GPT5.5与Opus4.8性能对决

2026-06-11阅读 0热度 0

Claude

昨天已有传闻称 Claude Code 即将推出新模型，今日正式上线验证了这一动向。

回溯背景。Opus 4.8 发布时官方曾预告，数周内将 Mythos 级模型开放给全体用户。但 Mythos Preview 一直未正式发布，仅限安全机构和基础设施厂商使用，理由是其在网络安全领域能力过强，存在滥用风险。

此次 Claude Code 的做法是将同一底层模型拆分为两个版本：Mythos 5 继续保留在原有合作伙伴手中，普通用户无法触及；Fable 5 则叠加一层安全分类器，面向所有用户开放。

命名也颇具深意。Fable 源自拉丁语 fabula，与希腊语 mythos 同源。一个译为“寓言”，一个译为“神话”——面向公众的版本叫“寓言”。

直接看评测数据。

表头写法本身就透露信息：标注为 Claude Mythos 5 and Fable 5。小字特别说明，两个模型分数差异在 1 到 3 个百分点以内，表格中取较高值。

与 Opus 4.8 相比，全线领先，多项拉开明显差距：SWE-Bench Pro 从 69.2% 提升至 80.3%；FrontierCode 从 13.4% 翻倍至 29.3%；空间推理 Blueprint-Bench 从 14.5% 飙升至 38.6%，接近三倍。

对比 GPT-5.5，大部分指标同样呈现压制态势。SWE-Bench Pro 上 80.3% 对 58.6%，差距达 21 个百分点。FrontierCode 图表更为直观——Fable 5 并非单纯靠堆 token 硬冲，而是在成本曲线上实现了漂亮平衡。

不过 Terminal-Bench 需单独分析。上次 Opus 4.8 发布时已指出，该项表现不及 GPT-5.5。此次表内数据为 88.0%，压过 Codex CLI 的 83.4%，但该数字带星号。

星号含义在表底注释中明确：带星号项目，因 Fable 5 在网络安全和生物相关问题上做了安全降级，实际得分更接近 Opus 4.8。即 88.0% 属 Mythos 5 成绩，用户手中的 Fable 5 处理 terminal 任务时，分数约 82.7%，与 Codex CLI 基本持平。

典型例证是 ExploitBench，表中成绩 78.0%，Opus 4.8 仅 40.0%，看似碾压式胜利。但同样带星号——若用 Fable 5 实际运行，分数会回落至 40% 附近。

与 Mythos Preview 对比反而最有意思。SWE-Bench Pro 为 80.3% 对 77.8%，OSWorld 为 85.0% 对 85.4%，HLE 带工具为 64.5% 对 64.7%——后两项 Preview 甚至略微反超。简言之，Fable 5 与当初让网络安全股集体暴跌的 Preview 本质属同一水平，互有胜负。

降级机制值得关注。官方明确：当涉及敏感话题时，模型会静默切换至 Opus 4.8 回答。限制主要集中于三类——网络安全、生物与化学、模型蒸馏。

官方提供早期数据：超过 95% 的 Fable 会话未触发 fallback。换言之，若从事正常写代码、改文档、看财报、跑长任务等常规操作，绝大多数情况下获取的依然是 Mythos 级底座能力。

此次发布中，Anthropic 也将防越狱能力置于台面。内部评测中，自动红队会持续进行 400 轮重试、回滚、再绕；外部 bug bounty 测试超过 1000 小时，未出现一次 universal jailbreak。官方还提及，一个外部合作伙伴测试了 30 种公开 jailbreak 技术，Fable 5 对有害单轮网络安全请求的配合次数为 0。

当然，官方自测与合作伙伴测试数据不能全盘照收。但方向已明确：Fable 5 不会直接拒绝执行任务，而是在遇到此类任务时自动将模型降级为 Opus 4.8。

生物与化学：能力的两面性

除网络安全外，官方用相当篇幅讨论了生物与化学领域能力。

Mythos 5 完成了 AA V 相关评测，简单说是预测病毒外壳实验属性。官方表示，候选数据来自 Dyno Therapeutics，模型未专门针对该任务训练，但 Mythos 级模型凭借生物推理能力，表现超越了专门的 protein language model baseline。

这存在两面性。好的一面：基因疗法、药物研发等方向，模型确实开始发挥作用。官方提到，内部蛋白设计专家使用 Mythos 5，将部分药物设计流程加速约 10 倍；在 14 个蛋白靶点中，有 9 个产出了正在继续研究的强候选。

风险面同样不容忽视：相同能力若落入错误之人手中，同样可作恶。因此，Fable 5 对大多数生物和化学请求暂时回落到 Opus 4.8 水平。官方后续将推出生物方向 trusted access program：去除生物与化学限制，保留网络安全限制。

这就是 Anthropic 当前的思路——拆分能力，同时拆分权限。

定价与订阅窗口

价格为每百万 token 10 美元（输入）/ 50 美元（输出）。两个参照系：这是 Opus 4.8 标准价格（$5 / $25）的两倍，正好等于 Opus 4.8 fast mode 价位；比 Mythos Preview 当初研究预览的 $25 / $125 便宜一半以上。上下文窗口为 1M，最大输出 128K。

订阅方面有一项需重点标注的时间节点。Claude Code 模型选择器上挂着小字：Included until June 22。6 月 22 日前，Fable 5 对 Pro、Max、Team 和企业订阅用户免费开放；从 6 月 23 日起，将从订阅中移除，仅能通过 API 按量付费。官方表示，待容量充足后再重新放回订阅计划。

也就是说，接下来这 12 天是一个窗口期，Pro 用户也在覆盖范围内。这 12 天的额度，直接拉满 Fable 5 来用就对了。

一个有趣的细节

顺便提一句，我在 Claude 官方发布的小视频中看到了汉字。这是否从某个角度说明，情况可能对中国用户更友好了一些？

Claude Fable 5深度测评：GPT5.5与Opus4.8性能对决

生物与化学：能力的两面性

定价与订阅窗口

一个有趣的细节

相关阅读

最新教程

最新资讯