Anthropic Claude Fable 5 vs Mythos 5 对比：最强通用模型评测

2026-06-17阅读 0热度 0

Anthropic

6月9日，Anthropic重磅推出Claude Fable 5和Claude Mythos 5。Fable 5是首个直接面向大众开放Mythos级能力的通用模型，在几乎全部人工智能能力基准测试中均达成最先进技术（SOTA）表现；Mythos 5则为经过审核的网络安全与生物研究用户群体定制，提供无安全约束的完整功能。

Claude Fable 5 与 Mythos 5 发布示意图

Fable 5：Anthropic 当前最强通用人工智能模型

一句话总结：Fable 5的能力超越了Anthropic历史上发布的所有通用模型。在软件工程、知识密集型工作、视觉理解、科学研究等维度，实现全方位领先。任务复杂度越高、持续时间越长，其领先优势越明显。

然而，高能力伴随高风险。Fable 5在网络攻防等领域一旦被恶意利用，可能引发严重安全事件。为此，Anthropic引入了全新的安全机制：针对部分敏感请求，系统将自动降级至Claude Opus 4.8进行响应。平均而言，仅有不到5%的会话会触发该回退流程。

Mythos 5：同一架构，差异化安全边界

Mythos 5与Fable 5共享同一模型架构，核心差异在于移除了网络安全维度的限制。该模型目前通过Project Glasswing计划部署，与美方政府合作，仅向网络安全防御者及关键基础设施提供商开放。后续将通过受信任访问计划逐步扩展开放范围。

定价：仅 Mythos Preview 的一半

两款模型执行统一定价方案：

输入：$10 / 百万 token
输出：$50 / 百万 token

此前的Claude Mythos Preview定价远高于当前水平。Anthropic明确指出，预计Fable 5需求将远超供应能力，低价策略既是市场竞争手段，也是引导用户合理使用模型的有效方式。

核心能力

软件工程

在Stripe的早期测试中，Fable 5针对一个5000万行Ruby代码库，独立完成了一次大规模全库迁移。人工操作需要整支团队花费两个多月，而Fable 5仅用一天即告完成。

在Cognition的FrontierCode评测中（该评测考察模型在满足生产级代码标准的同时，能否攻克高难度编码任务），Fable 5即便采用中等effort设置，依然位居前沿模型排行榜首位。

知识工作

金融AI平台Hebbia推出的金融推理基准测试，专为高级金融分析设计。Fable 5在此测试中取得所有模型的最高得分，在文档推理、图表解读、问题解决等维度均有显著提升。

量化交易公司IMC的评估同样显示，Fable 5在交易分析领域几乎实现全面领先，覆盖事实查询、概念推理、根因分析与期望值分析等核心场景。

视觉理解

Fable 5是目前视觉处理任务的SOTA模型。它能够从科学图表中提取精确数值，甚至仅凭截图即可重建Web应用的完整源代码。

一个直观的案例：之前的Claude模型即使配备辅助工具也无法通关Pokémon FireRed，而Fable 5仅凭原始游戏截图便成功通关，无需地图、导航或任何额外状态信息支撑。

记忆与长上下文

在超长任务中，Fable 5能够维持对数百万token的持续上下文关注，并借助自身生成的笔记优化输出质量。在Slay the Spire卡牌游戏测试中，为模型配备持久化文件记忆后，Fable 5的性能提升幅度是Opus 4.8的三倍，进入最终关卡的概率同样达到三倍。

自主创作展示

Anthropic在发布文章中展示了Fable 5的多个自主创作成果：

太阳系模拟：从物理第一性原理出发，推导行星轨道运动，成功预测日食现象
Factorio自动化工厂：自主规划并建造完整工业流水线
3D CAD建模：在浏览器内设计可直接3D打印的模型，连编辑器及内置AI助理均为Fable 5自行编写
流体模拟：编写代码实现与古典音乐EDM混音节拍同步的流体动画，而模型从未“听过”相关音乐

药物设计

Mythos 5在药物设计领域展现出突破性进展。Anthropic内部蛋白质设计专家借助Mythos 5，将药物设计流程中的部分环节提速约10倍。测试中，Mythos 5在配备蛋白质设计与生物信息学工具、且无人工干预的情况下，其表现可与熟练的人类操作员匹敌甚至超越，独立完成从选择结合位点、运行设计工具到失败恢复的完整工作流。

在14个蛋白质靶点中，有9个产出了有力的药物设计候选方案，相关研究正在深入进行中。

分子生物学新假说

Mythos 5是Anthropic首个能够持续产出新颖且具说服力的科学假说的模型。在盲测对比中，科学家们约80%的时间更青睐Mythos提出的分子生物学假说。更有力的信号是：Mythos提出的一个大肠杆菌蛋白新机制假说，已被另一独立实验室的研究结果所证实。

基因组学研究

Mythos 5花费超过一周时间进行自主工作，完成了一项深度原创基因组学研究：为138个动物物种的数百万细胞组装单细胞数据，并设计训练了一个自定义机器学习模型，用于识别远缘生物中执行相同功能的细胞。仅凭高层人类指导，该模型便击败了《Science》近期发表的一个模型，而模型体积仅为后者的百分之一。

安全防护体系

本次发布中最值得关注的是安全机制设计。Anthropic为Fable 5配备了一套新型分类器系统，覆盖三大关键领域：

网络安全

Mythos级模型在发现与利用软件漏洞方面能力极强，并能执行完整的攻击链（侦察、发现、横向移动等）。Fable 5的网络安全分类器覆盖了漏洞利用及更广泛的攻击性网络任务。

关键数据：

外部红色团队测试累计1000小时，未发现通用越狱案例
外部合作伙伴测试中，Fable 5对有害网络查询实现零合规，在所有测试模型中防护能力最强
面对30种公开越狱技术，Fable 5同样达到零合规
UK AISI在初步测试中取得一定进展，但未发现完整越狱

生物学与化学

当前，Fable 5在大多数生物学与化学相关请求上会降级至Opus 4.8。此策略偏向保守，但Anthropic计划尽快缩小限制范围。

一个值得关注的测试结果：在腺相关病毒（AAV）外壳组装预测任务中，Mythos级模型仅凭借生物推理能力，便在Dyno Therapeutics开发的治疗相关候选序列上，击败了专门的蛋白质语言模型——尽管该模型并未针对此任务进行过专门训练。正面潜力与双向用途风险均十分明显。

蒸馏防护

为防止Fable 5的能力被大规模提取并用于训练竞品模型（尤其是在威权国家背景下），分类器负责标记疑似蒸馏请求，并回退至Opus 4.8响应。

数据保留政策变更

Mythos级模型的所有流量数据将保存30天。Anthropic承诺这些数据不会用于训练新模型，也不会用于任何非安全目的，并设有严格的隐私保护框架：记录所有人工访问行为，30天后在几乎所有情况下执行数据删除。

客户早期反馈

多家关键合作伙伴的评价如下：

可用性

今日起正式可用（模型ID：claude-fable-5）

Anthropic预计Fable 5需求极高且难以预测，因此采取分批开放策略。6月22日前订阅用户可免费使用，之后切换至usage credits模式，待容量充分扩充后恢复正常计费。

我的观察

本次发布释放出几个值得关注的关键信号：

安全与能力的新均衡。Fable 5采用了“分类器+回退”机制，而非简单粗暴的硬性拒绝。触发安全分类器时，用户依然可以从Opus 4.8获得高质量响应，体验远优于直接报错。这套架构表明Anthropic正认真探索“同时释放能力与控制风险”这一核心难题的可行解法。

定价策略激进。$10/$50的定价低于此前任何Mythos级模型，也低于多数竞品的旗舰模型。Anthropic自己承认需求将远超供应，此定价既是市场博弈的需要，也是引导用户优先使用API、缓解订阅端压力的战术手段。

科研能力的质变进展。Mythos 5在蛋白质设计与基因组学上的表现已不再是简单的“辅助工具”层次，在特定任务上能够达到甚至超越人类专家水平。一个未经过专门训练的任务上，它击败了专用模型，这说明通用推理能力正在逼近一个关键临界点。

30天数据保留是重要转变。从隐私角度需要保持关注，但从安全角度来看，这是对跨请求攻击这一真实威胁的务实回应。关键在于Anthropic能否坚守“仅用于安全”的承诺。

Mythos产品线的制度化。从Mythos Preview到Fable 5与Mythos 5的双轨发布，Anthropic正在构建一套可持续的“强能力受限发布”模式：同一模型，根据安全等级以不同形式提供。这很可能成为未来超强模型发布的标准范式。