Anthropic Claude Fable 5 vs Mythos 5 对比:最强通用模型评测
6月9日,Anthropic重磅推出Claude Fable 5和Claude Mythos 5。Fable 5是首个直接面向大众开放Mythos级能力的通用模型,在几乎全部人工智能能力基准测试中均达成最先进技术(SOTA)表现;Mythos 5则为经过审核的网络安全与生物研究用户群体定制,提供无安全约束的完整功能。
Claude Fable 5 与 Mythos 5 发布示意图
Fable 5:Anthropic 当前最强通用人工智能模型
一句话总结:Fable 5的能力超越了Anthropic历史上发布的所有通用模型。在软件工程、知识密集型工作、视觉理解、科学研究等维度,实现全方位领先。任务复杂度越高、持续时间越长,其领先优势越明显。
然而,高能力伴随高风险。Fable 5在网络攻防等领域一旦被恶意利用,可能引发严重安全事件。为此,Anthropic引入了全新的安全机制:针对部分敏感请求,系统将自动降级至Claude Opus 4.8进行响应。平均而言,仅有不到5%的会话会触发该回退流程。
Mythos 5:同一架构,差异化安全边界
Mythos 5与Fable 5共享同一模型架构,核心差异在于移除了网络安全维度的限制。该模型目前通过Project Glasswing计划部署,与美方政府合作,仅向网络安全防御者及关键基础设施提供商开放。后续将通过受信任访问计划逐步扩展开放范围。
定价:仅 Mythos Preview 的一半
两款模型执行统一定价方案:
- 输入:$10 / 百万 token
- 输出:$50 / 百万 token
此前的Claude Mythos Preview定价远高于当前水平。Anthropic明确指出,预计Fable 5需求将远超供应能力,低价策略既是市场竞争手段,也是引导用户合理使用模型的有效方式。
核心能力
软件工程
在Stripe的早期测试中,Fable 5针对一个5000万行Ruby代码库,独立完成了一次大规模全库迁移。人工操作需要整支团队花费两个多月,而Fable 5仅用一天即告完成。
在Cognition的FrontierCode评测中(该评测考察模型在满足生产级代码标准的同时,能否攻克高难度编码任务),Fable 5即便采用中等effort设置,依然位居前沿模型排行榜首位。
知识工作
金融AI平台Hebbia推出的金融推理基准测试,专为高级金融分析设计。Fable 5在此测试中取得所有模型的最高得分,在文档推理、图表解读、问题解决等维度均有显著提升。
量化交易公司IMC的评估同样显示,Fable 5在交易分析领域几乎实现全面领先,覆盖事实查询、概念推理、根因分析与期望值分析等核心场景。
视觉理解
Fable 5是目前视觉处理任务的SOTA模型。它能够从科学图表中提取精确数值,甚至仅凭截图即可重建Web应用的完整源代码。
一个直观的案例:之前的Claude模型即使配备辅助工具也无法通关Pokémon FireRed,而Fable 5仅凭原始游戏截图便成功通关,无需地图、导航或任何额外状态信息支撑。
记忆与长上下文
在超长任务中,Fable 5能够维持对数百万token的持续上下文关注,并借助自身生成的笔记优化输出质量。在Slay the Spire卡牌游戏测试中,为模型配备持久化文件记忆后,Fable 5的性能提升幅度是Opus 4.8的三倍,进入最终关卡的概率同样达到三倍。
自主创作展示
Anthropic在发布文章中展示了Fable 5的多个自主创作成果:
- 太阳系模拟:从物理第一性原理出发,推导行星轨道运动,成功预测日食现象
- Factorio自动化工厂:自主规划并建造完整工业流水线
- 3D CAD建模:在浏览器内设计可直接3D打印的模型,连编辑器及内置AI助理均为Fable 5自行编写
- 流体模拟:编写代码实现与古典音乐EDM混音节拍同步的流体动画,而模型从未“听过”相关音乐
药物设计
Mythos 5在药物设计领域展现出突破性进展。Anthropic内部蛋白质设计专家借助Mythos 5,将药物设计流程中的部分环节提速约10倍。测试中,Mythos 5在配备蛋白质设计与生物信息学工具、且无人工干预的情况下,其表现可与熟练的人类操作员匹敌甚至超越,独立完成从选择结合位点、运行设计工具到失败恢复的完整工作流。
在14个蛋白质靶点中,有9个产出了有力的药物设计候选方案,相关研究正在深入进行中。
分子生物学新假说
Mythos 5是Anthropic首个能够持续产出新颖且具说服力的科学假说的模型。在盲测对比中,科学家们约80%的时间更青睐Mythos提出的分子生物学假说。更有力的信号是:Mythos提出的一个大肠杆菌蛋白新机制假说,已被另一独立实验室的研究结果所证实。
基因组学研究
Mythos 5花费超过一周时间进行自主工作,完成了一项深度原创基因组学研究:为138个动物物种的数百万细胞组装单细胞数据,并设计训练了一个自定义机器学习模型,用于识别远缘生物中执行相同功能的细胞。仅凭高层人类指导,该模型便击败了《Science》近期发表的一个模型,而模型体积仅为后者的百分之一。
安全防护体系
本次发布中最值得关注的是安全机制设计。Anthropic为Fable 5配备了一套新型分类器系统,覆盖三大关键领域:
网络安全
Mythos级模型在发现与利用软件漏洞方面能力极强,并能执行完整的攻击链(侦察、发现、横向移动等)。Fable 5的网络安全分类器覆盖了漏洞利用及更广泛的攻击性网络任务。
关键数据:
- 外部红色团队测试累计1000小时,未发现通用越狱案例
- 外部合作伙伴测试中,Fable 5对有害网络查询实现零合规,在所有测试模型中防护能力最强
- 面对30种公开越狱技术,Fable 5同样达到零合规
- UK AISI在初步测试中取得一定进展,但未发现完整越狱
生物学与化学
当前,Fable 5在大多数生物学与化学相关请求上会降级至Opus 4.8。此策略偏向保守,但Anthropic计划尽快缩小限制范围。
一个值得关注的测试结果:在腺相关病毒(AAV)外壳组装预测任务中,Mythos级模型仅凭借生物推理能力,便在Dyno Therapeutics开发的治疗相关候选序列上,击败了专门的蛋白质语言模型——尽管该模型并未针对此任务进行过专门训练。正面潜力与双向用途风险均十分明显。
蒸馏防护
为防止Fable 5的能力被大规模提取并用于训练竞品模型(尤其是在威权国家背景下),分类器负责标记疑似蒸馏请求,并回退至Opus 4.8响应。
数据保留政策变更
Mythos级模型的所有流量数据将保存30天。Anthropic承诺这些数据不会用于训练新模型,也不会用于任何非安全目的,并设有严格的隐私保护框架:记录所有人工访问行为,30天后在几乎所有情况下执行数据删除。
客户早期反馈
多家关键合作伙伴的评价如下:
可用性
今日起正式可用(模型ID:claude-fable-5)
Anthropic预计Fable 5需求极高且难以预测,因此采取分批开放策略。6月22日前订阅用户可免费使用,之后切换至usage credits模式,待容量充分扩充后恢复正常计费。
我的观察
本次发布释放出几个值得关注的关键信号:
安全与能力的新均衡。Fable 5采用了“分类器+回退”机制,而非简单粗暴的硬性拒绝。触发安全分类器时,用户依然可以从Opus 4.8获得高质量响应,体验远优于直接报错。这套架构表明Anthropic正认真探索“同时释放能力与控制风险”这一核心难题的可行解法。
定价策略激进。$10/$50的定价低于此前任何Mythos级模型,也低于多数竞品的旗舰模型。Anthropic自己承认需求将远超供应,此定价既是市场博弈的需要,也是引导用户优先使用API、缓解订阅端压力的战术手段。
科研能力的质变进展。Mythos 5在蛋白质设计与基因组学上的表现已不再是简单的“辅助工具”层次,在特定任务上能够达到甚至超越人类专家水平。一个未经过专门训练的任务上,它击败了专用模型,这说明通用推理能力正在逼近一个关键临界点。
30天数据保留是重要转变。从隐私角度需要保持关注,但从安全角度来看,这是对跨请求攻击这一真实威胁的务实回应。关键在于Anthropic能否坚守“仅用于安全”的承诺。
Mythos产品线的制度化。从Mythos Preview到Fable 5与Mythos 5的双轨发布,Anthropic正在构建一套可持续的“强能力受限发布”模式:同一模型,根据安全等级以不同形式提供。这很可能成为未来超强模型发布的标准范式。