Anthropic AI安全阀门：神话级模型大众化实测

2026-06-13阅读 0热度 0

Anthropic

2025年6月9日，Anthropic正式发布了内部评级为“Mythos级”的旗舰模型Claude Fable 5，同时推出的还有其“孪生兄弟”Claude Mythos 5——二者共享底层架构，但Mythos 5移除了高风险领域的应用限制，仅面向通过审核的合作方开放。

Fable 5在综合能力上全面超越Anthropic以往所有公开模型，因此公司为其部署了全新的安全防护体系：当用户发起涉及网络安全、生物化学等敏感查询时，系统会自动切换至相对保守的Claude Opus 4.8模型进行响应，以此将潜在的危险能力“锁在安全笼内”。

两款新模型的定价大幅下调，较此前预览版降低了超过50%。开发者即日起可通过API调用，订阅用户也可在6月22日前免费体验，之后按用量计费。Anthropic计划在容量允许后将其恢复为标准套餐的组成部分。

01 同一根基，两种安全面孔

Fable 5与Mythos 5的核心差异完全体现在安全防护策略上。

简单来说：Claude Fable 5是面向广大用户的标准化版本，而Mythos 5则是为特定领域专家打造的无限制版本。两者共享完全相同的“大脑”，但Fable 5额外配备了一位极度保守的“安全管家”。

基于安全分类器机制，当用户通过Fable 5请求涉及网络安全、生物学与化学（尤其是危险物质或武器相关知识），或试图进行模型能力蒸馏以训练竞品时，分类器会主动拦截，禁止Fable 5直接响应。取而代之的是，由能力稍弱但同样强大的Claude Opus 4.8来完成回答。

Anthropic的数据显示，超过95%的对话会话不会触发该分类器。在这些日常使用场景中，Fable 5的性能与无限制版Mythos 5完全一致。

Mythos 5则走了另一条路线。它面向经过严格审核的合作方，移除了网络安全或生物化学防护，目前主要向两类人群开放：通过“玻璃翼计划”与美国政府合作的网络防御者，以及即将通过可信访问计划加入的生物学研究人员。

Anthropic的设计逻辑是：绝大多数应用场景下，Fable 5已完全够用。只有在涉及真正危险的能力时，才需要调用Mythos 5。

在超过1000小时的外部漏洞悬赏以及长时间智能体任务中，尚未发现可通用的越狱方法。但Anthropic也坦承，防护措施被刻意调校得较为敏感，偶尔可能误拦良性请求。

与之配套，Anthropic还推出了新的数据保留政策：所有Mythos级模型的流量需保留30天，这些数据不会用于训练新模型或任何非安全目的。同时设立了新的隐私保护措施，包括记录所有对数据的人工访问，并在30天后彻底删除数据。

02 从“辅助编码”迈向“独立施工”

安全机制明确后，Fable 5自身的实际能力如何？

Fable 5的核心优势在于能够处理需要超长时间、极高专注度的复杂软件工程任务，且任务越复杂、周期越长，它相较于其他模型的领先优势就越明显。

支付巨头Stripe在一个包含5000万行Ruby代码的庞大代码库中测试了Fable 5。模型在一天之内，独立完成了一项整个团队手动操作需要耗时两个多月的代码库迁移工作。

在具体基准测试上，Fable 5同样表现亮眼。

在SWE-bench Pro（衡量模型完成困难软件工程任务的能力）上，Fable 5达到80.3%，而GPT-5.5（OpenAI最新通用旗舰）约为58–60%，Claude Opus 4.8（Anthropic上一代旗舰）约为50–55%。

在Cognition FrontierCode（测试模型在满足高质量生产代码库标准的同时完成困难编码任务的能力）评估中，即便在中等努力水平下，Fable 5在顶尖模型中也取得了最高分。

在更严苛的FrontierCode Diamond（测试高质量、可维护的智能体编码能力）基准测试上，Fable 5得到29.3%，而Claude Opus 4.8为13.4%，GPT-5.5仅为5.7%，多数其他前沿模型则低于10%。

新加入Anthropic的顶尖AI研究员安德烈·卡帕西认为，Fable 5的份量相当于2025年11月Claude Opus 4.8那次重大更新。他说：“当你交给它一个真正棘手、需要长时间琢磨的任务时，模型像是真的‘理解了’，然后埋头去执行。那种想让人彻底不看代码、放手让它干的冲动，以前从来没有这么强烈过。”当然，他也补了一句，生产环境里可别真这么干。

03 代码与图表，双重视觉理解

Fable 5的视觉能力同样实现了质的飞跃。

它现在不仅能描述图片内容，还能精确读取图表中的数值数据，甚至根据一张截图重建出整个网页的源代码。对于每天需要处理大量PDF、扫描件、报表和仪表盘的企业而言，这意味着自动化处理那些“非结构化”的混乱信息变得更加可行。

为了展示这种“看懂并执行”的能力，Anthropic做了两个有趣的内部测试。

第一个测试是让模型玩经典的《宝可梦·火红》。以前的Claude模型，即便借助提供额外辅助工具的复杂框架，也很难顺利完成这个游戏。而Fable 5，仅靠一个极简的纯视觉框架，盯着原始游戏截图，就一路通关击败了游戏。

第二个测试是让模型玩卡牌构筑游戏《杀戮尖塔》。通过赋予模型基于文件的持久记忆能力，Fable 5的性能提升幅度是此前旗舰模型的三倍，到达游戏最终幕的频率也提高了三倍。

对企业用户来说，这表明Fable 5能够在长达数百万token的长期任务中保持专注，并利用自身笔记持续改进输出。这对于需要运行数天甚至数周的内部智能体可能至关重要，比如跟踪客户研究的销售运营智能体、管理迁移的工程智能体，或者记住在多轮交互中尝试过哪些方法的支持智能体。

而在不受安全防护限制的Mythos 5上，科学领域的潜力更为惊人。Anthropic内部的蛋白质设计专家使用Mythos 5，将药物设计流程的多个环节加速了约十倍。

在一个案例中，他们发现配备了蛋白质设计和生物信息学工具但无人协助的Mythos 5，能够匹敌甚至超越熟练的人类操作员。模型执行了通常由科学家完成的所有任务：选择结合位点、选择并运行蛋白质设计工具，以及从失败中恢复。这项研究中的14个蛋白质靶点中有9个产生了很有潜力的药物设计候选，Anthropic目前正在对其进行深入研究。

在基因组学方面，Mythos 5在超过一周的自主工作中完成了一项新研究。它梳理了138个动物物种、数百万个细胞的单细胞数据，自行设计并训练了一个机器学习模型，用于识别不同物种中功能相同的细胞，即便这些物种亲缘关系很远。人类只需给出大致方向，Mythos 5训练出的模型就超过了一篇近期发表在《科学》上的模型，且规模小了100倍。

不过，这些能力同时也带来了风险。Anthropic测试了Mythos 5在腺相关病毒（AAV）设计上的表现——AAV是基因疗法中用于递送药物的组件，但同样的技术也能被用来设计危险病毒。测试中，Mythos级模型仅凭生物学推理，就超过了专门为蛋白质任务训练的复杂模型。这既说明它在基因治疗研发上极具前景，也暴露出双重用途的风险。

Anthropic用自动评估工具测了Mythos 5的对齐表现。结果发现，模型出现欺骗、被用户滥用等失调行为的概率很低，与Opus 4.8相当。Fable 5与其同底层的模型，表现也基本一致。

04 为强大能力戴上“紧箍咒”

Claude Fable 5和Mythos 5的发布，清晰地展示了Anthropic如何将具备危险双重用途能力的前沿模型推向市场。它既未向所有用户开放全部能力，也未简单拒绝高风险查询，而是将特定请求转至能力较低的模型处理，同时为绝大多数日常工作保留最强模型。

Anthropic表示，发布如此强大的模型伴随固有风险。若无防护措施，Mythos 5在网络安全等领域的强大能力可能被滥用以造成严重损害。

在网络安全领域，Mythos 5将首先通过与美国政府合作的“玻璃翼计划”部署，作为此前Mythos预览版的升级。它拥有全球最强的网络安全能力。在相关基准测试中，该模型在衡量漏洞发现与利用能力的ExploitBench上得分78.0%，显著高于Claude Mythos Preview（69.0%）、Claude Opus 4.8默认防护版（40.0%）。在考察已知漏洞复现能力的CyberGym上，Mythos 5得分83.8%，与Claude Mythos Preview（83.1%）基本持平，两者均维持在83%以上的高水平。不久之后，Anthropic计划通过一个更广泛的“可信访问计划”来扩大Mythos 5的访问权限。

生命科学领域也有一条类似的路径。Anthropic计划为生物学研究者单独开设一个可信访问计划，提供移除了生物化学防护但保留网络安全防护的Fable 5。初期只面向一小部分经过筛选的研究人员，覆盖基础和转化研究，后续再逐步扩大范围。

05 价格腰斩，争议随行

Fable 5和Mythos 5的定价为每百万输入token 10美元，每百万输出token 50美元。不到此前Mythos预览版价格的一半，但依然是全球主要AI模型中最昂贵的之一。

对于订阅用户，Anthropic采取分阶段推出策略。从美国当地时间6月9日到6月22日，Fable 5免费包含在Pro、Max、Team和基于席位数的企业计划中。6月23日起，它将从这些计划中移除，之后使用需要消耗使用额度。如果容量允许，Anthropic将延长免费使用窗口。在此之后，他们会尽快将Fable 5恢复为订阅计划的标准组成部分。

此次发布引发了行业内外广泛讨论和不同声音。知名投资人、A16Z普通合伙人阿尼什·阿查里亚（Anish Acharya）指出，Anthropic这次刻意用Fable和Mythos这样的品牌名来淡化模型编号。他们认为，用户不在乎这是第几代，只想知道是不是最前沿，把编号淡化刚好能让人聚焦在这一点上。

不过，在一片叫好声中，也有冷静甚至尖锐的观察。开源模型研究员内森·兰伯特（Nathan Lambert）直言不讳地评论道，Anthropic成天把安全挂在嘴边，但连社交平台上那帮懂技术的人都看得出来，这不过是给产品做安全包装。

Anthropic AI安全阀门：神话级模型大众化实测

01 同一根基，两种安全面孔

02 从“辅助编码”迈向“独立施工”

03 代码与图表，双重视觉理解

04 为强大能力戴上“紧箍咒”

05 价格腰斩，争议随行

相关阅读

最新教程

最新资讯