Claude 5越狱风波:全球封杀令真相
如果要盘点2026年AI行业最具戏剧性的事件,Anthropic Claude Fable 5的闪电下架,大概率能拿下年度第一。
6月9日,这款被冠以“史上最强AI”的模型刚刚亮相,全球开发者和科技圈的目光还未移开——72小时后,美国政府以国家安全为由,直接对两款模型下达出口管制。
此次管制力度远超以往。不仅美国境外的个人与机构被禁止访问,连身处美国境内的外籍人士——甚至包括Anthropic自家的外籍员工——也全部受限。
由于技术上无法快速精准甄别每个用户国籍,Anthropic选择了“一刀切”:两款新模型全面停服,所有请求自动回退到前代版本。好在其余模型服务暂时不受波及。
这场风波的导火索,是一个让双方各执一词的模型越狱漏洞,以及由此引爆的AI安全与商业利益的正面碰撞。当模型能力强大到足以成为“网络武器”时,关于安全、自由与商业的旧有规则,统统需要被重新审视。
从巅峰到冰封,72小时闪电坠落
6月9日,Anthropic在万众瞩目中发布其里程碑式产品——Mythos级大模型。Claude Fable 5作为首个面向公众的Mythos级产品,几乎在所有基准测试中碾压对手。
在SWE-Bench Pro编程测试中,它拿下80.3%的高分,远超GPT-5.5的58.6%。而在更贴近真实工程场景的Frontier Code Diamond测试里,29.3%的成绩对比GPT-5.5的5.7%,已经不是同一代技术的较量,而是代际碾压。
这种强大也得到了端到端开发者工具厂商的官方背书。代码编辑器Cursor的CEO迈克尔·特鲁埃尔直言:“Claude Fable 5在CursorBench上树立了绝对标杆,它攻克了一类此前所有模型都无法解决的长周期问题。”
GitHub首席产品官马里奥·罗德里格斯同样不吝赞美:“Fable 5是GitHub服务开发者群体迈出的真正一步。在我们的早期测试中,它以超越以往所有基准的自主性和可靠性,完成了复杂的长期编码任务。”
Anthropic当时颇为自豪地宣称,任务越长、越复杂,Fable 5的优势就越明显。为平衡性能与安全,公司为Fable 5装上了层层“安全护栏”。当用户查询网络安全等敏感主题时,系统会自动降级到能力次强的Claude Opus 4.8进行响应。这些护栏采用保守调校策略,虽然偶尔会误拦无害请求,但平均触发概率控制在5%以下。
同时,公司还推出了一个不带安全护栏的Mythos 5版本,通过与美国政府合作的玻璃翼计划,向少数网络安全防御人员开放。
发现漏洞与CEO的强硬拒绝
美国东部时间6月12日晚5点21分,Anthropic收到美国政府的出口管制指令,要求立即暂停所有外国人对Fable 5和Mythos 5的访问,无论他们身处美国境内还是境外。
公司在官网首页置顶了紧急公告:“美国政府援引国家安全部门的理由,发布出口管制指令,暂停任何外国人(无论在美国境内还是境外)访问Claude Fable 5和Claude Mythos 5。该命令的最终效果是,我们必须突然禁用所有客户的Fable 5和Mythos 5,以确保合规。访问其他所有Claude型号不受影响。对于给客户带来的干扰,我们深表歉意。我们认为这是一个误解,正在尽快恢复访问。”
据美国总统科学技术顾问委员会联合主席、前白宫人工智能事务负责人大卫·萨克斯的详细爆料,事件的导火索,是一个能绕过Fable 5所有安全护栏的越狱漏洞。该漏洞由一位同时为Anthropic和美国政府工作的可信第三方伙伴发现。
美国政府随即要求Anthropic CEO达里奥·阿莫迪要么立即修复漏洞,要么暂时下架模型。但出乎意料的是,阿莫迪明确拒绝了。
萨克斯透露,美国政府其实是不情愿才发布这一措施的。政府方面对Anthropic不配合如此合理的安全要求感到相当意外,认为这与Anthropic一贯标榜的“安全优先”品牌形象和核心价值观严重不符。
他同时强调,这次行动与Anthropic此前和国防部的纠纷完全无关,政府仍高度认可Anthropic的技术能力,并认为这个问题虽然严重,但原本可以轻松解决。如今,主动权完全掌握在Anthropic手中。
什么是模型越狱?为何如此致命?
在AI领域,模型越狱指的是通过精心设计的提示词或技术手段,绕过AI系统内置的安全防护和内容限制,使其生成原本被禁止的内容或执行原本被限制的操作。
对普通AI模型,越狱可能只是让它生成一些不当言论或虚假信息。但放到Fable 5这种Mythos级模型身上,后果则截然不同。正如萨克斯所说:“Fable本质上就是加了护栏的Mythos,一旦护栏被突破,就等于把Mythos及其先进的网络攻击能力,完全暴露给了那些不该拥有它的人。”
问题的关键在于,Anthropic自己曾大肆宣扬Mythos属于“网络武器级”模型,应按这个类别接受严格监管。他们主动向政府申请对Mythos实施管制,并强调Fable的安全护栏是其能够公开发布的唯一前提。正因如此,这次漏洞才让美国政府如此在意——既然你亲口承认这是武器,那武器的保险被撬开了,你却轻描淡写地说“没事”,这逻辑谁也说服不了。
谁在说谎?
针对这个漏洞的严重程度,双方展开了激烈的口水战。
Anthropic在长达数千字的官方声明中详细阐述了自身立场。公司表示,政府的信函没有提供任何具体的国家安全细节,他们理解政府的担忧是基于一个“狭窄且非通用”的越狱方法。“我们审查了这个特定技术的演示,它只能识别少量已知的、轻微的漏洞。这些漏洞都非常简单,我们发现其他公开可用的模型在不需要越狱的情况下也能发现它们。”
Anthropic强调,在Fable发布前的数周里,他们与美国政府、英国人工智能安全研究所、多个第三方机构以及内部团队合作,对安全护栏进行了总计数千小时的红队测试。这些测试表明,Fable的安全护栏比以往任何部署过的模型都更有效。没有任何测试人员能找到一个通用越狱——也就是那种能广泛绕过护栏、解锁大量网络能力的方法。
公司还指出,他们早就明确表示,目前没有任何模型提供商能做到完美的越狱防护。他们采用的是深度防御策略,目标是让越狱要么范围很窄,要么成本极高,并结合全面监控来快速检测和阻止任何成功的攻击。这也是他们要求保留客户数据30天的原因。这个政策变化虽然带来了客户成本,但能让他们研究和缓解越狱问题。
Anthropic认为,因为一个非通用的小漏洞就下架一款服务数亿用户的产品是不合理的。如果这个标准在全行业推广,基本上所有前沿模型提供商的新模型部署都会被叫停。
但美国政府完全不接受这套说辞。萨克斯直言,很难想象他们竟然能声称一个能让“网络武器”生效的越狱漏洞“不严重”。
据知情人士透露,美国政府之所以反应如此激烈,部分原因是怀疑一个与中国有关的组织已经通过这个漏洞访问了Mythos 5的完整能力,存在模型被逆向工程或蒸馏的风险。不过Anthropic方面表示,白宫在与他们的沟通中从未提过这一点。
AI监管的分水岭
这件事背后,其实是整个行业一直面临的核心矛盾:当模型能力强大到足以影响国家安全时,企业还有没有资格独自决定什么是“可接受的风险”?
Anthropic认为自己有完善的安全体系,政府不应过度干预。但美国政府觉得,只要存在一丝风险,就应该采取最严厉的措施。
截至发稿,双方仍在谈判。当AI的能力强大到足以成为“网络武器”时,安全与自由的边界究竟应该划在哪里?这个问题,恐怕没有简单的答案。






