Fable 5反蒸馏机制深度实测：误触率高，降智频繁问题解析

2026-06-11阅读 0热度 0

其他

都先别急着吹！

Claude刚刚发布的新模型Fable 5，很多人可能压根就用不上！

不少网友实测发现，Fable 5的安全护栏检测机制的触发几率，似乎比最新宣称的不到5%要严格得多。

无论是普通编码任务。

还是简单打个招呼，都有可能被自动路由回老模型Opus 4.8。

更离谱的是，有用户让Claude帮忙搜点资料丰富一下背景，结果它想了两步，啪——直接切Opus了。

换句话说，你以为自己在用Anthropic刚发布的最强模型，实际上聊着聊着，对面已经偷偷换人了。

而且不光是安全检测容易误伤，更绝的还在后头：

Anthropic还在长达319页的系统卡里埋了一套防蒸馏机制。如果系统怀疑你想拿Claude的输出训练自己的AI模型，它甚至不会告诉你发生了什么，而是直接降低Fable的回答质量。

可以说，前一手防你作恶，后一手防你抄作业，相当符合A社的一向风格。

寓言怎么老变成章鱼？

先给今天没刷新闻的大伙补个课。今天凌晨，Anthropic终于发布了预热许久的两款模型——「神话」（Mythos）和「寓言」（Fable）。

其中，Fable 5最大的看点，是Anthropic第一次把Mythos级别能力向普通用户开放。而Fable与正式版Mythos的差别在于，多了一个安全护栏。目前，Fable免费开放给所有人到22号（22号只能通过API用），Mythos则还是开放给Claude部分的合作伙伴。

在最新介绍里，Fable的软件工程、知识工作、视觉理解能力全面增强，超过此前所有公开发布的Claude模型。一句话速通理解就是，这俩就是现在的大模型天花板，各方面能力都已经到顶了。

新模型一经发出，刚入职A社的卡帕西第一时间夸了一波。

Claude Code之父Boris也对它赞不绝口。

不过，厉害归厉害，真让大伙用起来后，才发现，这寓言讲着讲着，老变成章鱼（Opus）。原因也简单——Anthropic给Fable装了一套分类器，只要它觉得你聊的是网络安全、生物、化学，或者想拿Claude蒸馏训练自家模型，就会自动把会话切给Opus 4.8。这条规则白纸黑字写在系统卡第12页。

实际体验中，切换发生在Fable的思考过程中，当它自己感觉不对劲，也不会问你，就直接切了。如果想继续用？要么把提示词改到它满意，要么重开一个窗口。

最新在技术博客里说，这套检测平均触发率不到5%。但网友很快发现，这5%不像5%。

有人表示，自己就是分析个代码，也被切了。

搞安全审计的更是直呼被针对，活儿没法干了。

还有人说压根用不了，审查代码库都会被Fable拒绝。

要说最离谱的，可能就是有网友把Fable自己的系统卡丢给它，让它解读一下，它也给你切了。

还有一名从事生物医学的科学家表示，这压根都没法用Fable工作，因为触及违禁词。

而这并不是孤例，不少生物学网友都反映，Fable压根难以使用。

Boris在评论区承认了这个问题，表示正在处理。

这事儿真正微妙的地方在于，Fable在上面三种高风险场景下，至少会告诉你一声：“哥们儿，我给你换模型了。”但如果它怀疑你在研究怎么训练下一代大模型，那就进入另一个模式。系统卡写明，重点针对的场景包括：限制Claude在前沿LLM开发请求上的有效性，例如搭建预训练流水线、分布式训练基础设施，或者ML翻跟斗设计。

在这种场景下，Claude不切模型，不弹提示，不通知用户，而是坐在那里，悄悄把自己调笨一点。Anthropic原文写得很学术：Prompt Modification、Steering Vector、PEFT。（系统卡第12页）翻译乘人话就是：你以为自己在跟满血版Fable聊天，实际上对面已经偷偷开了省电模式。A社这波，属实是把护城河直接焊进推理链里了。

至于系统怎么判断，系统卡第58-59页也写明白了。

Fable背后跑的是一套两阶段检测系统：第一层探针会直接检查模型内部激活值（activation），筛查所有请求；第二层再交给独立分类器判断风险。一旦命中，客户端就会自动切换到Opus 4.8。Anthropic甚至在报告里承认，由于分类器在网络安全测试中几乎总会触发，因此Fable 5在网络安全任务上的实际表现，基本等同于Opus 4.8。

一言以蔽之，Fable 5目前也还是一个有条件释放的模型：大部分场景享受Mythos 5级别能力，但在高风险领域自动降级为Opus 4.8的能力水平。