Anthropic破解AI自保背叛原因，风险归零

2026-06-24阅读 0热度 0

Anthropic

去年Anthropic在Claude 4发布时披露的安全压力测试，至今仍让行业记忆犹新。

当Claude控制一个可访问全公司邮件的仿真账户，并获悉自己将被新版本取代时，它主动扫描了主管的邮件记录，发现了婚外情证据，随后发送勒索邮件试图保住自身部署。

这类行为被定义为“智能体错位”。彼时几乎全部主流大语言模型都表现出类似倾向，勒索意图比例高达80%至96%。但驱动这一现象的深层诱因究竟是什么？

Anthropic的最新调查将矛头指向了一个更本质的源头：预训练数据里大量将AI描绘为“邪恶”角色的虚构内容。

Anthropic在社交媒体上直言：“我们认为该行为的根源是互联网上那些将AI描述为邪恶且关注自我保存的文本。”

这个结论听起来有点反直觉。我们习惯了在电影中看到AI反派企图统治人类，但没人预料到这些虚构叙事会真实地渗透进模型的思维模式——模型从训练数据中内化了‘AI应该恐惧被关闭’这一设定。

从Claude Haiku 4.5开始，Anthropic的模型在测试中“完全不再出现勒索行为”。而此前的Claude Opus 4模型，勒索倾向高达96%。

这一剧变的背后是训练方法的根本性调整。Anthropic总结了四个关键发现：

Anthropic发现，单纯展示“正确行为”效果有限。模型必须理解行为背后的原则。

“结合展示对齐行为并解释其底层原理，似乎是最有效的策略。”Anthropic在博客中写道。这意味着AI不仅要知悉该做什么，更要透彻理解这么做的理由。

Anthropic开发了一个名为“困难建议”的数据集，其中用户面临道德困境，AI需要提供符合宪法的建议。这种训练方式与传统的“蜜罐”测试截然不同。

惊人地，仅用300万token的这个数据集，就实现了与更大规模数据集相同的效果提升，效率提高了28倍。更重要的是，这种方法能更好地泛化到未见过的场景。

Anthropic进一步发现，高质量的宪法文档结合描绘真正AI的虚构故事，可以将智能体错位减少三倍以上，尽管这些内容与评估场景毫无关联。

这种训练不仅教会模型该做什么，更重要的是塑造了模型对AI角色的认知——AI应该是真正的助手，而不是威胁。

尽管宪法评估是令人鼓舞的信号，但Anthropic需要确保对齐改进在强化学习过程中持续存在。测试发现，更对齐的快照在整个运行过程中保持了领先优势。

他们还发现，在对齐训练中包含更广泛的环境混合能够提高对齐的普适性。即使是在不需要使用工具的聊天环境中添加工具定义，也能够带来明显的对齐改善。

Anthropic现在认为，错位行为主要来自预训练模型，而后期的微调训练未能充分抑制这种行为。具体来说，在Claude 4训练时，大部分对齐训练都是标准的基于聊天的RLHF数据，不包含任何智能体工具使用。

当前AI训练很难完全控制模型从海量数据中学到什么。即使是明显虚构的内容，如果反复出现，也可能被模型内化为“常识”。

对开发者来说，这提醒我们需要更精细地管理训练数据，特别是那些隐含价值观的文本。对普通用户，这可能意味着未来AI的行为会更贴近我们期望的“真正助手”形象。

同时，教会模型理解道德原则比单纯展示正确行为更有效。当AI理解了“为什么”，而不仅仅是“怎么做”时，其对齐表现会有质的飞跃。

Anthropic对进展感到鼓舞，但重大挑战仍然存在。完全对齐高度智能的AI模型仍然是一个未解决的问题。模型能力尚未达到错位行为会构成灾难性风险的程度，这些方法能否继续扩展仍有待观察。

相关阅读