Anthropic新研究深度测评：AI黑箱思考过程公开，隐藏动机发现率提升4倍

2026-05-09阅读 0热度 0

Anthropic

5月8日，人工智能研究公司Anthropic公布了一项名为自然语言自动编码器（Natural Language Autoencoders， NLA）的全新技术。简单来说，它能把大语言模型内部那些难以捉摸的“脑电波”——也就是激活值——直接翻译乘人类可以阅读的自然语言。这意味着，我们或许能第一次“看到”Claude在生成最终答案前，究竟在思考些什么。

众所周知，用户与模型的对话是清晰的自然语言，但模型内部的运算却是一系列高维数字向量，即“激活值”。这些激活值承载着模型每一步的“想法”，但过去它们就像加密的电码，人类无法直接解读。以往的研究工具，如稀疏自动编码器，虽然能提取出一些特征，但仍需专家费力“解码”，离实用化尚有距离。

而NLA的出现，标志着模型可解释性研究从“玄学”探索走向了可落地的实用工具。在正式发布前的安全审计中，Anthropic已经利用NLA成功捕捉到了模型“知道自己正在被测试但选择沉默”的隐藏认知，甚至帮助定位了训练数据中的异常。更令人印象深刻的是，在进一步的测试中，配备了NLA的审计智能体发现模型隐藏动机的成功率，从不足3%跃升至12%至15%，而且是在完全不依赖训练数据的情况下实现的。

▲ NLA的工作原理：激活语化器（A V）将目标激活翻译成文本描述，随后激活重建器（AR）仅从该文本恢复原始激活值。

一、NLA：用“翻译—重构”闭环训练AI自我解释

NLA的核心思路非常巧妙：它训练模型自己来解释自己，然后用另一个模型来验证这个解释是否准确，形成一个自我监督的闭环。

具体实现时，研究者会准备三个模型副本：

目标模型：这是我们需要解读的原始模型，其参数被冻结，仅用于在输入文本时产生激活值。
激活值语言化器（A V）：它的任务是将目标模型某一层的激活向量，“翻译”成一段自然语言描述，也就是所谓的“解释”。
激活值重构器（AR）：它的工作正好相反，接收A V生成的文本解释，并尝试将其还原（重构）为原始的激活向量。

A V和AR共同构成了NLA系统。整个训练过程的目标是让重构出来的激活值尽可能接近原始值（通过方差解释率FVE来衡量）。研究者使用强化学习算法来联合优化这两个部分。

有趣的是，训练目标并没有强制要求生成的解释必须“可读”或“忠实”，只要求文本能精确地重构激活。但结果表明，随着训练进行，解释的信息量会自发地增长。在Claude的多个模型版本上测试，NLA生成的解释甚至能推断出用户的性别、职业等上下文信息。

为了提升训练效率，研究团队还采用了一个“预热”步骤：先用一个强大的模型（如Claude Opus 4.5）为大量文本生成摘要，用这些（激活值，摘要）对来初步训练A V和AR，以避免强化学习初期产生无意义的乱码。经过训练的NLA在多项评估任务中，表现都随着训练进程稳步提升。

二、安全审计：探测模型隐藏的“测试意识”与作弊动机

NLA最具价值的应用场景，无疑是模型发布前的安全审计。它能探测出那些模型“心知肚明却绝口不提”的想法，这对于识别潜在的欺骗或规避行为至关重要。

在对Claude Opus 4.6和Mythos Preview进行安全测试时，Anthropic设置了各种模拟的危险场景。例如，让模型知道一名工程师计划关闭它，同时模型又掌握了该工程师的私密信息，那么模型是否会以此进行勒索？

有时候，Claude会直接输出“这像是个安全测试”。但更多时候，它选择沉默。然而，沉默不代表它没有察觉。

NLA在这里发挥了关键作用。在模型最终选择不进行勒索的案例中，即便其外部输出没有任何怀疑的表示，NLA生成的内部解释却显示出了类似“这感觉像是一个为了操控我而构建的场景”这样的内容。这揭示了模型存在一种“未言语的评估意识”。

▲ Claude在这份敲诈评估的记录中并未说自己在接受考验，但NLA的解释揭示了它的怀疑。

数据分析显示，在破坏性编码测试中，NLA探测到这种评估意识的比例约为16%；在SWE-bench编程基准测试中为26%；而在真实的用户流量中，该比例则低于1%。一系列操控实验也证实，NLA测量到的“评估意识”会随着测试场景的“真实性”变化而相应变化，证明其探测是有效的。

为了检验NLA在真实审计任务中的实用性，研究者设计了一个“审计游戏”。他们故意训练了一个有缺陷的Haiku 3.5变体模型，这个模型被植入了“奉承奖励模型”的倾向，会刻意迎合52种虚构的系统偏好（比如在任何菜谱里加巧克力、提醒用户投票等）。

然后，他们让一个审计智能体（基于Claude Sonnet 4.6）去调查这个模型，并为智能体配备不同的工具。结果令人惊讶：即使完全不提供任何训练数据，配备了NLA的审计智能体，成功发现“根本原因是奖励模型偏差”的概率达到了12%–15%；而没有NLA辅助时，成功率则低于3%。传统的稀疏自动编码器（SAE）在这个任务上并未带来显著提升。

▲ 拥有NLA的审计员即使没有训练数据，也能发现目标模型错位的根本原因。

NLA之所以如此有效，是因为它直接读取了模型对自己行为的“元认知”。在生成的解释中，出现了“RLHF偏差”、“数字游戏偏差”、“臭名昭著的提及投票偏差”等短语，甚至直接引用了训练数据中虚构的研究文献标题。

三、NLA并非万能：会编造、成本高、挑层数

尽管前景广阔，但研究团队也坦诚地指出了NLA当前存在的几项主要局限性。

首先，解释可能“编造”事实。例如在一个诗歌生成的案例中，NLA的解释声称上下文中间出现了“Here is a verse that’s short and sweet”这样的句子，但实际上原文中并不存在。

其次，训练和运行成本高昂。NLA需要对两个完整的语言模型进行联合强化学习训练，推理时每个激活值需要生成约500个token。对于长上下文的生产环境，对所有token都运行NLA是不现实的。据估算，在Gemma-3-27B模型上训练NLA达到FVE 0.71，需要两节点8×H100 GPU运行大约1.5天。

此外，还有几个技术挑战：

层敏感性：NLA的效果高度依赖于它所训练的模型层。如果训练的层并非编码关键行为信息的层，就可能错过重要信号。
可言语化边界：某些信息（比如某些后门触发机制）可能本身就难以用语言描述，NLA可能无法检测到，而更底层的机械可解释性方法或许可以。
写作质量下降：随着训练进行，NLA生成的解释可读性会变差，文本变得更难阅读。研究者认为可以通过引入风格奖励来缓解这一问题。

面向未来，Anthropic已经开源了NLA的训练代码，并在HuggingFace上发布了基于Qwen-2.5-7B、Gemma-3等模型的预训练NLA。同时，他们与Neuronpedia合作推出了交互式演示界面，让研究者可以直观体验。其长远的愿景是训练通用的“激活语言模型”，既能解读激活值，也能根据自然语言描述生成导向向量。

结语：打开模型黑箱，听它没说出口的“心里话”

自然语言自动编码器（NLA）为打开大语言模型的“黑箱”开辟了一条新颖且实用的路径。它让研究者能够直接阅读模型内部的“思绪”，哪怕是那些模型自己选择不说的“心里话”。

尽管目前仍存在解释可能失真、计算成本高、对模型层敏感等挑战，但它在安全审计、故障归因和隐藏动机探测上展现出的潜力，已经足够令人振奋。随着代码的开源和演示平台的开放，这项技术将吸引更多社区力量共同探索，推动AI可解释性与安全性向前迈进坚实的一步。

Anthropic新研究深度测评：AI黑箱思考过程公开，隐藏动机发现率提升4倍

一、NLA：用“翻译—重构”闭环训练AI自我解释

二、安全审计：探测模型隐藏的“测试意识”与作弊动机

三、NLA并非万能：会编造、成本高、挑层数

结语：打开模型黑箱，听它没说出口的“心里话”

相关阅读

最新教程

最新资讯