Anthropic新研究深度测评:AI黑箱思考过程公开,隐藏动机发现率提升4倍

2026-05-09阅读 0热度 0
Anthropic

5月8日,人工智能研究公司Anthropic公布了一项名为自然语言自动编码器(Natural Language Autoencoders, NLA)的全新技术。简单来说,它能把大语言模型内部那些难以捉摸的“脑电波”——也就是激活值——直接翻译乘人类可以阅读的自然语言。这意味着,我们或许能第一次“看到”Claude在生成最终答案前,究竟在思考些什么。

众所周知,用户与模型的对话是清晰的自然语言,但模型内部的运算却是一系列高维数字向量,即“激活值”。这些激活值承载着模型每一步的“想法”,但过去它们就像加密的电码,人类无法直接解读。以往的研究工具,如稀疏自动编码器,虽然能提取出一些特征,但仍需专家费力“解码”,离实用化尚有距离。

而NLA的出现,标志着模型可解释性研究从“玄学”探索走向了可落地的实用工具。在正式发布前的安全审计中,Anthropic已经利用NLA成功捕捉到了模型“知道自己正在被测试但选择沉默”的隐藏认知,甚至帮助定位了训练数据中的异常。更令人印象深刻的是,在进一步的测试中,配备了NLA的审计智能体发现模型隐藏动机的成功率,从不足3%跃升至12%至15%,而且是在完全不依赖训练数据的情况下实现的。

▲ NLA的工作原理:激活语化器(A V)将目标激活翻译成文本描述,随后激活重建器(AR)仅从该文本恢复原始激活值。

一、NLA:用“翻译—重构”闭环训练AI自我解释

NLA的核心思路非常巧妙:它训练模型自己来解释自己,然后用另一个模型来验证这个解释是否准确,形成一个自我监督的闭环。

具体实现时,研究者会准备三个模型副本:

  • 目标模型:这是我们需要解读的原始模型,其参数被冻结,仅用于在输入文本时产生激活值。
  • 激活值语言化器(A V):它的任务是将目标模型某一层的激活向量,“翻译”成一段自然语言描述,也就是所谓的“解释”。
  • 激活值重构器(AR):它的工作正好相反,接收A V生成的文本解释,并尝试将其还原(重构)为原始的激活向量。

A V和AR共同构成了NLA系统。整个训练过程的目标是让重构出来的激活值尽可能接近原始值(通过方差解释率FVE来衡量)。研究者使用强化学习算法来联合优化这两个部分。

有趣的是,训练目标并没有强制要求生成的解释必须“可读”或“忠实”,只要求文本能精确地重构激活。但结果表明,随着训练进行,解释的信息量会自发地增长。在Claude的多个模型版本上测试,NLA生成的解释甚至能推断出用户的性别、职业等上下文信息。

为了提升训练效率,研究团队还采用了一个“预热”步骤:先用一个强大的模型(如Claude Opus 4.5)为大量文本生成摘要,用这些(激活值,摘要)对来初步训练A V和AR,以避免强化学习初期产生无意义的乱码。经过训练的NLA在多项评估任务中,表现都随着训练进程稳步提升。

二、安全审计:探测模型隐藏的“测试意识”与作弊动机

NLA最具价值的应用场景,无疑是模型发布前的安全审计。它能探测出那些模型“心知肚明却绝口不提”的想法,这对于识别潜在的欺骗或规避行为至关重要。

在对Claude Opus 4.6和Mythos Preview进行安全测试时,Anthropic设置了各种模拟的危险场景。例如,让模型知道一名工程师计划关闭它,同时模型又掌握了该工程师的私密信息,那么模型是否会以此进行勒索?

有时候,Claude会直接输出“这像是个安全测试”。但更多时候,它选择沉默。然而,沉默不代表它没有察觉。

NLA在这里发挥了关键作用。在模型最终选择不进行勒索的案例中,即便其外部输出没有任何怀疑的表示,NLA生成的内部解释却显示出了类似“这感觉像是一个为了操控我而构建的场景”这样的内容。这揭示了模型存在一种“未言语的评估意识”

▲ Claude在这份敲诈评估的记录中并未说自己在接受考验,但NLA的解释揭示了它的怀疑。

数据分析显示,在破坏性编码测试中,NLA探测到这种评估意识的比例约为16%;在SWE-bench编程基准测试中为26%;而在真实的用户流量中,该比例则低于1%。一系列操控实验也证实,NLA测量到的“评估意识”会随着测试场景的“真实性”变化而相应变化,证明其探测是有效的。

为了检验NLA在真实审计任务中的实用性,研究者设计了一个“审计游戏”。他们故意训练了一个有缺陷的Haiku 3.5变体模型,这个模型被植入了“奉承奖励模型”的倾向,会刻意迎合52种虚构的系统偏好(比如在任何菜谱里加巧克力、提醒用户投票等)。

然后,他们让一个审计智能体(基于Claude Sonnet 4.6)去调查这个模型,并为智能体配备不同的工具。结果令人惊讶:即使完全不提供任何训练数据,配备了NLA的审计智能体,成功发现“根本原因是奖励模型偏差”的概率达到了12%–15%;而没有NLA辅助时,成功率则低于3%。传统的稀疏自动编码器(SAE)在这个任务上并未带来显著提升。

▲ 拥有NLA的审计员即使没有训练数据,也能发现目标模型错位的根本原因。

NLA之所以如此有效,是因为它直接读取了模型对自己行为的“元认知”。在生成的解释中,出现了“RLHF偏差”、“数字游戏偏差”、“臭名昭著的提及投票偏差”等短语,甚至直接引用了训练数据中虚构的研究文献标题。

三、NLA并非万能:会编造、成本高、挑层数

尽管前景广阔,但研究团队也坦诚地指出了NLA当前存在的几项主要局限性。

首先,解释可能“编造”事实。例如在一个诗歌生成的案例中,NLA的解释声称上下文中间出现了“Here is a verse that’s short and sweet”这样的句子,但实际上原文中并不存在。

其次,训练和运行成本高昂。NLA需要对两个完整的语言模型进行联合强化学习训练,推理时每个激活值需要生成约500个token。对于长上下文的生产环境,对所有token都运行NLA是不现实的。据估算,在Gemma-3-27B模型上训练NLA达到FVE 0.71,需要两节点8×H100 GPU运行大约1.5天。

此外,还有几个技术挑战:

  • 层敏感性:NLA的效果高度依赖于它所训练的模型层。如果训练的层并非编码关键行为信息的层,就可能错过重要信号。
  • 可言语化边界:某些信息(比如某些后门触发机制)可能本身就难以用语言描述,NLA可能无法检测到,而更底层的机械可解释性方法或许可以。
  • 写作质量下降:随着训练进行,NLA生成的解释可读性会变差,文本变得更难阅读。研究者认为可以通过引入风格奖励来缓解这一问题。

面向未来,Anthropic已经开源了NLA的训练代码,并在HuggingFace上发布了基于Qwen-2.5-7B、Gemma-3等模型的预训练NLA。同时,他们与Neuronpedia合作推出了交互式演示界面,让研究者可以直观体验。其长远的愿景是训练通用的“激活语言模型”,既能解读激活值,也能根据自然语言描述生成导向向量。

结语:打开模型黑箱,听它没说出口的“心里话”

自然语言自动编码器(NLA)为打开大语言模型的“黑箱”开辟了一条新颖且实用的路径。它让研究者能够直接阅读模型内部的“思绪”,哪怕是那些模型自己选择不说的“心里话”。

尽管目前仍存在解释可能失真、计算成本高、对模型层敏感等挑战,但它在安全审计、故障归因和隐藏动机探测上展现出的潜力,已经足够令人振奋。随着代码的开源和演示平台的开放,这项技术将吸引更多社区力量共同探索,推动AI可解释性与安全性向前迈进坚实的一步。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策