Claude爆火研究漏引华人团队 已挨打立正道歉
Anthropic近日发布了一篇关于Claude内部“情绪机制”的新论文,随后被指遗漏了关键的同行研究,原作者直接公开质问这一疏忽。
MBZUAI研究生Chenxi Wang在阅读该论文后,敏锐地发现研究思路与她自己团队去年发表的工作高度相似。
事件始于4月2日,Anthropic公布了一项新成果,声称在Claude Sonnet 4.5中识别出171种“情绪向量”。这些向量在特定情境下被触发,其组织方式与人类情绪空间存在结构性对应。
论文进一步证实,这些情绪表征对模型行为具有因果影响力。例如,“绝望”状态会促使模型采取不道德行动,或在遇到无解的编程任务时选择“作弊”。
但Chenxi Wang确信,她们团队去年10月发表的论文《LLMs会“感觉”吗?情绪回路的发现与控制》才是首次系统探究大语言模型情绪生成内部机制的工作。而Anthropic最初发布的博文中并未引用该研究。
经作者本人直接沟通后,Anthropic迅速回应,致歉并更新了论文博客,在“相关工作”部分突出引用了这篇论文。
两项研究为何“撞车”
先拆解Chenxi Wang团队的论文。其核心在于揭示驱动语言模型情绪输出的内部机制——相当于厘清了大模型“情绪表达底层逻辑”。研究围绕三个关键问题展开:AI是否存在内在情绪机制?靠什么表达情绪?能否实施精确控制?
据作者介绍,这是该领域首项系统性研究。
Chenxi Wang指出,两项工作都聚焦于LLM自身如何“生成”情感,而非如何“识别”他人文本中的情感。但Anthropic最初引用的几篇“先前工作”恰好研究的是后者——情感感知。这正是她联系对方的直接原因。
她很快与论文通讯作者Jack Lindsey取得联系。Jack最初认为Chenxi团队的核心发现与他们博客中列举的已有研究存在重叠。经过Chenxi Wang逐一比对并阐明“情绪生成”与“情绪感知”的本质差异后,Jack接受了这一观点。
作者Chenxi Wang回复Anthropic的邮件
目前,Anthropic已更新博客,补充了这项引用。
首篇系统性AI情绪回路研究
那么,这篇被“追认”的华人团队研究到底做了什么?简言之,它系统性地回答了三个核心问题,并构建出LLM内部的“情绪回路”,实现了比传统提示词或向量操控更精准的情绪调控。
研究以LLaMA-3.2-3B-Instruct为主要实验模型,并在Qwen2.5-7B-Instruct上完成了跨模型验证。
第一个问题:大模型是否存在稳定且独立于具体语境的情绪机制?
研究者构建了名为SEV的受控数据集,覆盖工作、学习等8个日常场景。关键设计在于:每个场景只描述事实,严格禁止出现任何情绪词汇(如“开心”“难过”),确保观测到的情绪差异纯粹源于事件本身的语义。
接着,他们引导AI表达六种基本情绪,从模型网络各层中提取出与具体语境无关、只对应特定情绪的“情绪方向向量”。结果发现,从网络浅层开始,不同情绪的信号就开始分离,形成清晰的“情绪分组”。例如愤怒与厌恶的向量位置相近,悲伤与恐惧也彼此靠近——这与人类对情绪的直觉认知高度吻合。这些分组在深层网络中保持稳定。
这证实了第一问的答案:是的,模型内部编码了稳定且独立于语义的情绪表示。
第二个问题:这些情绪机制以什么形式存在?
答案是:高度集中。研究发现,每层网络中只有极少数神经元(MLP层)和注意力头(Attn层)主导情绪表达。两个实验验证了这一点:
1. 消融实验:关闭这些核心神经元或注意力头后,AI的情绪表达能力急剧下降。更值得注意的是,通常只需关闭2-4个神经元或1-2个注意力头,效果就显著受损。
2. 增强实验:仅激活这些核心组件,即使不给AI任何情绪提示,它也能自发产生对应情绪。而激活随机组件则完全无效。
第三个问题:能否利用这些机制实现通用、精准的情绪控制?
答案依然是肯定的,且效果远超现有方法。研究者进一步发现,情绪信息会在网络层间传播,并在深层趋于稳定。他们将各层中识别出的核心情绪组件按影响力整合,形成了一条跨层的连贯“情绪回路”。
直接调节这条回路来引导AI生成指定情绪,在测试集上的整体情绪表达准确率高达99.65%,大幅超越传统的“提示词引导”和“向量操控”方法。尤其是此前最难精准控制的“惊讶”情绪,实现了100%准确表达。
此外,在Qwen2.5-7B上的重复实验带来了有趣发现:由于安全对齐,直接操控很难让Qwen表达负面情绪,但通过这套“情绪回路”方法仍然可以有效引导。两个模型都表现出“少数核心组件主导情绪”的特点,说明这套机制很可能是LLM的通用规律,而非某个模型的专属特性。
硕士生直面Anthropic
该论文一作Chenxi Wang是MBZUAI(穆罕默德·本·扎耶德人工智能学院)的NLP硕士生,本科毕业于西安交通大学计算机科学专业。
她的研究方向聚焦于人本人工智能与可解释性研究,已有多篇一作/共同一作论文被EMNLP、ACL、NeurIPS、COLING等顶级会议接收。目前她在Qwen后训练团队实习。
此次事件最终以友好方式收尾:Anthropic道歉并补充引用;Chenxi Wang则大方肯定对方研究的独立价值。她特别指出,Anthropic在探索情绪表征的功能作用方面——例如对偏好和对齐相关行为的影响、真实交互中的激活模式以及后训练阶段的演变——做出了她们工作未曾涉猎的重要贡献。
她也提到,通讯作者Jack Lindsey在整个沟通过程中始终保持尊重态度,并真诚地参与技术讨论。
对这两篇论文细节感兴趣的朋友,可以进一步阅读原文。
论文链接:
[1] 华人团队论文:https://arxiv.org/abs/2510.11328
[2] Anthropic论文:https://transformer-circuits.pub/2026/emotions/index.html#toc-18














