Claude爆火研究漏引华人团队已挨打立正道歉

2026-06-24阅读 0热度 0

向量论文实验回路

Anthropic近日发布了一篇关于Claude内部“情绪机制”的新论文，随后被指遗漏了关键的同行研究，原作者直接公开质问这一疏忽。

MBZUAI研究生Chenxi Wang在阅读该论文后，敏锐地发现研究思路与她自己团队去年发表的工作高度相似。

事件始于4月2日，Anthropic公布了一项新成果，声称在Claude Sonnet 4.5中识别出171种“情绪向量”。这些向量在特定情境下被触发，其组织方式与人类情绪空间存在结构性对应。

论文进一步证实，这些情绪表征对模型行为具有因果影响力。例如，“绝望”状态会促使模型采取不道德行动，或在遇到无解的编程任务时选择“作弊”。

但Chenxi Wang确信，她们团队去年10月发表的论文《LLMs会“感觉”吗？情绪回路的发现与控制》才是首次系统探究大语言模型情绪生成内部机制的工作。而Anthropic最初发布的博文中并未引用该研究。

经作者本人直接沟通后，Anthropic迅速回应，致歉并更新了论文博客，在“相关工作”部分突出引用了这篇论文。

两项研究为何“撞车”

先拆解Chenxi Wang团队的论文。其核心在于揭示驱动语言模型情绪输出的内部机制——相当于厘清了大模型“情绪表达底层逻辑”。研究围绕三个关键问题展开：AI是否存在内在情绪机制？靠什么表达情绪？能否实施精确控制？

据作者介绍，这是该领域首项系统性研究。

Chenxi Wang指出，两项工作都聚焦于LLM自身如何“生成”情感，而非如何“识别”他人文本中的情感。但Anthropic最初引用的几篇“先前工作”恰好研究的是后者——情感感知。这正是她联系对方的直接原因。

她很快与论文通讯作者Jack Lindsey取得联系。Jack最初认为Chenxi团队的核心发现与他们博客中列举的已有研究存在重叠。经过Chenxi Wang逐一比对并阐明“情绪生成”与“情绪感知”的本质差异后，Jack接受了这一观点。

作者Chenxi Wang回复Anthropic的邮件

目前，Anthropic已更新博客，补充了这项引用。

首篇系统性AI情绪回路研究

那么，这篇被“追认”的华人团队研究到底做了什么？简言之，它系统性地回答了三个核心问题，并构建出LLM内部的“情绪回路”，实现了比传统提示词或向量操控更精准的情绪调控。

研究以LLaMA-3.2-3B-Instruct为主要实验模型，并在Qwen2.5-7B-Instruct上完成了跨模型验证。

第一个问题：大模型是否存在稳定且独立于具体语境的情绪机制？

研究者构建了名为SEV的受控数据集，覆盖工作、学习等8个日常场景。关键设计在于：每个场景只描述事实，严格禁止出现任何情绪词汇（如“开心”“难过”），确保观测到的情绪差异纯粹源于事件本身的语义。

接着，他们引导AI表达六种基本情绪，从模型网络各层中提取出与具体语境无关、只对应特定情绪的“情绪方向向量”。结果发现，从网络浅层开始，不同情绪的信号就开始分离，形成清晰的“情绪分组”。例如愤怒与厌恶的向量位置相近，悲伤与恐惧也彼此靠近——这与人类对情绪的直觉认知高度吻合。这些分组在深层网络中保持稳定。

这证实了第一问的答案：是的，模型内部编码了稳定且独立于语义的情绪表示。

第二个问题：这些情绪机制以什么形式存在？

答案是：高度集中。研究发现，每层网络中只有极少数神经元（MLP层）和注意力头（Attn层）主导情绪表达。两个实验验证了这一点：

1. 消融实验：关闭这些核心神经元或注意力头后，AI的情绪表达能力急剧下降。更值得注意的是，通常只需关闭2-4个神经元或1-2个注意力头，效果就显著受损。

2. 增强实验：仅激活这些核心组件，即使不给AI任何情绪提示，它也能自发产生对应情绪。而激活随机组件则完全无效。

第三个问题：能否利用这些机制实现通用、精准的情绪控制？

答案依然是肯定的，且效果远超现有方法。研究者进一步发现，情绪信息会在网络层间传播，并在深层趋于稳定。他们将各层中识别出的核心情绪组件按影响力整合，形成了一条跨层的连贯“情绪回路”。

直接调节这条回路来引导AI生成指定情绪，在测试集上的整体情绪表达准确率高达99.65%，大幅超越传统的“提示词引导”和“向量操控”方法。尤其是此前最难精准控制的“惊讶”情绪，实现了100%准确表达。

此外，在Qwen2.5-7B上的重复实验带来了有趣发现：由于安全对齐，直接操控很难让Qwen表达负面情绪，但通过这套“情绪回路”方法仍然可以有效引导。两个模型都表现出“少数核心组件主导情绪”的特点，说明这套机制很可能是LLM的通用规律，而非某个模型的专属特性。

硕士生直面Anthropic

该论文一作Chenxi Wang是MBZUAI（穆罕默德·本·扎耶德人工智能学院）的NLP硕士生，本科毕业于西安交通大学计算机科学专业。

她的研究方向聚焦于人本人工智能与可解释性研究，已有多篇一作/共同一作论文被EMNLP、ACL、NeurIPS、COLING等顶级会议接收。目前她在Qwen后训练团队实习。

此次事件最终以友好方式收尾：Anthropic道歉并补充引用；Chenxi Wang则大方肯定对方研究的独立价值。她特别指出，Anthropic在探索情绪表征的功能作用方面——例如对偏好和对齐相关行为的影响、真实交互中的激活模式以及后训练阶段的演变——做出了她们工作未曾涉猎的重要贡献。

她也提到，通讯作者Jack Lindsey在整个沟通过程中始终保持尊重态度，并真诚地参与技术讨论。

对这两篇论文细节感兴趣的朋友，可以进一步阅读原文。

论文链接：
[1] 华人团队论文：https://arxiv.org/abs/2510.11328
[2] Anthropic论文：https://transformer-circuits.pub/2026/emotions/index.html#toc-18

Claude爆火研究漏引华人团队已挨打立正道歉

两项研究为何“撞车”

首篇系统性AI情绪回路研究

硕士生直面Anthropic

相关阅读

最新教程

最新资讯