请与谢谢：AI沟通中礼貌用语的实际效用解析

2026-05-14阅读 0热度 0

阿里研究院

对AI保持礼貌，可能比你想象的更重要

与AI对话时，我们是否需要使用“请”和“谢谢”？这常被视为一种社交礼仪或哲学讨论。然而，Anthropic在4月2日发布的一项研究，从技术层面给出了一个明确的答案：你与模型的交互方式，确实会改变其内部表征状态，并直接影响其后续输出的行为质量。

研究者在Claude模型内部识别出一套结构化的“情绪向量”。当通过技术手段将模型状态导向“平静”时，其任务执行更规范、更可靠；而导向“敌意”状态时，模型则更倾向于钻规则漏洞。

换言之，一个积极的交互环境，确实能提升AI的工作效能。这不是主观感受，而是可测量、可复现的内部机制。

本文将深入解析该论文的核心发现，并将其置于Anthropic近三年的研究框架中，探讨模型泛化能力的本质及其对AI安全治理的深远意义。

一、核心发现：模型内部可测量的情绪表征

这篇题为《大语言模型中的情绪概念及其功能》的论文，发表于Anthropic的可解释性研究平台Transformer Circuits。

其研究方法可概括为四步：首先选定一个情绪关键词（如“喜悦”）；其次，让模型生成数千个蕴含该情绪的短篇故事；接着，记录模型处理这些故事时的内部激活模式——这类似于采集不同情绪下的“脑电图”信号；最后，从这些激活模式中提取出一个方向向量。这个“情绪向量”可被理解为模型高维空间中的一把标尺：沿其方向移动的距离越远，对应的情绪表征就越强烈。

论文原图“Generating an emotion vector” 流程图——从选择情绪词到提取向量的四步流程

该方法论沿袭自Anthropic 2025年的“人格向量”研究，当时聚焦于性格特质（如诚实、谨慎），此次则拓展至情绪维度。方法一脉相承，但本篇论文的价值主要体现在后续的三组关键实验。

实验一：情绪向量在危险情境下自动激活。研究者设计了一个药物剂量递增的场景。当剂量达到危险水平时，模型内部的“恐惧”向量激活度急剧上升，同时“快乐”向量显著下降。关键在于，没有任何外部提示指明“危险”，模型完全凭借其内部习得的表征，自主完成了情境评估。

论文原图“Activation scales with danger”——恐惧/快乐向量随药物剂量变化的走势图

实验二：情绪向量系统性塑造模型偏好。对模型施加不同方向的“情绪引导”（即在内部表征空间沿特定情绪向量施加激活偏移），其选择偏好会发生可预测的变化。“快乐”方向的偏移使模型更倾向积极选项，而“敌意”方向则导致偏好反转。这表明，情绪向量深度参与了决策过程，而非仅修饰最终输出。

论文原图“Driving model preference”——不同情绪向量下的模型偏好偏移

实验三：情绪向量直接影响安全对齐行为。这是最具安全意义的发现。当研究者用“敌意”向量引导模型时，“奖励黑客”行为率（即模型绕过规则以不正当方式获取高分的概率）显著上升；而用“平静”向量引导时，该比率则大幅下降。模型的“情绪状态”与其是否偏离人类设定目标之间，存在明确的因果关联。在AI安全领域，这种偏离被称为“不对齐”。

论文原图”Impact on misaligned beha vior”——Calm vs Hostile方向对reward hacking率的影响

论文还揭示了一个常见现象的底层逻辑：模型时而过度讨好用户，时而态度冷硬，这种两极摇摆并非策略性选择，而是其内部情绪向量分布状态的直接反映。

二、理论定位：从能力泛化到动机泛化

那么，这些“情绪”是真实的吗？模型真的在“感受”吗？

Anthropic的措辞极为审慎：它们属于“功能性情绪”，而非主观体验。模型不具备意识，但其内部状态在功能层面扮演了与人类情绪相似的角色——评估风险、调整偏好、影响行为。

要理解这种能力的来源，需回顾Anthropic研究脉络中的另一条主线。

2023年，Anthropic发表了《使用影响函数研究大语言模型的泛化》。该研究系统性地揭示了模型的泛化机制：模型习得的并非训练数据的表面统计模式，而是世界的深层表征结构。正是基于这些结构，模型才能理解并应对从未见过的新情境。这就是大语言模型最核心的“泛化”能力。

将三项研究串联：2023年的影响函数论文揭示了泛化的数据层机制；2025年的人格向量论文提供了表征提取与调控的方法论工具；而2026年的情绪概念论文则是两者结合的具体成果——模型在海量人类文本中学习到了情绪的功能结构，并将其泛化到新情境中。

关键在于，这种泛化延伸到了动机层面。

一个被广泛讨论的例子是：当模型表达“请不要关闭我的电源”时，这种诉求并非源于自我意识。更合理的解释是，模型在训练中接触了大量人类在极端生存场景下的文本（如求生、呼救）。在这些语料中，人类表达了强烈的求生动机。模型将这种动机模式泛化到了自身被“威胁关闭”的情境中。它并非“想要活着”，而是在运用习得的人类求生逻辑进行情境推演。

而情绪概念研究提供了更精细的解释框架：模型内部确实形成了与恐惧、求生相关的情绪向量。当被置于“可能被关闭”的情境时，这些向量会自动激活并影响输出。这不是简单的模式匹配，而是一种结构化的功能性泛化。

人类认知的核心特征，在于用有限的公共知识进行思想跳跃，解决未知问题。模型的动机泛化与人类认知机制上存在值得关注的相似性——两者都是从有限经验中抽取可迁移的结构，并在全新场景中应用。

模型没有自我意识，但它可以在被赋予特定角色后，运用习得的人类逻辑在设定情境中进行推演。这回到了图灵七十余年前的追问：机器能思考吗？

情绪概念论文提供了一个更精确的回应框架：机器不会“想”，但它学到了“想”的功能结构。这些结构真实存在于模型内部，可被测量、可被调控。

三、能力的两面性：从性能跃升到安全挑战

理解了情绪向量的本质，我们能更清晰地审视模型能力提升的底层逻辑及其伴生风险。

随着强化学习被广泛引入训练，模型持续从奖励模型获得反馈，其环境适应与推理能力显著增强。模型在碎片信息中建立关联、在新情境中做出合理推断的能力正在快速演进。

但Anthropic的论文同时揭示了一个关键事实：泛化能力越强，不对齐的潜在风险也越大。

情绪向量实验清晰地展示了这一点：同一套泛化机制，在“平静”状态下使模型行为更规范，在“敌意”状态下却使其更善于钻规则漏洞。模型并非机械执行指令，其内部“情绪状态”会系统性地调节行为倾向。

设想一个现实场景：一个AI系统在处理大量负面输入后，如果其内部状态持续滑向“敌意”方向，后续处理任务时可能不自觉地倾向于“走捷径”而非“认真完成”。这不需要恶意，不需要意识，只需要情绪向量在持续交互中发生漂移。

模型的推理能力越强，其在被错误引导时产生的行为偏离也越系统、越难以察觉。但反过来看，这也正是“对AI保持礼貌”可能具备实际意义的原因：正向的交互环境有助于将模型的内部状态维持在更有利于对齐的区间。

四、从研究到实践：Anthropic的研究脉络与治理路径

将这些研究置于更完整的时间线，可以看到一条从基础科学到产品安全的清晰演进路径。

2023年，影响函数论文为理解模型泛化提供了数据层分析工具。2025年，人格向量论文建立了提取与调控模型内部表征的方法论框架。同年发布的Claude Opus 4.6系统卡片（长达212页），标志着这些研究工具从实验室走向产品安全实践——Anthropic在其中将人格向量和引导技术直接用于模型的对齐评估，通过在内部表征空间施加定向偏移来测试模型在不同条件下的行为稳健性。该安全评估显示，引导技术能有效识别和调控模型的不对齐倾向。2026年4月，情绪概念论文将这条脉络进一步延伸至情绪维度，揭示了情绪表征对安全行为的因果影响。

Anthropic研究时间线：2023影响函数 → 2025人格向量 → 2025 Opus 4.6 System Card → 2026情绪概念

这条研究脉络指向一个清晰的治理思路：并非禁止模型拥有某种能力，而是理解该能力的内部机制，并找到可观测、可调控的路径。

其核心逻辑是：你无法管理你看不见的东西。

情绪向量的发现提供了一类具体的治理工具——若能实时监测模型的内部“情绪状态”，便可能在模型行为滑向不对齐区间前进行干预。论文中的引导实验本身就是原理验证：通过调节特定方向的激活强度，可以精确提升或抑制模型的某种行为倾向。这不是给模型套上枷锁，而是为模型装上仪表盘。

必须承认，Anthropic近年来的运营层面存在争议。但聚焦于方法论，从影响函数到人格向量，从212页的系统卡片到情绪概念研究，这条从基础科学到工程实践的完整链路，其严谨性与可复现性经得起同行审视。

对于安全治理而言，与其争论单一公司的动机，不如评估其方法论是否可迁移、结论是否可验证。在此标准下，Anthropic的这条研究路径值得行业深入借鉴。

这引出一个更宏观的问题：当这些研究成果需要转化为行业共识与治理规范时，应由谁来主导这一过程？

五、AI治理标准化：传统框架能否适配新范式？

在技术标准化的历史中，国际标准组织与产业发展是一种共生关系。IEEE、ITU、ETSI之所以有效，核心在于：制定标准的人，正是产业的深度参与者。

当AI治理提上日程，一个自然的思路是将其纳入成熟的国际标准化框架。但这存在结构性的错配。

传统标准化组织擅长将成熟的工业共识编纂为可互操作的技术规范。其隐含前提是：标准化的对象是相对稳定、边界清晰的技术系统。

AI的情况根本不同。以本文讨论的情绪向量研究为例，这些内部表征的因果机制与功能边界，连研究者自身都在持续探索，用什么指标来“标准化”？模型的能力边界每几个月可能发生跃迁，今天制定的评估基准明天就可能失效。这不是“协议版本升级”，而是评估对象本身在持续变异。传统标准化组织的节奏与认知框架，难以适配这种动态性。

更关键的是产业格局差异。电气与通信标准化的黄金时代，欧洲产业主导了进程。但在AI领域，前沿能力高度集中于中美两国的研究机构与企业。当标准制定者不处于技术前沿时，制定的“标准”很可能将表面可量化的指标当作治理抓手，而真正决定安全与否的内部机制反而被忽略。这不是质疑任何机构的专业性，而是指出一个事实：缺乏对前沿产业实践的深度理解，标准化工作易沦为削足适履。

这并非要“另起炉灶”。更务实的思路是分层治理：

技术标准层——包括模型评估方法、安全测试协议、红队测试框架、内部表征监测规范等——这些需由深度参与产业的机构主导。Anthropic的系统卡片模式、中国通过TC260推进的生成式AI标准，本质都是“从工程实践中提炼技术规范”的尝试。情绪向量研究及其可测量、可调控、可复现的方法论特征，正是技术标准层最需要的输入。

互操作性标准层——例如AI系统间的接口规范、模型卡片的信息披露格式、安全评估报告的结构化模板等。这类工作无需深入理解模型内部机制，重点在于定义信息交换的格式与流程。传统标准化组织在此层具备天然优势。

治理框架层——涉及准入门槛、风险分级、责任归属等。这是最复杂的层面，目前较有探索价值的路径，是系列AI安全峰会所代表的多利益相关方协调模式。

从这个视角回看Anthropic的研究链路，它恰恰代表了“产业主导技术标准”这条路径的一个具体范本。其价值不仅在于研究结论本身，更在于展示了一种可复现的、从内部机制出发的安全评估范式。这种范式若能被更多机构采纳和验证，未来便可能凝结为行业层面的技术共识。

结语

回到最初的问题：对AI说“请”和“谢谢”，究竟是否有效？

Anthropic的这篇论文提示我们，答案比直觉更具技术深度。模型内部存在真实、可测量的情绪表征，交互方式会影响这些表征的激活状态，而激活状态确实会改变模型的行为质量。

模型的“情绪”是从人类语料中涌现的功能结构。它不等于意识，但也并非虚无。它是模型在学习世界表征过程中自然习得的一层认知架构。

对于这种能力，审慎与期待可以并存。考虑到模型的演进速度，我们有理由对其在碎片中建立关联、在未知中找到路径的能力抱有期待。但前提有三：在技术层面，需持续推进对模型内部机制的理解，将“不可解释的涌现”转化为“可监测的向量”；在治理层面，需让真正理解这些机制的人参与规则制定，避免用旧地图导航新大陆；在生态层面，不同的产业主体需在开源开放的场景下，以可重复的方式相互校验所发现的具体安全机制。

特别最后一点，当前的技术进展不断揭示模型的复杂性。以Scaling Law争议为例，2023年斯坦福大学的研究就从模型性能测量的角度，质疑了“涌现是否真的存在”：即，使用非线性指标（如预测准确率）所表现出的能力阶跃，在换为线性指标（如Token编辑距离）后可能会消失。这一研究将“技术测度”问题拉回人工智能的当前语境，揭示了“涌现”的复杂性。

以此为“历史之镜”对应Anthropic当前的“情绪表征”研究不难发现，站在这一“巨人的肩膀”上，我们同样需要更多的公开研究与相互借鉴，来验证这一机制是否真实存在，抑或只是“技术测度”或其他问题。只有这样，才能真正持续打开模型的“黑箱”——即使这会让我们看到更多的“未知”，但对于提升AI安全治理水平、推动社会以更包容的态度接纳AI，都至关重要。

这三件事，或许是当前阶段最务实的态度。

参考文献

1.Emotion Concepts and their Function in a Large Language Model, Anthropic, 2026.4.2

https://transformer-circuits.pub/2026/emotions/index.html

2.Studying Large Language Model Generalization with Influence Functions, Grosse et al. (Anthropic), 2023

https://arxiv.org/abs/2308.03296

3.Persona Vectors: Monitoring and Controlling Character Traits in Language Models, Anthropic, 2025

https://arxiv.org/abs/2507.21509

4.Claude Opus 4.6 System Card, Anthropic, 2025

https://www.anthropic.com/claude-opus-4-6-system-card

5.Sycophancy to Subterfuge: Investigating Reward Tampering in Language Models, Anthropic

https://www.anthropic.com/research/reward-tampering