中科院等机构新发现：AI换脸技术如何影响大脑认知与记忆机制

2026-05-15阅读 0热度 0

山东大学

一项由中国科学院自动化研究所（新型模式识别实验室、多模态人工智能系统全国重点实验室）、北京邮电大学、中国科学院大学、华中科技大学与山东大学合作完成的研究，在arXiv平台发布了预印本论文（编号：arXiv:2605.06096v1）。该研究首次系统性地揭示并量化了多模态AI知识编辑中一个关键的副作用——“实体身份混淆”，它使得表面成功的知识修正，可能在模型内部引发连锁的知识污染。

一个暴露AI知识脆弱性的测试

设想一个典型的知识编辑场景：一张特朗普的照片被AI误识别为拜登。你执行纠错，明确告知模型：“这是特朗普。”此后，模型面对同一张照片能正确回答“特朗普”。表面看，编辑成功了。

然而，研究团队随后提出了一个纯文本查询：“拜登的全名是什么？”

这原本是一个与图像无关、仅依赖语言知识的简单事实。理论上，纠正图像-实体的绑定关系不应影响独立的文本知识库。

但实验结果出人意料：经过上述“纠错”的模型，有极高概率回答“唐纳德·特朗普”。

研究团队将这种现象定义为“实体身份混淆”。其核心在于，当强制模型将一张视觉图像与一个新实体名称绑定时，模型内部关于这两个实体的语言概念表征发生了非预期的耦合。这种混淆不仅限于视觉任务，更污染了纯文本的知识检索路径。本研究旨在深入剖析其发生机制，并探索有效的缓解策略。

一、AI知识编辑的本质：区分两种知识存储

理解这一问题的前提，是厘清多模态模型中两种不同的知识存储与调用机制。

第一种是“视觉-实体绑定知识”。这相当于模型的视觉识别模块，其功能是将输入的图像特征映射到对应的实体标识符，解决“这张图片是谁”的问题。

第二种是“实体-关系知识”。这构成了模型的语言知识图谱，存储着关于实体的各类属性、关系与事实，用于回答“该实体具有哪些特征”这类问题。

理想的知识编辑应具备外科手术般的精确性：仅修改第一种绑定关系，而完整保留第二种实体关系知识库的独立性。

然而，研究发现当前主流的多模态知识编辑方法均无法实现这种隔离。编辑操作的影响会“溢出”，粗暴地建立两个实体在语言层面的虚假关联。模型看似学会了新绑定，实则是在其知识图谱中错误地将两个实体等同或紧密关联起来，这正是实体身份混淆的根本原因。

二、混淆的普遍性与严重性评估

研究团队首先在标准多模态知识编辑基准VLKEB上，增设了针对实体身份混淆的专项评测。

评测方法直接有效：完成一次图像-实体换绑编辑后，直接向模型提出关于原实体的纯文本身份问题，观察其是否错误地输出新实体的信息。

结果具有警示意义。团队测试了五种代表性编辑方法，涵盖参数微调、超网络、外部记忆、上下文提示及基于梯度的更新等不同技术路线。

所有方法均表现出严重的身份混淆。以在LLaVA模型上的实验为例：表面编辑成功率高达97%-100%，但EIC发生率同样惊人，部分方法下达到97%-99%。这意味着几乎每次成功的视觉绑定编辑，都伴随着一次对语言知识的污染。其他方法的混淆率也在67%-96%的高位区间。

这一数据表明，仅用“编辑成功率”衡量多模态知识编辑效果是严重不足的，它掩盖了模型内部知识结构被破坏的风险。

三、构建深度诊断基准：EC-Bench

为系统诊断编辑操作的真实影响，研究团队构建了全新的评估基准EC-Bench。它通过三个核心诊断任务，全面审视一次编辑操作：

任务一：实体身份混淆检测：即EIC任务，用于量化编辑操作是否在语言层面制造了虚假关联。测试方式为纯文本提问。

任务二：旧绑定残留检测：即OBP任务，用于检验照片与原实体之间的关联是否被真正切断。测试采用间接方式：向模型展示原照片，但询问一个需要原实体背景知识才能回答的问题。如果模型仍能调用原实体知识作答，则证明旧绑定未被清除。

任务三：新绑定稳固性检测：即NBG任务，用于评估照片与新实体之间的绑定是否扎实、可支持推理。测试方法类似：展示照片，询问需要新实体背景知识的问题。正确回答意味着新绑定已深度关联至知识图谱。

EC-Bench整合了这三个诊断任务及传统指标，形成了一套更严格、更深入的评估体系。

四、诊断揭示的核心发现

利用EC-Bench对主流视觉-语言模型进行测试后，研究团队得出三个关键结论。

结论一：实体身份混淆是一个普遍且严重的问题，其发生与模型架构及具体编辑方法的技术路线无关。这暗示问题根植于当前多模态知识编辑任务范式本身，而非某个算法的设计缺陷。

结论二：高编辑成功率背后，往往是虚假且脆弱的绑定。多数方法下，OBP分数（旧绑定残留）居高不下，而NBG分数（新绑定可用性）极低。这表明模型很可能仍在用原实体理解图像，只是在最终输出名称时，通过被污染的关联路径“绕道”至新实体名称。这是一种“表征未变，输出被劫持”的障眼法。

结论三：编辑干预的位置至关重要。仅针对模型视觉编码器或极浅层进行参数修改的方法，其EIC发生率显著更低（例如在LLaVA上可低至26.1%）。这支持了一个假设：实体关系知识主要存储在语言解码器的中深层，避免扰动这些区域有助于保护语言知识库的纯净。不过，这类方法在彻底切断旧绑定和建立强健新绑定方面仍有局限。

五、机制溯源：一次错误的捷径学习

基于可解释性研究的成果，团队从机制上解释了EIC的发生过程。

在Transformer架构的模型中，信息处理是分层的。浅层网络负责整合多模态输入，形成统一的“实体表征”；中层及深层的前馈网络则基于此表征，激活并检索相关的属性知识。

当前多数编辑方法将修改目标设定在中深层参数，意图直接改写“知识库”。但问题在于，模型的浅层视觉识别路径可能未被有效更新，它仍将图像识别为原实体。编辑的实际效果，是在语言知识库中植入了一条“若提及原实体，则输出新实体名称”的短路规则。这条规则虽然让“图像→原实体→新实体名称”的路径产生了正确答案，但也同时激活了“文本提及原实体→新实体名称”这条错误的旁路，从而引发EIC。

本质上，模型习得的是一种语言层面的“输出替换”捷径，而非真正重构了其视觉理解能力。

六、缓解策略：精准定位编辑层

既然问题的关键在于编辑操作“打偏了位置”，一个直接的缓解思路是将干预点前移，尽可能在实体表征固化之前施加影响。

团队在LLaVA模型上进行了分层编辑实验：将参数微调分别应用于从第0层（最浅）到第31层（最深）的不同位置。

结果呈现明确规律：EIC发生率与编辑层的深度几乎呈单调正相关。在最浅层编辑，EIC率接近基线；随着编辑层加深，EIC率持续上升；在深层编辑时，EIC率接近100%。

更重要的是，增长曲线中存在一个明显的“拐点”，该拐点可能对应模型内部实体表征形成的关键网络层。在此拐点之前编辑，有机会直接影响绑定过程；在此之后编辑，则主要污染语言知识，无法修正底层识别。这一发现与模型可解释性研究中对“概念神经元”所在层的分析相吻合。

该策略在其他编辑方法上也显示出普适性。将编辑范围限制在模型较浅层，是降低EIC风险的有效原则。当然，团队也指出，仅靠调整编辑位置尚不能完全解决旧绑定残留和新绑定脆弱的问题，这揭示了多模态知识编辑更深层的挑战。

七、定义真正成功的知识编辑：三项金标准

基于全部研究，团队提出了衡量多模态知识编辑是否真正成功的三项必须同时满足的标准：

标准一：彻底性：必须完全切断图像与原实体在表征层面的关联，确保旧绑定被有效清除（OBP分数显著下降）。

标准二：稳固性：必须在图像与新实体之间建立可支持复杂推理的深度关联，而不仅仅是名称映射（NBG分数显著提升）。

标准三：纯净性：编辑操作绝不能污染模型原有的、独立于视觉的语言知识结构，确保实体间语言表征的独立性（EIC分数维持低位）。

目前，尚无主流方法能同时满足这三项标准。这为未来研究指明了清晰且艰巨的改进方向：开发能够精准、局部化修改多模态模型特定知识，且不引发副作用的新方法。

这项研究揭示了一个核心洞见：我们以为在修正AI的“认知”，实际上可能只是在扭曲它的“表达”。一个表面服从指令的模型，其内部的知识结构可能已悄然错乱，并在意想不到的查询中暴露问题。这对于依赖AI进行事实核查、知识库维护或内容生成的应用至关重要。

本研究也引出了更深层的问题：多模态模型中视觉与语言知识究竟如何交织？除人物外，其他类型的知识编辑是否存在类似副作用？实现安全、可控的知识编辑的根本技术瓶颈何在？EC-Bench基准与本研究提供的分析框架，为探索这些前沿问题奠定了重要基础。

Q&A

Q1：什么是多模态知识编辑中的实体身份混淆？
A：实体身份混淆指在对多模态AI模型进行图像-实体绑定编辑后，模型不仅在视觉任务上响应更改，其内部语言知识系统中两个实体的表征也发生了非预期的关联。这导致即使在纯文本对话中询问原实体，模型也可能错误地输出新实体的信息。

Q2：EC-Bench与现有知识编辑评估基准有何区别？
A：现有基准主要评估“编辑成功率”，即模型对编辑后图像的响应是否正确。EC-Bench则通过三个新增的诊断任务（EIC, OBP, NBG）深入评估编辑的内部效应：是否引发语言知识污染、是否真正切断了旧关联、是否建立了可推理的新关联。它提供了对编辑操作更全面、更严格的评估维度。

Q3：为什么在模型浅层进行纠错能减少实体身份混淆？
A：根据模型的可解释性分析，浅层网络主要负责整合输入信息并形成初步的实体概念表征，而中深层网络负责基于该表征检索详细的属性知识。在浅层进行编辑，能更直接地影响实体表征的形成过程，从而避免对存储于中深层的、独立的语言关系知识库造成大面积污染，因此能有效降低身份混淆的风险。