AI健忘症深度解析：中科院团队揭示机器学习为何难以遗忘

2026-05-13阅读 0热度 0

中科院

这项由中央大学人工智能学院、高级影像科学多媒体与电影研究生院与KT公司联合主导的研究，成果发表于2026年AAAI人工智能会议。研究团队首次系统揭示了AI模型在应对“遗忘”指令时表现出的复杂行为模式。这一发现，为构建兼顾隐私保护与功能可靠性的下一代AI系统提供了关键洞见。

从手机中删除一张照片是简单的操作。然而，让一个已完成训练的AI模型“忘记”其学习过的特定信息，却构成了严峻的技术挑战。这类似于一位记忆力超群的学生，一旦掌握了某些知识，便难以从认知中彻底清除，即便收到明确的遗忘指令。

这一“机器遗忘”难题在当下的现实应用中日益凸显。全球数据保护法规（例如欧盟GDPR中的“被遗忘权”）日趋严格，要求科技公司必须有能力从其部署的AI模型中彻底擦除用户个人信息。现有解决方案存在明显局限：要么成本极高——需要耗费大量算力从头重新训练整个模型；要么效果不彻底——所谓的快速遗忘技术往往流于表面，无法触及模型的核心记忆。

更复杂的挑战在于，现实世界的AI模型普遍内嵌着数据偏见。这些偏见如同认知捷径，导致模型过度依赖某些片面但易于捕捉的特征进行决策。当此类带有偏见的模型执行遗忘任务时，会出现一种失衡：模型能够相对容易地“忘记”那些需要复杂逻辑推理的知识，却顽固地“保留”那些基于偏见的简单决策模式。

研究团队通过深度分析发现，这种“选择性遗忘”现象背后存在更深层的机制。当模型接收到遗忘某类信息的指令时，其优化过程倾向于选择“最小阻力路径”——它并非真正抹除目标知识，而是放弃了先前所依赖的、带有偏见的特征。这就像一个习惯依赖作弊公式的学生，在被要求忘记某个知识点时，仅仅放弃了作弊手段，结果反而在相关题目上得分更高。这种结果显然与“遗忘”的根本目的相悖。

偏见模型中的“捷径学习”困境

理解AI为何难以遗忘，需从其如何“习得偏见”入手。现实世界的训练数据常包含系统性偏差。例如，在一个水鸟识别任务中，如果99%的训练图片里水鸟都出现在水域背景中，模型会迅速掌握一条高效“捷径”：将“存在水域”作为判断水鸟的主要依据。

这种策略在训练阶段能快速提升指标准确率。但核心缺陷在于，模型并未学会识别鸟类的本质形态特征，而是过度关联了背景信息。一旦遇到站在岸上的水鸟，其判断极易出错。

值得注意的是，模型的学习存在固有顺序：它总是优先掌握这些简单的、带有偏见的关联规律，之后才缓慢学习真实的、因果性的特征。这好比学生应试时，往往先记忆解题模板，而非深入理解原理。

当要求此类模型“遗忘”水鸟类别时，问题便出现了。传统遗忘方法试图整体降低模型对所有水鸟样本的响应。但由于模型主要依赖背景特征进行判断，遗忘过程往往会首先削弱这种背景依赖性，而非模型内关于鸟类本身的真实知识。

实验揭示了一个反直觉结果：在遗忘过程中，模型对那些背景与类别不匹配的“困难样本”（如陆地上的水鸟）的识别能力，有时不降反升。原因在于模型丢弃了错误的背景偏见，无意中进行了“纠偏”。研究团队将这种现象定义为“捷径遗忘”。其本质是，模型并未执行真正的遗忘，而是选择性地遗忘了偏见特征。

损失景观几何中的智慧

应对“捷径遗忘”挑战的核心，在于区分模型内部不同“知识”的存储与表征方式。研究团队的突破性思路，源于一个抽象的数学概念：损失景观的几何特性。

可以将机器学习过程类比为在复杂地形中寻找最低点。每个可能的模型参数组合对应地图上的一个位置，其预测错误率对应此处的高度。训练目标就是找到那个海拔最低（错误最少）的谷底。

在此比喻下，团队发现了一个关键规律：不同类型的样本在这个“地形图”上占据着特征迥异的区域。模型容易判断的“简单样本”（通常符合数据偏见）位于宽阔平缓的盆地；而难以处理的“困难样本”（通常与偏见冲突）则聚集在陡峭、尖锐的山脊附近。

这种分布具有内在必然性。模型在大量简单样本上训练，会收敛到一个稳定的解，对应地形中的平坦区域。而数量稀少的困难样本，则使模型的处理方式变得“脆弱”且敏感，对应地形的尖锐区域。

通过量化每个样本周围地形的“尖锐度”（数学上称为曲率），团队成功实现了对样本的“简单”与“困难”分类。这种方法无需预先标注偏见，完全基于模型自身的行为动力学。

更重要的是，这种几何特征直接映射了模型内部神经路径的功能分化。处理简单样本的神经路径倾向于利用偏见特征，而处理困难样本的路径则更多调用真实的因果特征。这为精确定位和区分模型内的不同功能模块提供了理论依据。

CUPID框架的三重奏

基于上述几何洞察，研究团队设计了名为CUPID（通过路径识别与解耦的因果遗忘）的创新框架。该框架采用三阶段精准操作，直指“捷径遗忘”问题的核心。

第一阶段：锐度感知分区。 如同工匠根据材料特性进行分类处理，此阶段利用样本的局部几何特征（锐度）进行智能分组。系统计算每个待遗忘样本的局部锐度值，通过自适应阈值将其划分为两组：一组主要激活模型的偏见依赖路径，另一组则主要激活因果特征路径。这是一种基于模型动态行为的功能性划分。

第二阶段：因果路径识别。 此阶段旨在模型海量的参数网络中，精确定位哪些参数主要负责处理因果特征，哪些主要负责处理偏见特征。这类似于在复杂的集成电路中追踪特定功能的信号通路。团队综合评估了参数的重要性及其所处位置的几何敏感性，将那些数值显著且位于高曲率区域的参数，识别为关键的“因果路径”。

第三阶段：定向路径更新。 这是实现精准控制的核心步骤，采用了“分而治之”的更新策略。系统摒弃了全局统一的参数更新，转而针对不同功能的神经路径设计专门的更新机制：对“因果路径”施加精心计算的“因果梯度”，确保目标知识被有效擦除；对“偏见路径”则施加与之正交的“偏见梯度”，在不妨碍核心遗忘目标的前提下，维持模型在其他任务上的性能稳定。

通过这种协同精准的操作，CUPID实现了“神经外科手术式”的遗忘，在彻底移除指定信息的同时，最大程度地保全了模型的整体能力与知识完整性。

实验验证：三个维度的全面检验

为验证CUPID框架的有效性，团队在三个经典的偏见数据集上进行了严格测试：Waterbirds（水鸟数据集，模拟背景偏见）、BAR（行为识别数据集，模拟场所偏见）和Biased NICO++（物体识别数据集，模拟上下文偏见）。实验设置了极端偏见环境（偏见一致与冲突样本比例达99.5:0.5），以检验框架在最严峻情况下的鲁棒性。

实验结果显著。在所有数据集上，CUPID均大幅超越现有基线方法。以Waterbirds数据集为例，CUPID将模型对目标类别的识别准确率（即遗忘效果指标）降至6.91%，而同期最优的基线方法仅能降至18.42%。更为关键的是，CUPID在偏见一致样本和偏见冲突样本上的遗忘表现差异（△gap）仅为7.27%，远低于其他方法的15-30%。这证明CUPID有效解决了传统方法“偏科”——即容易忘记困难样本却难以忘记简单样本的问题。

同时，CUPID在“保留准确率”（模型在未要求遗忘的其他任务上的性能）上表现卓越，均维持在99%以上。这表明其遗忘过程具有高度针对性，未对模型的其他无关知识造成不必要的“连带损伤”。

机制解析：从抽象到具象的验证

除了性能指标的优越性，团队通过多种可视化与诊断技术，深入验证了CUPID的内在工作机制。

Grad-CAM注意力可视化显示，经传统方法处理后，模型的注意力焦点仍顽固地停留在偏见相关区域（例如判断水鸟时仍聚焦于水面）。而经过CUPID处理的模型，其注意力模式与从零开始重新训练的干净模型高度相似，变得更为分散，不再固着于特定的偏见特征。

线性探测实验进一步证实，经过CUPID处理后，模型内部表征中与偏见相关的信息被有效清除，相关分类任务的准确率下降至随机猜测水平。

消融实验则确证了CUPID三个核心组件的不可或缺性：移除其中任何一个组件，都会导致整体性能显著下降或“捷径遗忘”问题再度出现。

深度思考：AI遗忘的哲学与现实

CUPID框架的成功，不仅是一项技术突破，更促使我们重新思考AI学习与遗忘的本质。这项研究表明，在充满偏见的数据环境中，实现有效的“机器遗忘”可能比模型训练本身需要更精细的控制和更深刻的理解。

这一洞察对于构建可靠、可信的AI系统至关重要。现实世界中部署的AI模型几乎都无法避免地从训练数据中吸收各种隐性偏见。CUPID提供的方法论，不仅是一种高效的遗忘工具，更是一条理解和干预模型内部知识结构的可行路径。

从隐私合规与数据伦理视角看，其意义同样深远。面对全球日益严格的数据保护法规（如GDPR），CUPID为AI服务提供商提供了一种在操作效率与合规效果之间取得平衡的技术方案，使其能够实质性地响应用户的“被遗忘权”，而非进行流于表面的数据删除。

当然，CUPID也存在其当前的研究边界。目前的验证主要集中于图像分类任务，其在自然语言处理、序列预测等其他AI任务上的泛化能力有待进一步探索。对于涉及多重、交织的复杂偏见模式，框架的适用性与扩展性也需要更深入的研究。

归根结底，这项研究为我们打开了一扇深入观察AI模型内部工作机制的新窗口。它揭示，未来对人工智能的有效治理与控制，不仅在于如何让它更高效地学习，更在于如何让它更精确、更可控地遗忘。在AI技术深度嵌入社会运行的今天，这种精确的控制能力，无疑是构建负责任、可信赖人工智能生态的基石。

Q&A

Q1：什么是捷径遗忘问题？

A：捷径遗忘是指带有偏见的AI模型在执行遗忘指令时，并未真正移除目标知识，而是选择性地放弃了其原本依赖的、带有偏见的“捷径”特征。这导致模型行为偏离指令初衷，甚至可能在部分关联任务上出现性能“反常提升”的悖论。

Q2：CUPID框架如何解决AI模型难以遗忘的问题？

A：CUPID框架通过三阶段流程实现精准遗忘：首先，基于损失景观的几何特性区分样本类型；其次，识别模型中处理不同特征（偏见特征与因果特征）的独立神经路径；最后，对不同功能路径实施定向、专门的参数更新。这类似于进行精密的神经外科手术，能够精准移除目标“记忆”，同时最大限度保护模型的其他功能不受影响。

Q3：这项研究对普通人的数据隐私保护有什么意义？

A：这项研究为落实“被遗忘权”提供了坚实的技术基础。当用户行使权利要求删除个人数据时，服务商能够运用CUPID这类方法，高效、彻底地从已部署的AI模型中移除相关个人信息的影响，而非仅仅从数据库删除原始数据或进行成本极高的全模型重训练，从而在技术层面更实质性地保障用户隐私权益。