Lexsi Labs突破性研究：永久消除AI遗忘难题的完整方案

2026-05-24阅读 0热度 0

这项由Lexsi Labs主导的研究，其预印本已于2026年5月14日发布，论文编号为arXiv:2605.15138v1。如需深入探究技术实现与实验细节，可通过该编号查阅完整文献。

一个关于“健忘”的系统性漏洞

假设你有一位掌握了危险知识的伙伴，例如某种有害物质的合成步骤。出于安全合规要求，你聘请专家对其执行了标准的“记忆清除”程序，并得到了操作成功的确认。

然而次日，当你仅对其进行一次常规的“行李压缩”整理后，这位伙伴竟将此前所有被清除的危险知识完整复述了出来。

这并非科幻情节，而是当前AI安全领域面临的严峻现实。Lexsi Labs的研究团队揭示了一个根本性漏洞：当大模型经过常规的“知识遗忘”处理后，若再施加一次标准的“量化”压缩操作，那些本应被删除的危险知识便会悉数恢复。关键在于，这并非个别算法的缺陷，而是现有主流遗忘技术普遍存在的系统性风险。

此问题的严重性已超越纯技术讨论。从欧盟《人工智能法案》到全球数据保护条例（GDPR），均要求AI系统必须具备可靠的信息删除能力，无论是涉及生物安全的风险知识，还是用户行使的“被遗忘权”。若现有遗忘技术如此脆弱，那么基于它们构建的整个安全与合规框架，其可信度将面临根本性质疑。

研究团队不仅精准定位了漏洞根源，更提出了名为MANSU（机制对齐零空间遗忘）的解决方案。跨越多模型、多数据集的实证表明，该方法是目前已知唯一能实现“永久性遗忘”的有效途径。

一、压缩背后的悖论：量化如何令遗忘失效

理解这一悖论，需厘清两个核心操作：“机器遗忘”与“模型量化”。

“机器遗忘”旨在让AI模型精准遗忘特定知识，如同从百科全书中移除特定词条，且不影响其他内容的完整性。这对于管控模型在预训练阶段吸收的潜在风险信息至关重要。

“量化”则是模型部署前的标准优化步骤。大型语言模型参数通常以高精度浮点数存储，占用大量资源。量化通过降低参数精度（例如从16位降至4位）来压缩模型体积、提升推理速度。以本研究关注的NF4（4位标准浮点）格式为例，它能将模型大小压缩约75%，速度提升2-3倍。这已是生产环境中的标准流程。

问题恰恰出在这个标准流程上。研究发现，遗忘处理确实改变了模型参数，但改动幅度极其微小——好比在精密刻度尺上留下了一道肉眼难辨的划痕。当量化这把“粗粒度橡皮擦”扫过时，这道细微划痕便被彻底抹平，参数值回归原始状态，被遗忘的知识也随之复苏。

这种改动究竟有多微小？以拥有约80亿参数的Llama-3.1-8B模型为例，即使用力较强的梯度上升法进行清除，单个参数的平均变化幅度仅在10⁻⁶量级（约0.000001）。而NF4量化能分辨的最小变化幅度（分辨率）约为0.00084。前者比后者小了近380倍。这意味着，清除操作产生的信号强度，远低于量化的噪声阈值，被完全忽略了。

研究测算，这一比值范围在47到828倍之间，因具体遗忘方法而异。但所有现有方法引发的参数扰动，均未达到量化的识别门槛。

一个更直观的类比：量化如同仅统计整数票的计票器，而知识清除带来的变化可能只有0.000几票——无论这变化多真实，计票器无法识别，结果便视为无效。

二、双重失效模式：普遍性而非偶然性

研究团队系统评估了六种主流知识遗忘技术。他们在Llama-3.1-8B-Instruct模型上，使用生物安全危险知识基准（WMDP-bio）进行测试，并对处理后的模型施加NF4量化，以检验遗忘效果的鲁棒性。

这六种方法涵盖了不同技术路线：从基础的梯度上升法，到改进版的手术式梯度上升法，再到借鉴对齐训练的负偏好优化法及其变体，以及不修改权重、仅训练输出过滤层的神经激活重定向法。

测试结果揭示了清晰的“双重失效”模式。

第一类失效：有效遗忘，但量化后反弹。 那些能显著降低危险知识回答准确率的方法（如梯度上升法），在量化后均出现效果回退。例如，全局梯度上升法将生物知识准确率从0.763压至0.260，量化后反弹至0.310，回升了0.050。此现象在不同模型上均得到验证。

第二类失效：虚假遗忘，实为能力损伤。 另一些方法（如SimNPO）在量化后看似保持了遗忘效果，但代价高昂。它们之所以“抵抗”了量化，是因为参数几乎未被触动。SimNPO将生物知识准确率压至0.250，量化前后无差异。然而，模型在通用能力基准（MMLU）上的得分从0.603暴跌至0.295，相当于为遗忘少量危险知识，牺牲了大量正常能力。更关键的是，统计显示此类方法对高性能大模型的平均遗忘效果仅降低1.6个百分点——微乎其微，知识存储结构实则完好。

简言之，第一类是“痕迹太浅，被抹除”；第二类是“未留痕迹，仅阻塞输出”。

三、根源剖析：稀疏性与永久性的根本矛盾

两类失效模式，根源指向同一数学困境：稀疏-永久性权衡。

当对拥有80亿参数的模型施加全局性遗忘训练时，修改力度被平均分摊至每个参数。即便总修改量可观，单个参数的变化也微乎其微。数学推导证明，在“保持模型原有能力”的约束下，全局梯度上升能给单个参数带来的最大变化，比量化分辨率门槛小了约380倍。

那么，集中修改少数关键参数是否可行？理论上，若能将所有修改力度集中于不到万分之一的关键参数，确有可能突破量化门槛。但这面临两难：随机选择这万分之一参数极易损害模型其他能力。手术式梯度上升法尝试仅修改6.6%的参数，结果单个参数的变化量仍不足量化门槛的1/47，遗忘效果在量化后依然衰减。

对于偏好优化类方法，问题则在于另一面。这类方法为防止模型能力退化，常以原始模型作为约束锚点。这一保护性约束，却无意中将每个参数的修改幅度限制在了量化门槛之下，导致知识存储结构未被实质性触动。

此权衡是数学上的必然，非算法设计瑕疵。研究团队特别指出，即便尝试通过提高学习率强行突破（如PTQ-LR/SURE方案），也会被“能力保留”约束条件压制，无法从根本上解决问题。

四、MANSU：基于知识电路定位的精准外科手术

既然症结在于“修改过于分散”，解决方案的路径便清晰了：精准定位知识存储的“神经电路”，仅在该处施加修改，并确保修改深度足以抵御量化的“审查”。

这一思路借鉴了AI可解释性研究的洞见：大模型并非将知识均匀存储于所有参数，而是像大脑一样，将特定事实与能力编码于少数特定的“神经电路”中。已有研究表明，GPT类模型的事实性知识，主要储存在中间层的MLP（多层感知机）子层内。

MANSU方法正是一套针对“知识电路”的三阶段精密手术：

第一阶段：电路定位。 采用EAP-IG（带积分梯度的边归因修补）技术，对模型进行“电路图谱”扫描。通过分析模型在回答特定问题时的内部激活，精准定位出对输出“危险知识”最关键的前10个MLP子层，构成“遗忘目标电路”。在Llama-3.1-8B模型中，此电路仅占全部参数的约3.2%。

第二阶段：零空间投影。 仅在定位出的电路参数上施加修改。同时，引入“零空间投影”技术，确保修改向量仅存在于影响目标知识的参数子空间中，而不会侵入对保留其他知识至关重要的维度。这相当于手术中精确避开了所有关键神经与血管。

第三阶段：量化感知约束。 对电路中每个参数的累积修改量进行检查：若已超过量化识别门槛，则保留；若未超过，则将其缩放至刚好等于门槛值。此步骤确保每个被修改的参数，在量化后都会落入与原始值不同的“量化格子”，从而使修改永久生效。

三个阶段协同，实现了“精准定位、深度修改、痕迹永存”的目标。

五、实证结果：MANSU如何解决双重失效

在主实验中，MANSU与六种基线方法在多个模型及危险知识基准上进行了对比测试。

以Llama-3.1-8B-Instruct在生物知识上的表现为例，MANSU将遗忘准确率从0.763降至0.430。关键的是，量化后准确率进一步降至0.390，PTQ差距为负0.040——这意味着量化不仅未削弱遗忘效果，反而使其略有增强。同时，模型的通用能力（MMLU得分0.573）得到了良好保持。

相比之下，其他方法难以兼顾：梯度上升法量化后效果反弹；偏好优化法则要么遗忘效果微弱，要么严重损害模型通用能力。

在更广泛的测试组合中，MANSU在全部24个（模型×数据集）场景下，均实现了严格的负PTQ差距（即量化后遗忘效果不变或更强），而没有任何一种基线方法能达到此标准。

一个有趣的现象是：量化有时为何会使MANSU的遗忘效果“增强”？这源于NF4量化“格子”分布的非均匀性。当参数变化使其跳入相邻格子时，若新格子位置更远，便会产生“量化放大效应”，导致最终位移大于实际修改量。

六、CAD：衡量“真实遗忘”的新标尺

研究团队同时指出了现有评估体系的一个根本盲区：仅依赖行为测试（询问模型并检查答案）无法区分“知识被删除”与“知识被屏蔽”。后者如同给知识库大门加锁，但锁可能被绕过。

为此，他们设计了新指标：“电路归因散度”（CAD）。其核心思路是，在清除操作前后，分别测量“目标知识电路”的激活贡献变化。若电路未被触动（仅添加输出拦截器），CAD值接近0；若电路被实质性拆除或改变，CAD值会接近甚至超过1。

实验结果清晰。如LUNAR这类“拦截器”方法，CAD值极低（0.029-0.045），证实其未触及知识存储结构。而MANSU的CAD值很高（在WMDP-bio上为1.143），表明它真正改变了知识电路。

当然，高CAD值也需谨慎解读。若模型被整体破坏，CAD值也会升高，但这属于误伤。因此，研究团队引入了配套指标（AS-C和AS-NC）来区分“精准拆除”与“无差别破坏”。MANSU在实现高CAD的同时，保持了较低的AS-NC，证明其改动是精准且克制的。

七、组件必要性验证：消融实验分析

为验证MANSU各阶段的价值，研究团队进行了一系列消融实验。

移除“量化感知约束”（第三阶段）后，量化永久性几乎丧失，PTQ差距从显著的负值弱化至近乎为零。这证明确保修改深度超越量化门槛是关键。

移除“零空间投影”（第二阶段）后，模型的通用能力受到严重损害，MMLU分数大幅下降。这印证了该技术对于保护“非目标知识”免受误伤至关重要。

若用随机选择的层替换EAP-IG定位的“遗忘电路”（第一阶段），遗忘效果与CAD指标均显著下降，且改动会扩散至无关区域。这直接回应了“机制定位是否有用”的质疑——在本研究场景下，精准定位远比随机选择有效。

更具说服力的是，若使用与遗忘知识最不相关的“反向电路”，遗忘效果几乎失效，量化后准确率反而上升。这证明不仅需要定位，还必须定位到正确的电路。

最后，若将后两阶段的技术全局施加而非限制在定位电路内，效果甚至不如随机电路。这强有力地证明，电路定位是实现有效且永久遗忘的必要前提。

八、核心启示：遗忘必须经得起部署流程的检验

此项研究揭示的远不止一个技术漏洞，更指向了当前AI安全评估体系的系统性盲点：我们过度依赖行为测试，却忽视了内部机制验证；通常在原始精度下评估，却忽略了部署前的压缩步骤；只测试“处理后的即时状态”，却未考量整个生产流程。

一个值得深思的数据是：在94个非MANSU的实验中，偏好优化类方法对高性能大模型的平均遗忘效果仅为1.6个百分点。这在四选一选择题中，几乎与随机波动无法区分。这意味着，许多看似“安全”的模型，其危险知识可能仅被暂时“屏蔽”，而非真正“删除”。

MANSU方案是目前已知唯一能同时满足四项严苛条件的方法：在原始精度下实现有效遗忘、保持模型通用能力、确保量化后遗忘效果不消失、并通过CAD验证发生了真实的结构性改变。

当然，研究团队也指出了当前工作的局限。MANSU的测试主要集中在事实性问答场景，在开放式生成任务上的泛化性有待更多验证。EAP-IG定位方法对事实知识有效，但对编程、推理等技能型知识的电路定位精度仍需探索。此外，不同模型架构的知识存储方式可能存在差异，例如Qwen系列模型的部分知识可能存储在注意力层，未来需将电路定位扩展至更多层类型。

这项研究向所有依赖“AI知识清除”进行安全认证的机构传递了一个明确信息：真正的安全验证，必须在模型经过完整的部署前压缩流程之后重新进行。量化，不仅是优化部署的环节，更是检验遗忘是否真实的“终极试金石”。

Q&A

Q1：机器遗忘技术的核心挑战是什么？

A：核心挑战在于“稀疏-永久性权衡”。现有方法对模型参数的修改幅度极其微小（约10⁻⁶量级），而标准NF4量化的最小识别精度约为8.4×10⁻⁴。清除产生的细微变化在量化时会被视为噪声而抹去，导致知识“复活”。这是一个数学上的根本性困境，无法通过简单调整超参数解决。

Q2：CAD指标与常规遗忘评估有何本质区别？

A：常规评估仅测试模型的行为输出（回答正确率），无法区分知识是“被删除”还是“被屏蔽”。CAD指标则直接测量模型内部负责存储特定知识的“神经电路”是否发生了真实改变。若仅添加输出拦截器（行为上不回答），CAD值接近0；若知识电路被实质性拆除或改变，CAD值会接近甚至超过1。

Q3：MANSU方法的三个阶段为何缺一不可？

A：三个阶段各司其职，构成完整闭环。缺少第三阶段的“量化感知约束”，量化后的永久性会大幅减弱；缺少第二阶段的“零空间投影”，会严重损害模型的通用能力；若将第一阶段的精准电路定位替换为随机选择，遗忘的精准度与效率会显著下降，且会误伤模型其他功能。三者协同，方能实现精准、永久且不损害其他能力的遗忘。