Lexsi Labs突破性研究:永久消除AI遗忘难题的完整方案

2026-05-24阅读 0热度 0
ai

这项由Lexsi Labs主导的研究,其预印本已于2026年5月14日发布,论文编号为arXiv:2605.15138v1。如需深入探究技术实现与实验细节,可通过该编号查阅完整文献。

当AI

一个关于“健忘”的系统性漏洞

假设你有一位掌握了危险知识的伙伴,例如某种有害物质的合成步骤。出于安全合规要求,你聘请专家对其执行了标准的“记忆清除”程序,并得到了操作成功的确认。

然而次日,当你仅对其进行一次常规的“行李压缩”整理后,这位伙伴竟将此前所有被清除的危险知识完整复述了出来。

这并非科幻情节,而是当前AI安全领域面临的严峻现实。Lexsi Labs的研究团队揭示了一个根本性漏洞:当大模型经过常规的“知识遗忘”处理后,若再施加一次标准的“量化”压缩操作,那些本应被删除的危险知识便会悉数恢复。关键在于,这并非个别算法的缺陷,而是现有主流遗忘技术普遍存在的系统性风险。

此问题的严重性已超越纯技术讨论。从欧盟《人工智能法案》到全球数据保护条例(GDPR),均要求AI系统必须具备可靠的信息删除能力,无论是涉及生物安全的风险知识,还是用户行使的“被遗忘权”。若现有遗忘技术如此脆弱,那么基于它们构建的整个安全与合规框架,其可信度将面临根本性质疑。

研究团队不仅精准定位了漏洞根源,更提出了名为MANSU(机制对齐零空间遗忘)的解决方案。跨越多模型、多数据集的实证表明,该方法是目前已知唯一能实现“永久性遗忘”的有效途径。

一、压缩背后的悖论:量化如何令遗忘失效

理解这一悖论,需厘清两个核心操作:“机器遗忘”与“模型量化”。

“机器遗忘”旨在让AI模型精准遗忘特定知识,如同从百科全书中移除特定词条,且不影响其他内容的完整性。这对于管控模型在预训练阶段吸收的潜在风险信息至关重要。

“量化”则是模型部署前的标准优化步骤。大型语言模型参数通常以高精度浮点数存储,占用大量资源。量化通过降低参数精度(例如从16位降至4位)来压缩模型体积、提升推理速度。以本研究关注的NF4(4位标准浮点)格式为例,它能将模型大小压缩约75%,速度提升2-3倍。这已是生产环境中的标准流程。

问题恰恰出在这个标准流程上。研究发现,遗忘处理确实改变了模型参数,但改动幅度极其微小——好比在精密刻度尺上留下了一道肉眼难辨的划痕。当量化这把“粗粒度橡皮擦”扫过时,这道细微划痕便被彻底抹平,参数值回归原始状态,被遗忘的知识也随之复苏。

这种改动究竟有多微小?以拥有约80亿参数的Llama-3.1-8B模型为例,即使用力较强的梯度上升法进行清除,单个参数的平均变化幅度仅在10⁻⁶量级(约0.000001)。而NF4量化能分辨的最小变化幅度(分辨率)约为0.00084。前者比后者小了近380倍。这意味着,清除操作产生的信号强度,远低于量化的噪声阈值,被完全忽略了。

研究测算,这一比值范围在47到828倍之间,因具体遗忘方法而异。但所有现有方法引发的参数扰动,均未达到量化的识别门槛。

一个更直观的类比:量化如同仅统计整数票的计票器,而知识清除带来的变化可能只有0.000几票——无论这变化多真实,计票器无法识别,结果便视为无效。

二、双重失效模式:普遍性而非偶然性

研究团队系统评估了六种主流知识遗忘技术。他们在Llama-3.1-8B-Instruct模型上,使用生物安全危险知识基准(WMDP-bio)进行测试,并对处理后的模型施加NF4量化,以检验遗忘效果的鲁棒性。

这六种方法涵盖了不同技术路线:从基础的梯度上升法,到改进版的手术式梯度上升法,再到借鉴对齐训练的负偏好优化法及其变体,以及不修改权重、仅训练输出过滤层的神经激活重定向法。

测试结果揭示了清晰的“双重失效”模式。

第一类失效:有效遗忘,但量化后反弹。 那些能显著降低危险知识回答准确率的方法(如梯度上升法),在量化后均出现效果回退。例如,全局梯度上升法将生物知识准确率从0.763压至0.260,量化后反弹至0.310,回升了0.050。此现象在不同模型上均得到验证。

第二类失效:虚假遗忘,实为能力损伤。 另一些方法(如SimNPO)在量化后看似保持了遗忘效果,但代价高昂。它们之所以“抵抗”了量化,是因为参数几乎未被触动。SimNPO将生物知识准确率压至0.250,量化前后无差异。然而,模型在通用能力基准(MMLU)上的得分从0.603暴跌至0.295,相当于为遗忘少量危险知识,牺牲了大量正常能力。更关键的是,统计显示此类方法对高性能大模型的平均遗忘效果仅降低1.6个百分点——微乎其微,知识存储结构实则完好。

简言之,第一类是“痕迹太浅,被抹除”;第二类是“未留痕迹,仅阻塞输出”。

三、根源剖析:稀疏性与永久性的根本矛盾

两类失效模式,根源指向同一数学困境:稀疏-永久性权衡。

当对拥有80亿参数的模型施加全局性遗忘训练时,修改力度被平均分摊至每个参数。即便总修改量可观,单个参数的变化也微乎其微。数学推导证明,在“保持模型原有能力”的约束下,全局梯度上升能给单个参数带来的最大变化,比量化分辨率门槛小了约380倍。

那么,集中修改少数关键参数是否可行?理论上,若能将所有修改力度集中于不到万分之一的关键参数,确有可能突破量化门槛。但这面临两难:随机选择这万分之一参数极易损害模型其他能力。手术式梯度上升法尝试仅修改6.6%的参数,结果单个参数的变化量仍不足量化门槛的1/47,遗忘效果在量化后依然衰减。

对于偏好优化类方法,问题则在于另一面。这类方法为防止模型能力退化,常以原始模型作为约束锚点。这一保护性约束,却无意中将每个参数的修改幅度限制在了量化门槛之下,导致知识存储结构未被实质性触动。

此权衡是数学上的必然,非算法设计瑕疵。研究团队特别指出,即便尝试通过提高学习率强行突破(如PTQ-LR/SURE方案),也会被“能力保留”约束条件压制,无法从根本上解决问题。

四、MANSU:基于知识电路定位的精准外科手术

既然症结在于“修改过于分散”,解决方案的路径便清晰了:精准定位知识存储的“神经电路”,仅在该处施加修改,并确保修改深度足以抵御量化的“审查”。

这一思路借鉴了AI可解释性研究的洞见:大模型并非将知识均匀存储于所有参数,而是像大脑一样,将特定事实与能力编码于少数特定的“神经电路”中。已有研究表明,GPT类模型的事实性知识,主要储存在中间层的MLP(多层感知机)子层内。

MANSU方法正是一套针对“知识电路”的三阶段精密手术:

第一阶段:电路定位。 采用EAP-IG(带积分梯度的边归因修补)技术,对模型进行“电路图谱”扫描。通过分析模型在回答特定问题时的内部激活,精准定位出对输出“危险知识”最关键的前10个MLP子层,构成“遗忘目标电路”。在Llama-3.1-8B模型中,此电路仅占全部参数的约3.2%。

第二阶段:零空间投影。 仅在定位出的电路参数上施加修改。同时,引入“零空间投影”技术,确保修改向量仅存在于影响目标知识的参数子空间中,而不会侵入对保留其他知识至关重要的维度。这相当于手术中精确避开了所有关键神经与血管。

第三阶段:量化感知约束。 对电路中每个参数的累积修改量进行检查:若已超过量化识别门槛,则保留;若未超过,则将其缩放至刚好等于门槛值。此步骤确保每个被修改的参数,在量化后都会落入与原始值不同的“量化格子”,从而使修改永久生效。

三个阶段协同,实现了“精准定位、深度修改、痕迹永存”的目标。

五、实证结果:MANSU如何解决双重失效

在主实验中,MANSU与六种基线方法在多个模型及危险知识基准上进行了对比测试。

以Llama-3.1-8B-Instruct在生物知识上的表现为例,MANSU将遗忘准确率从0.763降至0.430。关键的是,量化后准确率进一步降至0.390,PTQ差距为负0.040——这意味着量化不仅未削弱遗忘效果,反而使其略有增强。同时,模型的通用能力(MMLU得分0.573)得到了良好保持。

相比之下,其他方法难以兼顾:梯度上升法量化后效果反弹;偏好优化法则要么遗忘效果微弱,要么严重损害模型通用能力。

在更广泛的测试组合中,MANSU在全部24个(模型×数据集)场景下,均实现了严格的负PTQ差距(即量化后遗忘效果不变或更强),而没有任何一种基线方法能达到此标准。

一个有趣的现象是:量化有时为何会使MANSU的遗忘效果“增强”?这源于NF4量化“格子”分布的非均匀性。当参数变化使其跳入相邻格子时,若新格子位置更远,便会产生“量化放大效应”,导致最终位移大于实际修改量。

六、CAD:衡量“真实遗忘”的新标尺

研究团队同时指出了现有评估体系的一个根本盲区:仅依赖行为测试(询问模型并检查答案)无法区分“知识被删除”与“知识被屏蔽”。后者如同给知识库大门加锁,但锁可能被绕过。

为此,他们设计了新指标:“电路归因散度”(CAD)。其核心思路是,在清除操作前后,分别测量“目标知识电路”的激活贡献变化。若电路未被触动(仅添加输出拦截器),CAD值接近0;若电路被实质性拆除或改变,CAD值会接近甚至超过1。

实验结果清晰。如LUNAR这类“拦截器”方法,CAD值极低(0.029-0.045),证实其未触及知识存储结构。而MANSU的CAD值很高(在WMDP-bio上为1.143),表明它真正改变了知识电路。

当然,高CAD值也需谨慎解读。若模型被整体破坏,CAD值也会升高,但这属于误伤。因此,研究团队引入了配套指标(AS-C和AS-NC)来区分“精准拆除”与“无差别破坏”。MANSU在实现高CAD的同时,保持了较低的AS-NC,证明其改动是精准且克制的。

七、组件必要性验证:消融实验分析

为验证MANSU各阶段的价值,研究团队进行了一系列消融实验。

移除“量化感知约束”(第三阶段)后,量化永久性几乎丧失,PTQ差距从显著的负值弱化至近乎为零。这证明确保修改深度超越量化门槛是关键。

移除“零空间投影”(第二阶段)后,模型的通用能力受到严重损害,MMLU分数大幅下降。这印证了该技术对于保护“非目标知识”免受误伤至关重要。

若用随机选择的层替换EAP-IG定位的“遗忘电路”(第一阶段),遗忘效果与CAD指标均显著下降,且改动会扩散至无关区域。这直接回应了“机制定位是否有用”的质疑——在本研究场景下,精准定位远比随机选择有效。

更具说服力的是,若使用与遗忘知识最不相关的“反向电路”,遗忘效果几乎失效,量化后准确率反而上升。这证明不仅需要定位,还必须定位到正确的电路。

最后,若将后两阶段的技术全局施加而非限制在定位电路内,效果甚至不如随机电路。这强有力地证明,电路定位是实现有效且永久遗忘的必要前提。

八、核心启示:遗忘必须经得起部署流程的检验

此项研究揭示的远不止一个技术漏洞,更指向了当前AI安全评估体系的系统性盲点:我们过度依赖行为测试,却忽视了内部机制验证;通常在原始精度下评估,却忽略了部署前的压缩步骤;只测试“处理后的即时状态”,却未考量整个生产流程。

一个值得深思的数据是:在94个非MANSU的实验中,偏好优化类方法对高性能大模型的平均遗忘效果仅为1.6个百分点。这在四选一选择题中,几乎与随机波动无法区分。这意味着,许多看似“安全”的模型,其危险知识可能仅被暂时“屏蔽”,而非真正“删除”。

MANSU方案是目前已知唯一能同时满足四项严苛条件的方法:在原始精度下实现有效遗忘、保持模型通用能力、确保量化后遗忘效果不消失、并通过CAD验证发生了真实的结构性改变。

当然,研究团队也指出了当前工作的局限。MANSU的测试主要集中在事实性问答场景,在开放式生成任务上的泛化性有待更多验证。EAP-IG定位方法对事实知识有效,但对编程、推理等技能型知识的电路定位精度仍需探索。此外,不同模型架构的知识存储方式可能存在差异,例如Qwen系列模型的部分知识可能存储在注意力层,未来需将电路定位扩展至更多层类型。

这项研究向所有依赖“AI知识清除”进行安全认证的机构传递了一个明确信息:真正的安全验证,必须在模型经过完整的部署前压缩流程之后重新进行。量化,不仅是优化部署的环节,更是检验遗忘是否真实的“终极试金石”。

Q&A

Q1:机器遗忘技术的核心挑战是什么?

A: 核心挑战在于“稀疏-永久性权衡”。现有方法对模型参数的修改幅度极其微小(约10⁻⁶量级),而标准NF4量化的最小识别精度约为8.4×10⁻⁴。清除产生的细微变化在量化时会被视为噪声而抹去,导致知识“复活”。这是一个数学上的根本性困境,无法通过简单调整超参数解决。

Q2:CAD指标与常规遗忘评估有何本质区别?

A: 常规评估仅测试模型的行为输出(回答正确率),无法区分知识是“被删除”还是“被屏蔽”。CAD指标则直接测量模型内部负责存储特定知识的“神经电路”是否发生了真实改变。若仅添加输出拦截器(行为上不回答),CAD值接近0;若知识电路被实质性拆除或改变,CAD值会接近甚至超过1。

Q3:MANSU方法的三个阶段为何缺一不可?

A: 三个阶段各司其职,构成完整闭环。缺少第三阶段的“量化感知约束”,量化后的永久性会大幅减弱;缺少第二阶段的“零空间投影”,会严重损害模型的通用能力;若将第一阶段的精准电路定位替换为随机选择,遗忘的精准度与效率会显著下降,且会误伤模型其他功能。三者协同,方能实现精准、永久且不损害其他能力的遗忘。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策