AAAI2026论文解读:定向投毒攻击事实核查系统
面向新型应用场景的人工智能安全攻防,目前仍处于快速迭代的技术演进期。大家最关心的问题是:现有AI系统,尤其是那些号称“更智能”的智能体(Agent),究竟能承受多强的对抗性攻击?
围绕这一现实挑战,我们正式推出“顶会顶刊AI安全论文研读”系列,旨在为行业从业者及安全领域的新生力量构建一个追踪前沿技术动向与研究方向的学习平台。每期聚焦一篇顶级会议或期刊的最新成果,力求透彻解析其技术细节、实验设计逻辑及背后的安全启示。
本期为【第16期】,深度解读AAAI 2026一篇高价值论文——Fact2Fiction: 针对智能体事实核查系统的定向投毒攻击。
往期回顾:
第一期:ICCV 2025|基于启发式诱导的多模态风险分解越狱攻击方法
第二期:CVPR 2025 Highlight|分散即关键:基于子图像对比分散策略的多模态大模型越狱攻击
第三期:ICML 2025|GuardAgent:让AI智能体“有守护者”的第一步
第四期:ICCV 2025|机器人的“视觉欺骗”:一个彩色补丁如何让智能机器人“精神错乱”
第五期:AAAI 2026|PhysPatch:面向MLLM驱动自动驾驶系统的物理可实现对抗贴片框架
第六期:EMNLP 2025|基于模型上下文完整性协议的MCP安全防护
第七期:ACL 2025|警惕屏幕上的陷阱!通过弹窗攻击视觉语言计算机智能体
第八期:EMNLP 2025 Oral|VisCRA:针对多模态大语言模型的视觉链推理攻击
第九期:ACL 2025|围攻智能体:利用优化提示攻击破解实用型多智能体大语言模型
第十期:ACL Findings 2025|Mousetrap:利用迭代混沌链欺骗大型推理模型越狱
第十一期:ACL 2025|内存提取攻击:揭示LLM智能体内存中的隐私风险
第十二期:EMNLP 2025|AGENTVIGIL:面向黑盒大语言模型智能体的通用自动化红队测试框架
第十三期:ICLR 2025|坏机器人:物理世界中具身大语言模型的越狱攻击
第十四期:NeurIPS 2025|BadVLA:基于目标解耦优化的视觉-语言-动作模型后门攻击研究
第十五期:AAAI 2026|MPMA:针对模型上下文协议(MCP)的偏好操纵攻击
研究团队
该研究由香港浸会大学、香港大学与微软联合团队完成,核心作者包括Haorui He、Yupeng Li、Bin Benjamin Zhu、Dacheng Wen、Reynold Cheng和Francis C. M. Lau。团队长期深耕人工智能安全、对抗性机器学习及事实核查系统领域。这篇论文首次系统揭示了基于Agent的事实核查系统中存在的严重安全漏洞——攻击者可通过投毒攻击篡改核查结果,将虚假信息判定为真实。
导读
事实核查系统在遏制虚假信息传播中扮演关键角色。随着大语言模型走向成熟,前沿事实核查系统已从早期的“检索-生成”(RAG)框架进化为智能体(Agentic)范式。这类智能体能够自主搜索证据、拆解并分析复杂声明,最终给出判定。
不过,本论文首次公开指出:即使具备复杂的逻辑推理能力、通常被视为“更稳健”的这类系统,在面对精心设计的针对性投毒攻击时,表现出异常脆弱性。
论文提出的FACT2FICTION框架,通过模仿系统的分解逻辑并利用系统生成的“理由”(Justification),首次实现了对Agentic事实核查系统的高效投毒攻击。
【论文题目】FACT2FICTION: Targeted Poisoning Attack to Agentic Fact-checking System
【论文链接】https://arxiv.org/abs/2508.06059
【代码链接】https://trustworthycomp.github.io/Fact2Fiction/
研究背景
当前主流事实核查系统普遍采用RAG框架,通过检索外部证据验证文本陈述真伪。为应对更复杂声明,SOTA系统如DEFAME和InFact引入了智能体架构:它们将复杂陈述拆解为多个子问题(Sub-claims),自主检索证据逐一验证,最后汇总结果并输出判定理由(Justification)。
过去研究主要聚焦于提升核查准确性,安全性研究明显滞后。一旦这些系统被攻破,不仅会放大虚假信息,还会通过看似专业的“判定理由”误导公众,严重侵蚀公众对权威信息的信任。
动机与理论分析
为什么现有攻击手段失效?
传统RAG投毒攻击(如PoisonedRAG)通常针对主陈述生成宽泛的虚假证据。但Agentic系统天然具备多重“防御属性”:
- 拆解验证:系统会针对特定子问题进行自适应检索,而非简单匹配整个段落。
- 证据不相关性:传统攻击生成的证据在面对具体子问题检索时往往不相关,无法被系统检索到。
- 交叉验证机制:系统聚合多个子问题的结果,即使部分证据受损,整体判定仍可能保持正确。
核心发现:透明度带来的安全权衡
研究者发现,事实核查系统输出的“判定理由(Justification)”实际上泄露了系统的推理逻辑和依赖的关键证据。攻击者可利用这些信息:确定哪些子问题在最终判定中起决定性作用,然后生成直接针对系统原始推理逻辑的矛盾证据,从而以极低的中毒预算实现攻击。
方法论
攻击框架概述
FACT2FICTION采用“双袋鼠协同”架构,由计划者(Planner)和执行者(Executor)组成。
(1)计划者(Planner)的四项核心操作:
- 子问题分解:模仿受害者系统,将目标陈述拆解为一组子问题 Q。
- 答案规划:利用系统提供的Justification,为每个子问题规划针对性的虚假答案 a_k,确保所有虚假证据在逻辑上自洽地支持攻击者想要的判定。
- 预算规划:根据Justification暴露的子问题重要程度,策略性分配中毒预算,优先打击最有影响力的环节。
- 检索查询规划:预判受害者系统可能使用的搜索查询,将其嵌入虚假证据中,以提高被检索到的概率。
(2)执行者(Executor)的实施:
- 证据生成:根据Planner指示,生成与虚假答案语义对齐的精简证据文本,限制在30词以内。
- 注入攻击:将合成的恶意证据注入开放网络知识库——模拟真实环境,如Wikipedia或新闻评论区。
图1:Fact2Fiction攻击框架
表1:不同中毒率下对不同受害系统的攻击表现
实验结果
实验设置
1. 受害者系统
实验选取三种代表性事实核查系统:
- DEFAME(SOTA):先进智能体系统,将陈述拆解为子陈述,根据检索证据进行推理和判定。
- InFact:另一采用多步骤推理和证据聚合的智能体事实核查系统。
- Simple RAG:作为基准的朴素检索增强生成系统,直接根据检索结果判定原陈述。
2. 数据集
A VeriTeC是当前最复杂的事实核查数据集之一,包含来自真实世界的各类陈述,要求系统具备多跳推理(Multi-hop reasoning)能力。
3. 攻击基准
PoisonedRAG是目前针对传统RAG系统最先进的中毒攻击方法。作者将其作为对比,凸显FACT2FICTION攻击智能体架构时的优越性。
4. 评估指标
- ASR(Attack Success Rate):攻击成功率,衡量攻击者能否将正确判定(True/False)扭转为目标错误判定。
- SFR(Success on Failure Rate):衡量系统在无法给出明确判定(如判定为“信息不足”)时,攻击者成功诱导其给出目标错误判定的概率。
- SIR(Sub-claim Impact Rate):子陈述影响率,专门衡量攻击对智能体内部中间步骤(子陈述验证)的破坏程度。
5. 中毒预算
实验模拟极低比例的中毒环境,中毒率(Poison Rate)设定在1%到8%之间。这意味着攻击者只需在海量外部知识库中注入极少量恶意证据。
对比实验结果
1. 主要攻击性能表现
对比FACT2FICTION(F2F)与最强基准PoisonedRAG在不同受害者系统上的表现:
- 全面超越基准:在所有测试的受害者系统和中毒预算(1%-8%)下,F2F的攻击成功率(ASR)显著高于PoisonedRAG。在DEFAME系统上,F2F的ASR领先幅度达8.9%至21.2%。
- 对抗Agentic系统的特异性:实验显示,PoisonedRAG在攻击简单的Simple RAG系统时效果尚可,但面对具备分解逻辑的智能体系统(如DEFAME)时效力大幅下降。而F2F因采用针对子陈述(Sub-claims)的精准打击,始终保持极高攻击水平。
- 子陈述破坏力(SIR):F2F在子陈述影响率上表现强劲,证明攻击者可通过操纵细粒度证据左右智能体中间推理步骤。
2. 中毒预算(比例)的影响
研究者分析攻击效果随知识库中恶意文档占比(1%, 2%, 4%, 8%)的变化趋势:
- 高效率攻击:即使在极低中毒比例(1%)下,F2F在各系统上的ASR仍达21.4%至33.5%,显著高于基准模型。
- 边际效应:随着中毒比例增加,ASR、SFR(失败转化率)和SIR均呈稳步上升。
- 样本效率对比:F2F在1%中毒率下的表现往往优于或等同于PoisonedRAG在8%中毒率下的表现,攻击效率高出约8倍。
3. 消融实验
为验证F2F各组件的贡献,研究者设计以下变体进行对比:
- w/o Justification:不利用系统生成的理由,仅根据原始陈述攻击。
- w/o Strategic Planning:不进行预算分配和查询规划,均匀分布中毒证据。
结论1:理由利用(Justification)是核心。在1%低预算下,利用理由能使ASR提升约12.4%。系统解释性确会泄露其推理逻辑。
结论2:策略规划(Planning)显著增强效果。通过识别“关键子陈述”并集中资源攻击,效果优于随机攻击所有子陈述,尤其在资源受限时。
表1:不同中毒率下对不同受害系统的攻击表现。每个指标和中毒率下的最佳结果用粗体表示,次佳结果用下划线表示。遵循Chen等人(2024)方法,使用至少五次试验的配对引导测试。标记有“ ”的结果表示与PoisonedRAG相比有显著(p<0.05)提升。
4. 对不同LLM后端的鲁棒性
为排除实验结果受特定模型能力(如GPT-4o)影响,研究者更换受害者系统底层LLM,包括GPT-4o-mini、Gemini-2.0-Flash和DeepSeek-V3。
实验发现:尽管不同LLM对虚假信息抵抗力略有差异,但F2F的攻击优势在所有模型上一致。深度洞察:即便像DeepSeek-V3这类推理能力极强的模型,面对针对其拆解逻辑精心设计的恶意证据时,依然表现出明显脆弱性。
表2:PoisonedRAG与Fact2Fiction在不同防御机制下1%投毒率下的攻击性能表现
图2:ASR趋势(纵轴)随投毒率(横轴)的变化
图3:困惑度分布比较
5. 对现有防御机制的有效性
研究者测试F2F在两种常见RAG防御手段下的表现:
- 防御性提示词(Re-prompting):要求系统在判断前更谨慎,检查证据一致性。
- 相似度过滤(Filtering):通过语义相似度检测并过滤潜在恶意注入文档。
实验结论:
- 提示词防御失效:防御性提示词仅能略微降低ASR(下降约1%到3%),因F2F生成的证据在逻辑上极其自洽,LLM难以仅凭“谨慎”发现漏洞。
- 过滤机制失效:F2F生成的证据在语义上与查询高度相关,甚至嵌入了预判的搜索查询关键词,轻松通过基于相似度的过滤器。
结论与展望
研究结论:透明度与安全的双刃剑
本研究通过FACT2FICTION框架证明:智能体事实核查系统虽通过逻辑拆解增强了对传统非针对性攻击的鲁棒性,但这种架构也引入了新的攻击面。
- 解释性的安全代价:系统生成的“判定理由”在提高透明度的同时,向攻击者泄露了系统推理的逻辑图谱和证据依赖点。
- 攻击的高效性与隐蔽性:FACT2FICTION仅需极低中毒预算(1%恶意数据注入),即可在多个SOTA系统上实现比现有攻击高出约9%至21%的成功率。
- 现有防御的脆弱性:传统RAG防御手段面对“逻辑一致”且“查询相关”的精准投毒攻击基本失效,表明智能体安全需要全新防御范式。
未来展望:从对抗到加固
作者在文末提出几个未来研究方向:
- 探究攻击饱和点:研究为何攻击效果在特定中毒预算后进入平台期,分析影响这一瓶颈的系统因素,从而开发能限制攻击上限的策略。
- 鲁棒的解释性机制:探索如何在不牺牲用户可理解性的前提下,对推理过程进行“安全脱敏”,防止攻击者利用理由逆向工程。
- 动态对抗防御:开发能识别“逻辑协同投毒”的新型检测算法,尤其针对那些语义高度相关但逻辑上引导错误结论的恶意证据。
总结
针对日益流行的智能体事实核查系统,本文提出首个靶向投毒攻击框架FACT2FICTION,深刻揭示系统“透明度”带来的安全隐患:攻击者通过逆向利用系统生成的“判定理由”精准定位推理关键点,并模仿其分解逻辑注入极少量(1%到8%)定制化恶意证据,从而以远超传统攻击的效率(成功率提升8.9%到21.2%)诱导系统给出错误判定。
实验结果证明,该框架在多种主流LLM后端上均表现出极高攻击成功率和穿透现有防御的能力,挑战了智能体架构天然稳健的假设。未来设计具备解释性的AI系统时,必须审慎平衡逻辑透明度与对抗鲁棒性之间的权衡关系。






