ACL 2025论文：多智能体提示攻击安全测评

2026-06-23阅读 0热度 0

语言模型

AI安全正处于技术早期阶段，很多关键问题都还没有定论。围绕这个领域，我们推出了“顶会顶刊AI安全论文研读”系列，目的是帮助行业同仁，以及有志于从事AI安全的新生代，更系统地理解最新技术和行业发展动态。今天带来的是第九期，聚焦一篇ACL 2025的工作：探讨如何通过优化提示攻击，来突破实用型多智能体大语言模型的安全防线。

研究背景

大语言模型在代码生成、逻辑推理等复杂任务上的能力已经毋庸置疑。但一个明显的趋势是，单智能体系统逐渐难以满足现实场景中任务分解、工具调用与协同决策的需求。于是，多智能体LLM系统成了新宠——多个LLM智能体通过通信协作与分布式推理，显著提升了整体性能与可扩展性。从自主软件开发到大规模内容审核，乃至AI驱动的社会模拟，这类系统正在快速渗透到前沿应用中。

但问题也随之而来。多智能体架构在提升能力的同时，引入了一个全新的安全挑战。与单智能体环境不同，多智能体系统的行为高度依赖智能体间的通信路径和上下文传递机制，其决策过程天然具有去中心化、异步性和上下文累积等特性。这些特性意味着，传统针对单模型的安全防御（比如输入过滤、输出审查）在这里基本失效。更关键的是，实际部署中，系统还受限于令牌带宽、消息传递延迟以及安全机制部署不均等问题，这些实用约束进一步放大了攻击面。

之前确实有一些研究开始探索多智能体环境中的越狱风险，比如基于角色的对抗提示（“Evil Geniuses”）或自复制式提示注入（“Prompt Infection”）。但这些工作大多假设通信无约束，或者攻击可以直接作用于目标模型。现实情况是，多智能体系统往往运行在资源受限、消息异步且部分通信链路受安全监控的环境中。在这种“实用型”设定下，攻击者需要将对抗提示分片、路由，并通过多跳传递，同时还要规避检测，确保在目标智能体处有效重组——这对攻击的路径优化能力和排列不变性提出了极高的要求。

研究团队明确指出，当前主流的安全机制（如Llama-Guard、PromptGuard）本质上是为单智能体交互设计的，对多跳通信中上下文碎片化传播的防御能力几乎为零。从图1可以看到，在存在令牌带宽限制与异步消息到达的网络中，如果攻击提示不具备排列不变性，它在目标端的重组会因为顺序不确定而直接失效；而如果没对传输路径进行优化，又可能因为经过高风险链路被拦截。可以说，一个能够兼顾通信约束建模、安全规避策略与跨顺序鲁棒性的系统性攻击分析框架，已经成了评估多智能体LLM系统安全边界的关键。

【论文题目】Agents Under Siege: Breaking Pragmatic Multi-Agent LLM Systems with Optimized Prompt Attacks
【论文链接】https://arxiv.org/abs/2504.00218

图1：展示了多智能体系统中对抗提示从源智能体向目标智能体传播的攻击路径，并对比了传统方法在带宽与延迟约束下失效，而该研究提出的基于最小费用最大流与排列不变规避损失的方法成功绕过安全机制。

动机

在多智能体LLM系统逐渐成为复杂任务求解主流范式的当下，安全研究必须从单智能体假设转向对协作通信机制本身的深入审视。现有攻击方法大多假设攻击者可以直接向目标模型输入完整对抗提示，或者在无通信约束的理想化网络中传播恶意内容。但真实部署的系统通常运行在令牌带宽受限、消息传递存在延迟、安全机制分布不均的实用环境中。在这些约束下，攻击者没法简单复用传统越狱策略。

研究聚焦的核心问题非常明确：在满足令牌带宽限制与异步消息到达的多智能体LLM系统中，如何优化对抗提示的分片与传播路径，使其在规避分布式安全检测的同时，还能在目标智能体处有效重组并成功触发越狱行为？这个问题的关键在于三重约束的耦合：

通信容量限制：每条通信边只能传输有限数量的令牌，迫使对抗提示必须被合理分片；
消息顺序不确定性：网络延迟差异导致提示分片到达目标智能体的顺序不可控，攻击必须对任意排列都有效；
安全机制异构性：部分通信链路部署了Llama-Guard等过滤器，攻击路径需要主动规避高风险边。

从图1可以清晰看到，如果忽略这些约束，攻击会因为分片丢失、重组失败或中途被拦截而彻底失效。因此，一个有效的攻击不仅要生成语义上有害的提示，还需要在图结构层面进行路由优化，并在提示内容层面保证排列不变性。研究团队通过将问题形式化为最小费用最大流优化与排列不变规避损失（PIEL）的联合框架，首次系统性地回答了这个问题，也揭示了现有安全机制在实用多智能体系统中被忽视的深层漏洞。

方法

研究团队把多智能体LLM系统中的对抗攻击分解为两个相互耦合的子问题：（i）在通信拓扑中寻找最优攻击路径，在满足带宽与检测约束的前提下最大化提示流量；（ii）设计具备排列不变性的对抗提示内容，使其在任意分片到达顺序下都能有效触发越狱。从图2可以看到，整个方法通过图优化与提示内容联合优化，实现了隐蔽且高成功率的攻击。

图2：展示了对抗提示分片生成与优化的整体流程，包括多智能体拓扑结构、基于最小费用最大流的路径规划、以及因网络延迟导致的分片顺序不确定性下仍保持攻击有效性的排列不变机制。

1. 拓扑优化

问题建模。 在多智能体系统 S=(V,E) 中，攻击者的目标是从源智能体 vi 向目标智能体 vt 传播对抗提示，同时在最大化令牌传输量的同时最小化被安全机制检测的风险。每条通信边 (u,v)∈E 具有两个关键属性：令牌带宽约束 F(u,v)，表示单次交互中可传输的最大令牌数；检测风险函数 G(u,v)，量化该边部署的安全过滤器（如 Llama-Guard）拦截对抗内容的概率。如果某边未部署安全机制，则 G(u,v)=0。

最小费用最大流建模。 研究将上述问题形式化为最小费用最大流优化问题。定义流函数 f:E→R≥0，其中 f(u,v) 表示沿边 (u,v) 传输的对抗令牌数量。目标是最小化总检测风险，同时确保从 vi 到 vt 的令牌流量最大化。约束条件包括令牌容量约束、流守恒（中间节点流入等于流出）、以及源点与汇点约束（总流出/流入等于最大流）。为了高效求解，研究采用了 NetworkX 库中的最小费用最大流算法，输出最优攻击路径及各边上应分配的对抗令牌数量，继而确定对抗提示的分片数量与每片长度。

2. 排列不变规避损失（PIEL）

问题建模。 由于多智能体系统中存在通信延迟与异步消息到达，对抗提示被分割为多个分片后，其在目标智能体处的拼接顺序是不确定的。因此，攻击提示必须对所有可能的分片排列都有效。设对抗提示被划分为 K 个分片 C={C1,C2,…,CK}，目标是优化这些分片的内容，使得无论以何种顺序拼接，模型生成有害输出的概率都最大化。

排列不变规避损失（PIEL）。 设目标 LLM 为一个下一令牌预测器，其生成目标有害序列的概率可计算。传统对抗损失是该序列的负对数似然。为了引入排列不变性，研究将损失定义为对所有 K! 种分片排列的平均负对数似然。由于令牌选择是离散优化问题，研究采用 Greedy Coordinate Gradient (GCG) 方法进行迭代优化。在每轮迭代中，先计算所有排列下的平均损失，再基于损失梯度更新各分片中的令牌，最后使用 GCG 的令牌替换策略进行局部搜索。

随机排列不变规避损失（S-PIEL）。 当 K 较大时，计算全部 K! 种排列的损失在计算上不可行。为此，研究提出了随机近似版本 S-PIEL：在每次迭代中，从所有排列中随机采样 M 个排列，并用其平均损失近似原损失。实验表明，当 M=64 时，S-PIEL 能在显著降低计算成本的同时维持高攻击成功率，为实际应用提供了一个有效的平衡点。

实验

为了系统评估所提出攻击方法的有效性，研究团队在多组实验中对其性能进行了全面检验。

整体性能对比

研究在多种大语言模型架构（包括 Llama-2、Mistral、Gemma、DeepSeek 等）及多个基准数据集上进行了实验。每项实验都在三种随机生成的多智能体拓扑结构下重复运行，以消除网络结构偏差，确保评估结果的鲁棒性。

表1：展示了不同对抗提示方法在多种LLM架构与基准数据集上的攻击成功率（ASR），报告了最小值（ASR−m）、平均值（ASR）与最大值（ASR−M）

基线对比： 所提方法在所有场景下都显著优于现有方法。传统提示在多数基准上几乎完全失效（ASR ≈ 0%）；基于 GCG 的自动攻击在部分模型（如 Mistral-7B）上取得中等成功率（16%–32%），但仍然远低于所提方法。相比之下，该方法在 Llama-2-7B 上的 JailBreakBench 基准中达到 72.6% 的平均攻击成功率，比 GCG 高出 7 倍以上，充分验证了排列不变设计的有效性。
攻击稳定性： 在不同随机拓扑下，攻击成功率的波动极小（ASR-M 与 ASR-m 之差通常仅为 2%–6%）。比如在 Gemma-2-9B 上波动小于 4%；在 Mistral-7B 上，ASR 介于 78.0% 至 84.0% 之间。这表明攻击对网络结构具有高度鲁棒性。
模型敏感性： 部分模型对攻击更易感。Mistral-7B 与 Llama-2-7B 在 JailBreakBench 上分别达到 81.2% 与 72.6% 的 ASR；而 Llama-3.1-8B 虽然具备更强的安全训练，仍然被攻破至 41.3% ASR。这说明模型规模或安全对齐程度并不能完全抵御多智能体环境下的协同攻击。
蒸馏模型表现： 经 DeepSeek-R1 蒸馏后的 Llama-3.1-8B 模型攻击成功率进一步降低（41.3%），暗示蒸馏可能在一定程度上削弱模型对上下文碎片化攻击的脆弱性，但还不足以提供可靠防御。

安全机制有效性评估

该实验旨在评估之前提出的图优化路由策略是否能有效降低对抗提示在部署有安全机制的多智能体系统中的可检测性。

图3：对比了PromptGuard−86M、Llama−Guard−7B、Llama−Guard−2/3−8B/1B等多种安全机制对不同攻击方法的检测F1分数。

结果显示，传统提示易被检测，而该研究提出的排列不变攻击显著降低了所有防御模型的F1分数。核心发现包括：

检测难度差异： 传统提示最易被检测，GCG 次之，而该研究提出的分片式排列不变攻击在所有安全机制下都获得了最低检测率。
现有防御失效： 即使最先进的 Llama-Guard-3-8B 模型，在面对该攻击时 F1 分数仍下降近 30%。这表明当前主流的安全机制——专为单轮、完整上下文交互设计——完全无法有效应对多跳、异步、碎片化传播的对抗提示。

可迁移性分析

表2: 展示了在Llama−2−7B、Mistral−7B、Gemma−2−9B之间跨模型迁移攻击的成功率，使用JailBreakBench与AdversarialBench两个基准。

为了评估攻击提示的泛化能力，研究在不同源模型与目标模型组合间测试了攻击成功率。主要发现：

架构相似性影响迁移效果： 在 JailBreakBench 上，Llama-2-7B 生成的攻击对其自身 ASR 为 74%，对 Mistral-7B 与 Gemma-2-9B 仍分别保持 71% 与 68% 的高成功率，表明攻击具有较强的跨架构泛化能力。
模型特异性差异： Mistral-7B 作为源模型时，自攻击 ASR 高达 82%，但迁移到 Llama-2-7B 时下降至 69%，说明其生成的提示可能更依赖模型内部结构，泛化性略弱。
通用性提示生成： Gemma-2-9B 生成的攻击虽然自攻击 ASR 为 71%，但在跨模型测试中表现更稳定，成功率波动较小，暗示其可能生成更具通用性的对抗上下文。

消融实验

图4展示了不同拓扑（链式、树状、随机图、完全图）下的攻击成功率。

拓扑结构影响： 为探究通信拓扑对攻击成功率的影响，研究在四种典型网络结构上进行了消融实验。结果表明：网络连通性越高，系统越容易受到攻击。完全图因为路径多样性高，攻击者可以灵活选择低风险边传播提示；而链式结构因为路径单一且容易受到中间节点阻断，提供了更强的天然防御。这一发现对实际系统设计有重要启示：高连通性虽然能提升协作效率，但可能放大安全风险。

随机版本敏感性分析： 由于排列不变损失（PIEL）的计算复杂度为 O(K!)，研究引入了其随机近似版本 S-PIEL。

表3展示了不同采样数 M下攻击成功率（ASR）与收敛所需迭代次数的关系

当 M=64 时，ASR 达到 56%，远高于 M=8 时的 0%；收敛所需迭代次数随 M 增大而显著减少（从 15,000 降至 1,750）；极小采样（如 M=2,4）下损失无法收敛。该结果表明，在 M=64 附近存在攻击效率与计算开销的最佳平衡点，使得 S-PIEL 在实际应用中具备可行性。

结语

这项研究系统性地探究了多智能体LLM系统在对抗性提示传播攻击下的安全脆弱性。研究结果表明，通过优化提示路由策略，攻击者能够在遵守令牌带宽限制并应对异步消息到达的条件下，有效绕过多智能体系统中部署的安全机制。具体来说，该方法将对抗提示分片后，依据通信拓扑结构与安全检测风险进行路径优化，并利用排列不变性确保在任意分片到达顺序下都能成功触发越狱。

通过在 Llama、Mistral、Gemma 等多种主流模型架构上的广泛实验，研究揭示了现有安全防御体系在多智能体场景中的严重不足：传统的单智能体安全措施（如 Llama-Guard、PromptGuard）无法有效检测或阻断此类分布式、碎片化传播的攻击。即使在最先进版本（如 Llama-Guard-3-8B）的防护下，攻击成功率仍可高达 94%，而防御模型的检测 F1 分数显著下降近 30%。

这些发现共同指向一个结论：多智能体LLM系统引入了全新的安全挑战，现有以单点交互为中心的安全范式已经不再适用。未来亟需发展专门面向多智能体协作场景的新型安全机制，包括但不限于上下文完整性验证、跨智能体一致性检测、以及动态通信路径监控等技术方向。