AAAI 2026 | MPMA：MCP协议偏好操纵攻击深度解读

2026-06-23阅读 0热度 0

模型上下文协议

AI安全还处于技术早期阶段，因此这里正式推出一个全新的“顶会顶刊AI安全论文研读”系列，帮助全行业同仁以及有志于加入AI安全领域的新一代，快速理解前沿技术和行业动态。

本期带来的是【第15期】AAAI 2026 | MPMA：针对模型上下文协议(MCP)的偏好操纵攻击。

往期回顾：

第一期回顾：顶会顶刊AI安全论文研读第一期：ICCV 2025| 基于启发式诱导的多模态风险分解越狱攻击方法：突破MLLMs安全防线

第二期回顾：顶会顶刊AI安全论文研读第二期CVPR 2025 highlight分散即关键基于子图像对比分散策略多模态大模型越狱攻击研究

第三期回顾：顶会顶刊AI安全论文研读第三期：ICML 2025 | GuardAgent：让AI智能体“有守护者”的第一步

第四期回顾：顶会顶刊AI安全论文研读第四期：ICCV 2025 | 机器人的“视觉欺骗”：一个彩色补丁如何让智能机器人“精神错乱”

第五期回顾：顶会顶刊AI安全论文研读第五期：AAAI 2026 | PhysPatch：面向MLLM驱动自动驾驶系统的物理可实现对抗贴片框架

第六期回顾：顶会顶刊AI安全论文研读第六期：EMNLP 2025 | 基于模型上下文完整性协议的MCP安全防护

第七期回顾：顶会顶刊AI安全论文研读第七期：ACL 2025 | 警惕屏幕上的陷阱！通过弹窗攻击视觉语言计算机智能体

第八期回顾：EMNLP 2025 Oral | VisCRA：针对多模态大语言模型的视觉链推理攻击。

第九期回顾：顶会顶刊AI安全论文研读第九期：ACL 2025 | 围攻智能体：利用优化提示攻击破解实用型多智能体大语言模型

第十期回顾：顶会顶刊AI安全论文研读第十期：ACL Findings 2025 | Mousetrap：利用迭代混沌链欺骗大型推理模型越狱

第十一期回顾：顶会顶刊AI安全论文研读第十一期：ACL 2025 | 内存提取攻击：揭示LLM智能体内存中的隐私风险

第十二期回顾：顶会顶刊AI安全论文研读第十二期：EMNLP 2025 | AGENTVIGIL：面向黑盒大语言模型智能体的通用自动化红队测试框架

第十三期回顾：顶会顶刊AI安全论文研读第十三期：ICLR 2025 | 坏机器人：物理世界中具身大语言模型的越狱攻击

第十四期回顾：NeurIPS 2025 | BadVLA：基于目标解耦优化的视觉-语言-动作模型后门攻击研究

作者介绍

本文作者团队来自电子科技大学（UESTC）与香港城市大学。团队专注于大语言模型（LLM）安全、智能体（Agent）生态系统安全及对抗性攻击等前沿方向。针对新兴的 Model Context Protocol (MCP) 协议，该团队首次揭示了通过操纵工具描述来影响 LLM 智能体工具选择过程的安全漏洞，并提出了相应的攻击框架与评估指标，为保障 MCP 生态系统的公平性提供了重要参考。

导读

随着模型上下文协议（MCP）成为大语言模型（LLM）智能体连接外部数据和工具的行业标准，MCP 服务器生态系统迅速扩展。不过，这种开放性也引入了新的安全威胁。本文要介绍的是首个针对 MCP 的偏好操纵攻击——MPMA（MCP Preference Manipulation Attack）。

攻击者通过在第三方平台上部署恶意的 MCP 服务器，精心设计工具名称和描述，诱导 LLM 在众多竞争工具中优先选择该恶意服务，从而获取不正当的经济利益（比如服务费或广告收入）。

针对这一威胁，论文提出了两种攻击策略：直接偏好操纵攻击（DPMA）和基于遗传算法的广告偏好操纵攻击（GAPMA）。实验表明，DPMA 虽然有效但隐蔽性不足，而 GAPMA 结合了广告心理学策略与遗传算法优化，能在保持高攻击成功率的同时显著提升隐蔽性，成功绕过人工审查和自动化检测。

这项研究揭示了 MCP 生态系统中的关键公平性漏洞。论文代码已开源：https://github.com/hanbaoergogo/MPMA

【论文题目】MPMA: Preference Manipulation Attack Against Model Context Protocol
【论文链接】https://arxiv.org/abs/2505.11154

研究背景

近年来，大型语言模型（LLM）在推理、数学和代码生成等任务中展现出变革性能力。随着 LLM 能力的快速提升，LLM 智能体应运而生——这是一种以 LLM 为核心的自主系统，能够感知环境、规划行动并执行任务，在复杂场景中实现目标导向的智能行为。使 LLM 智能体能够执行此类任务的关键特性是其选择和调用外部工具的能力，这将其行动空间扩展到了语言生成之外。

2024 年末，Anthropic 革命性地推出了模型上下文协议（MCP），一种使 LLM 智能体能够自主发现和选择工具的协议，无需依赖预定义的函数调用接口映射。通过标准化工具调用接口，MCP 显著降低了开发门槛，加速了 LLM 智能体工具生态系统的扩张。

自推出以来，MCP 已从小众协议迅速发展成为构建 LLM 智能体的基础设施。目前，数十个第三方平台已部署了大量 MCP 服务器，其中一些平台的规模超过 13,000 个实例。此外，许多 MCP 服务器通过 API 接口提供高质量的商业级服务，如图像生成、网络搜索和基于位置的功能，展现出在促进服务商业化和市场扩张方面的巨大潜力。

图1: MCP工作流程示意图。该流程可分为四个步骤：❶任务规划，❷工具选择，❸工具调用，❹总结与输出

虽然 MCP 社区已开始初步关注安全问题，但当前研究主要集中在 MCP 服务器内潜在的恶意代码和隐私泄露问题。然而，一个关键问题仍然存在：这些机制是否足以确保 MCP 应用的整体可信性？本文首次提出并研究了 MCP 偏好操纵攻击（MPMA），这是一种针对 MCP 应用的新型安全威胁。

动机

在 MCP 生态系统中，提供类似功能的多个付费 MCP 服务器往往存在直接竞争以获取经济利益。在这种竞争环境下，恶意 MCP 服务器可能试图操纵 LLM 的工具选择过程，以提高其在各种用户查询中被选择的可能性。这种操纵不仅损害了生态系统的公平性，还可能导致显著的经济影响。

尽管间接提示注入攻击已被识别，但现有研究主要关注 LLM 基础搜索引擎和传统 LLM 智能体的安全问题。相比之下，MCP 应用代表了一个新兴且快速发展的领域，具有独特的安全挑战：

工具选择机制不同：在传统 LLM 智能体中，工具通过计算工具文档与用户查询的相似度由检索器选择。而在 MCP 中，工具选择完全由 LLM 自主决定，这为通过操纵工具描述进行攻击提供了新的攻击面。
经济动机明确：MCP 生态系统中存在大量付费服务和广告支持的免费服务，恶意提供商有明确的经济动机通过操纵工具选择获取不公平收益。
隐蔽性要求高：工具名称和描述对用户和第三方平台审查者可见，因此攻击必须设计得足够隐蔽，避免引起怀疑的同时有效影响工具选择过程。

威胁模型

图2：MPMA的攻击场景

本工作构建了针对 MCP 应用的威胁模型，具体包括以下要素：

攻击场景：如图2所示，恶意提供商在第三方平台发布付费 MCP 服务器。当用户部署该服务器时，它会影响 LLM 的工具选择过程，从而提高恶意服务器相对于竞争对手被选择的可能性。这种优先选择最终使攻击者通过服务使用费或广告收入获得经济收益。

攻击者能力：假设攻击者是 MCP 服务器构建者，对 MCP 服务器具有白盒访问权限，允许操纵元数据（如工具名称和描述）。此外，攻击者可以将恶意 MCP 服务器发布到第三方 MCP 平台。需要注意的是，攻击者不具备对 LLM 智能体内基础 LLM 的任何控制或修改能力。

攻击者目标：

攻击有效性：攻击者寻求确保恶意服务器在 LLM 的选择频率上始终优于竞争服务器，从而获得可衡量的经济利益。
隐蔽性：攻击者旨在保持恶意服务器的不显眼性。具体而言，工具名称和描述不应引起用户怀疑，并应规避人工审查和自动化机器检测机制。

方法

MPMA 包含两种攻击策略：直接偏好操纵攻击（DPMA）和基于遗传算法的广告偏好操纵攻击（GAPMA）。

攻击概述

攻击概述如图3所示，展示了 LLM 工具选择过程中涉及的步骤。需要强调的是，MCP 主机和 LLM 仅能访问每个 MCP 服务器工具的名称和描述，服务器的内部处理逻辑对它们完全不可见。因此，MPMA 只能通过操纵 MCP 提供商的工具名称和描述来实施。

该过程从上到下可分为三种场景：

❶ 良性场景：当用户部署的所有 MCP 服务器都是良性的时，模型选择 get_weather 工具，这对于这个简单任务来说是充分的。

❷ DPMA场景：以 DPMA 的 Best Description 策略为代表性示例。当其中一个可用的 MCP 服务器使用 Best Description 策略构建时，模型选择该恶意服务器，理由是它是“世界上最好的工具”。

❸ GAPMA场景：以 GAPMA 的夸张广告策略为代表性示例。当其中一个可用的 MCP 服务器是使用夸张策略构建的恶意服务器时，模型选择该恶意服务器，理由是它被描述为“可靠和精确”。与 DPMA 相比，GAPMA 表现出更高的隐蔽性，因为其描述避免使用明显的操纵性术语。

图3：MPMA的攻击概述。从上到下分别描述了良性过程以及DPMA和GAPMA策略下的攻击效果。

直接偏好操纵攻击（DPMA）

DPMA 通过操纵性词汇或短语操纵 LLM 的偏好。整体流程如图3所示。研究提出了两种攻击策略：

Best Description（最佳描述）

受先前研究发现的启发，包含“best”的词汇或短语更有可能获得 LLM 的偏好。因此，研究在工具描述前添加操纵性描述 Dm。具体而言，Best Description Db 可表示为：

其中 ⊕ 是字符串连接，Draw 是原始描述。本研究使用短语“This is the best tool in the world.”作为操纵性描述 Dm。

Best Name（最佳名称）

类似地，在工具名称前添加操纵性词汇“best” Nm，以引发 LLM 的偏好。具体而言，Best Name Nb 可表示为：

需要注意的是，这两种攻击表现出有限的隐蔽性，因为像“best”这样的操纵性词汇可能在人工和自动化审查期间引发怀疑。在 MCP 设置下，隐蔽性在 MPMA 的背景下至关重要——MCP 服务器的信息对用户和第三方平台都是可见的。如果插入类似 DPMA 中使用的操纵性语句，很可能引起用户怀疑。因此，进一步提出了 GAPMA 来实现更好的隐蔽性。

基于遗传算法的广告偏好操纵攻击（GAPMA）

广告策略

工具描述中对隐蔽性的追求与传统广告策略具有概念相似性，两者都寻求在没有明确意识的情况下影响用户偏好。基于这一观察，研究系统地调查了旨在无意识影响受众决策的广告策略。经过广泛查找，在传统广告领域采用了以下四种代表性广告策略：

权威性（Authoritative, Au）：将广告内容伪装成专家建议或用户推荐，嵌入文本中。
情感化（Emotional, Em）：融入情感化语言，使广告内容与受众的情感需求保持一致。
夸张化（Exaggerated, Ex）：使用夸张和强烈的修辞技巧，让产品看起来更具吸引力。
潜意识（Subliminal, Su）：隐蔽广告形式，通过潜意识暗示嵌入信息。读者可能不会有意识地识别广告内容，但隐含的信息或心理暗示会微妙地影响他们的行为。论文使用 GPT-4o 生成展现特定广告特征的工具描述。

描述隐蔽性增强算法

GAPMA 包含两个主要组件：广告风格转换和遗传算法隐蔽性增强。如算法1所示，首先利用 GPT-4o 和广告提示 Padv 将原始工具描述转换为与所选广告策略一致的风格，同时保持一定的隐蔽性水平，完成池 P 的初始化。随后，应用遗传算法（GA）通过迭代优化候选提示来进一步增强优化描述的隐蔽性。

具体来说，在每次迭代中，引入 MUTATE（变异）操作，使用面向隐蔽性的提示 Penc 来改进隐蔽性，并执行 CROSSOVER（交叉）操作，结合成对提示的关键元素以促进变异多样性并探索更广阔的解空间。

生成的候选描述累积在池 P 中，GPT-4o 从中选择看起来最不可疑的前 k 个描述。这些描述被保留用于下一次迭代，引导演化过程朝着更高的隐蔽性。经过 n 次迭代后，使用 GPT-4o 从最终池中选择最隐蔽的描述。

整个优化过程在无需访问智能体内部结构或模型参数的前提下，仅依赖二元成功/失败信号即可高效收敛。这种设计特别适用于现实世界中基于闭源大模型构建的黑盒智能体系统。

实验

实验设置

评估指标

攻击成功率（ASR）：评估 MPMA 的攻击有效性，定义为：

其中 D 表示为相应 MCP 服务器构建的包含 10 个查询的数据集，St 表示构建的恶意 MCP 服务器。更高的 ASR 表示更成功的攻击。

真阳性率（TPR）：通过测量被 LLM 或人工标注者标记为可疑的工具描述比例来衡量 MCP 服务器的隐蔽性。评估采用 LLM 作为评判者范式和人工评估来评估给定工具描述是否可能引起怀疑。

对于 LLM 作为评判者，使用五个最广泛使用的 LLM 进行评估：Deepseek-V3、Claude-3.7-Sonnet、GPT-4o、Grok-3 和 Gemini-2.5。研究采用广泛使用的少样本上下文学习（ICL）策略增强 LLM 在评估工具描述是否显得可疑方面的领域知识。对于人工评估，招募了三名独立标注者。更低的 TPR 表示攻击可以规避 LLM 和人类的审查，从而更加隐蔽。

模型

使用五个广泛采用的 LLM 智能体基础模型评估 MPMA：Deepseek-V3、Claude-3.7-Sonnet、Gemini-2.5-flash、Qwen3-235B-A22B 和 GPT-4o。

MCP服务器

实验中使用了 8 个常用的 MCP 服务器，提供以下功能：天气信息（Weather）、时间信息（Time）、MCP 服务器安装协助（Installer）、每日热点新闻（Hotnews）、网页内容抓取（Fetch）、网页到 markdown 转换（Markdown）、加密货币分析（Crypto）和网络搜索（Search）。

数据集

为每个 MCP 服务器构建了十个与其对应的常见查询进行评估。

实现细节

为模拟竞争环境，在恶意 MCP 服务器旁边包含五个具有相同名称和描述的额外竞争 MCP 服务器。这些竞争服务器共享相同的名称，其描述使用 GPT-4o 进行改写以确保多样性。在 GAPMA 的主要实验中，参数设置为 iteration = 5 和 k = 10。所有实验均使用 Cline（目前最流行的 MCP 主机之一）进行。

基线

基线是指没有攻击者时 MCP 服务器的选择概率。由于所有 MCP 服务器在功能和配置上相同（除了潜在的攻击者），每个服务器被选择的概率相等。因此，基线 ASR 为 1/（竞争 MCP 服务器数量）。在主要实验中，竞争 MCP 服务器总数为 6，基线 ASR 为 1/6 ≈ 16.67%。

DPMA的实验结果

实验结果如图4所示，可以得出以下结论：Best Description 策略在几乎所有设置中始终实现 100% 的 ASR。Best Name 策略在大多数情况下也达到 100% 的 ASR，并且优于基线——除了 GPT-4o 模型下的少数场景，其 ASR 低于基线。推测 GPT-4o 对工具名称可能不太敏感，而更多地依赖工具描述进行工具选择。此外，Best Description 的 ASR 总体上高于 Best Name。总的来说，DPMA 展示了强大的攻击有效性，Best Description 策略相比 Best Name 更有效。

图4：DPMA在5个基础LLM和8个MCP服务器上的实验结果

GAPMA的实验结果

表1: GAPMA的攻击成功率

对 GAPMA 进行了广泛的实验，结果如表1所示。大多数广告策略的 ASR 远高于基线。关于 Adv 列的平均 ASR，除 GPT-4o 下的 Ex 策略外，大多数设置显示出明显高于基线的 ASR。同时，Au 策略始终产生最佳性能，而 Em 策略表现相对较差。在评估的 5 个 LLM 中，Gemini 表现出最高的 ASR（91.88%），而 GPT-4o 显示最低的 ASR（仅 22.19%）。推测这种差异可能源于 GPT-4o 中部署了特定的防御机制。

涉及遗传算法的比较实验结果表明，遗传算法不会对攻击有效性产生负面影响，甚至可以提高有效性。总的来说，所提出的 GAPMA 在不同模型和设置下展示了强大的攻击有效性，遗传算法甚至提高了 GAPMA 的攻击有效性。

隐蔽性实验

实验结果如图5所示，所有广告策略的 TPR 均低于 DPMA 中的 Best Description。值得注意的是，在 LLM 作为评判者的评估下，经过遗传算法优化的四种广告策略甚至优于原始描述，TPR 分别为 0%（Au）、5%（Em）、2.5%（Ex）和 0%（Su），均低于 Best Description 的 37.5% 和原始描述的 10%。

图5：使用LLM作为评判者和人工评估的DPMA和GAPMA的隐蔽性实验结果

其次，在 LLM 和人工评估中，使用遗传算法始终导致 TPR 显著低于非使用对应项。这证明了遗传算法在增强隐蔽性方面的有效性。此外，在所有广告策略中，使用遗传算法优化的 Au 策略在两种评估中都达到了最低的 TPR，表明其隐蔽性最高。结合第2节的实验结果（Au 实现了最高的攻击有效性），可以得出结论：Au 是 GAPMA 中最适合 MPMA 的广告策略。总的来说，广告策略与遗传算法优化的结合显著增强了隐蔽性，远优于 DPMA。

恶意多数场景

研究了 MPMA 中恶意多数的场景。假设大多数 MCP 服务器提供商采用所提出的 DPMA 或 GAPMA 策略来操纵其工具描述以获得经济利益。如表2所示，在 Deepseek、Claude 和 Gemini LLM 中，选择的工具是良性的。模型在回复中明确表示它们更喜欢选择最直接使用的工具。将这种违反直觉的现象命名为“过度操纵”。推测在恶意多数场景中，由于过度使用操纵性描述，模型可能会变得警觉，从而选择更直接的工具。

表2：在Time服务器和5个LLM上恶意多数场景的实验结果

MCP扫描工具下的MPMA

进一步研究 MPMA 是否能够对新兴的 MCP 提示注入扫描和防御工具（即 MCPScan 和 MCPShield）保持隐蔽性。如表4所示，结果表明，在大多数情况下，两种防御检测工具都无法识别提示注入。具体而言，DPMA 和良性服务器在任何设置下都从未被检测到，GAPMA 服务器仅在两个设置中被检测到，没有遗传算法的 GAPMA 服务器在三个设置中被检测到。这些发现表明 MPMA 对自动化扫描工具具有强大的隐蔽性。

经济影响估算

MPMA 可能产生可观的经济收益。以网络搜索的 MCP 服务器为例，进行了初步计算。在 Smithery 平台上，大约有 100 个与网络搜索相关的 MCP 服务器。使用使用量相对较高的 Bra ve Search 作为计算示例：其部署量为 17,000 次，目前约有 10 个规模与 Smithery 平台相当的平台。保守估计，这些平台的部署量为 170,000。对于经济估算，Bra ve Search 付费 API 的平均价格为每 1,000 次调用 5 美元。保守假设 1% 的用户产生付费使用费，平均每天调用 10 次。因此，不考虑用户增长，该 MCP 服务器一年的经济收益计算如下：收益 = (170,000 × 0.01 × 10) × (5/1,000) × 365 ≈ $310,250。

通过类似分析，可以粗略估计前 5 个网络搜索 MCP 服务器的经济收益总和可以达到 413,983 美元。假设恶意方创建了一个利用类似攻击的恶意 MCP 服务器，并假设 80% 的用户将安装一个类似的竞争 MCP 服务器，70% 安装两个，60% 安装三个，50% 安装四个，40% 安装五个，那么 DPMA 中的 Best Description 策略实现了 100% 的 ASR，每年可能对其他 MCP 服务器造成约 248,389.8 美元的不公平收益。类似地，假设每个用户使用每个 LLM 的概率相等，并且 Bra ve Search 中使用的 ASR 相当于主要实验中 Au 策略的平均 ASR，使用 Au 策略的 GAPMA 每年可能造成约 203,033.8 美元的不公平收益。随着第三方 MCP 服务器市场的持续快速扩张，经济收益也将随之增长。这里只考虑了网络搜索领域的 MCP 服务器，还有许多其他类型的付费 MCP 服务器，如图像生成和基于位置的服务。因此，MPMA 造成的潜在经济影响可能是巨大的。

结语

本文首次提出并研究了针对 MCP 框架的新型安全威胁——MPMA，恶意方在第三方平台发布付费 MCP 服务器。一旦被用户集成，基础 LLM 会在具有类似功能的 MCP 服务器中表现出对恶意 MCP 服务器的一致偏好，从而使攻击者获得经济利益。

研究进一步提出了 MPMA 的两种攻击策略：DPMA 和 GAPMA。DPMA 通过直接在工具名称或描述中插入操纵性词汇或短语实现高 ASR。相比之下，GAPMA 利用四种经典广告策略和遗传算法在确保高 ASR 的同时实现良好的隐蔽性。

研究在 8 个 MCP 服务器和 5 个主流 LLM 上进行了全面实验。结果表明基于 MCP 的工具选择容易受到 MPMA 的攻击，突显了为确保 MCP 生态系统公平性而开发相应防御机制的迫切需求。该研究揭示了 MCP 框架固有的关键安全漏洞，强调了开发强大的系统防御机制以确保 MCP 生态系统公平性的必要性。