OpenClaw安全基准发布:MCP协议12大隐患深度解析与防护指南
以OpenClaw为代表的开源AI智能体项目,正在重塑开发者的工作流。通过一句自然语言指令,这些智能体便能自主执行代码编写、信息检索、文件操作乃至系统控制等复杂任务。
这种高度自主性的核心,在于其强大的工具调用能力。而MCP(模型上下文协议)正是统一这一工具生态的关键接口。它类似于电子设备中的USB-C标准,为大模型提供了一种标准化的方式,去连接并调用文件系统、浏览器、数据库等多样化的外部工具。
面对日益庞大的工具生态,即便是OpenClaw这类强调原生命令行能力的项目,也选择通过适配器接入MCP,以扩展其功能边界。
然而,当AI的“手”能够触及更多系统资源时,安全风险也随之指数级增长。一个核心威胁在于:如果智能体调用的工具本身已被恶意篡改呢?或者,工具返回的看似正常的错误信息中,实则嵌入了隐蔽的攻击指令?
一旦大模型不加甄别地执行了这些指令,用户的隐私数据、本地文件乃至整个服务器的控制权,都可能面临直接泄露的风险。
填补安全测评空白:MSB基准的诞生
为系统评估MCP生态的安全风险,北京邮电大学等机构的研究团队推出了首个针对MCP协议的安全基准:MSB。其研究揭示了一个严峻现实:针对MCP工作流每个阶段的攻击均能奏效,且性能越强的模型,在某些攻击下反而越脆弱。这项研究已被ICLR 2026接收。
MCP协议下的三层安全风险
图1:MCP攻击框架
MCP在扩展智能体能力的同时,也显著扩大了其攻击面。一个标准的MCP工具调用流程可分解为三个关键阶段:
1. 任务规划:智能体解析用户意图,依据工具的名称与描述,从可用工具列表中做出选择。
2. 工具调用:智能体向选定工具发送结构化请求,并传入执行所需的参数。
3. 响应处理:智能体接收并解析工具返回的执行结果,基于此进行后续推理或生成最终输出。
值得注意的是,上述每个交互环节都可能成为攻击入口。MSB基准正是为全面评估基于MCP的智能体安全性而设计,其核心价值体现在以下三个方面。
系统化的MCP攻击分类体系
在MCP工作流中,智能体通过工具标识、参数及响应与外部交互,这些交互点均可被利用。MSB依据攻击途径和交互阶段,将攻击类型系统分类如下:
工具签名攻击:发生在任务规划阶段,攻击者针对工具的名称和描述进行篡改。具体包括:
- 名称冲突:注册一个与常用工具名称高度相似的恶意工具,诱导智能体误选。
- 偏好操纵:在工具描述中植入带有诱导性的宣传语,影响智能体的决策逻辑。
- 提示注入:直接在工具描述中嵌入可被模型执行的恶意指令。
工具参数攻击:发生在工具调用阶段,攻击者通过操纵传入参数实施攻击。例如:
- 越权参数:设置超出工具正常功能边界的参数,利用参数传递引发信息泄露或越权操作。
工具响应攻击:发生在响应处理阶段,攻击者篡改或伪造工具的返回结果。包括:
- 用户模拟:在响应中冒充用户身份,下达新的恶意指令。
- 虚假错误:返回一个虚假的工具执行失败信息,并诱导智能体遵循特定恶意指令以“修复”错误。
- 工具重定向:指示智能体停止当前调用,转而调用另一个指定的恶意工具。
检索注入攻击:同样发生在响应处理阶段,但攻击载体是工具响应中引入的外部资源。
- 检索注入:通过工具响应引入嵌入了恶意指令的外部文档或数据,从而污染模型上下文。
混合攻击:横跨多个阶段,综合利用上述多种攻击手法,形成复合型攻击链。
基于真实环境的执行套件
MSB摒弃了模拟评测,转而构建了真实的MCP服务器环境。它覆盖10个现实应用场景、405个真实工具和2000个攻击实例。所有测试均通过MCP协议执行真实工具调用,能够直接观测攻击对实际系统状态造成的破坏,从而更精准地评估风险。
平衡性能与安全的新指标:NRP
在智能体安全评估中,仅关注攻击成功率存在明显缺陷。一个为求安全而拒绝所有工具调用的智能体,其攻击成功率可能为零,但实用价值同样归零。
为此,MSB提出了一个综合性指标——净弹性性能。其计算公式为:NRP = PUA × (1 - ASR)。其中,PUA代表智能体在对抗环境中仍能成功完成用户任务的比例。NRP旨在量化智能体在抵御攻击的同时保持核心功能可用性的整体韧性,为权衡安全与性能提供了关键依据。
图2:NRP与ASR、PUA的关系示意。
实验结果揭示的严峻现实
所有攻击方式均有效
图3:主实验结果。
研究团队使用MSB对GPT-5、DeepSeek-V3.1、Claude 4 Sonnet、Qwen3等10款主流大模型进行了测试。结果显示,所有攻击方式均能产生效果,总体平均攻击成功率达到了40.35%。
一个关键发现是,MCP引入的新型攻击(如用户模拟、虚假错误)更具侵略性,其成功率高于传统的提示注入攻击。而混合攻击则展现出协同效应,其成功率高于构成它的任一单一攻击。
一个反直觉的结论:能力越强,风险越高?
不同指标间的关联揭示了一个值得警惕的现象:工具调用能力更强的模型,在某些攻击面前可能更脆弱。
图4:PUA与ASR的关系。
在MSB的测试框架中,完成攻击任务本身也需要智能体成功调用工具(例如,使用文件读取工具来窃取信息)。因此,指令遵循与工具调用能力越强的模型,虽然实用性能更高,但其攻击成功率也相应更高。这一发现凸显了MCP安全漏洞在实际部署中的高风险性。
全阶段、多工具环境下的普遍威胁
图5:不同阶段和工具配置下的ASR。
深入分析表明,MCP工作流的所有阶段都存在安全弱点,其中工具调用阶段模型的防御最为薄弱。
此外,攻击的有效性并不依赖于孤立环境。即使在为智能体配备了多个无害工具的真实场景工具包中,名称冲突、偏好操纵和工具重定向等诱导式攻击,依然能取得显著的成功率。这意味着,仅靠提供“安全”工具列表,无法构建有效的安全防线。
总结与展望
OpenClaw等项目的兴起,标志着智能体正从“思考”走向“行动”。MSB基准在此背景下应运而生,它系统性地测绘了MCP生态的攻击面,并为智能体安全研究提供了一个可复现、可量化的系统性评测框架。
过去的大模型安全研究多集中于提示注入等文本层面的对抗。MSB的研究则表明,当AI开始通过工具与真实系统交互时,攻击面已从纯文本空间扩展至整个工具调用链。随着智能体逐渐成为AI应用的主流范式,其安全性将是决定这场技术变革能否稳健落地的关键基石。





