Agent安全重构：从龙虾到Agentic Web深度解析

2026-06-24阅读 0热度 0

AI Agent Agent安全

OpenClaw的突然走红，将一项长期停留在技术圈内的底层变革，首次清晰地推到了公众视线之中。

当一个智能体能够跨应用执行操作、调用各类工具，并在几乎零人工介入的情况下完成复杂任务链时，人们第一次直观地看到：AI正从“生成内容的工具”进化为“可以动手做事的行动者”。就在这一刻，安全问题迅速成为焦点。

但一个更值得深究的现象是：几乎所有关于Agent安全的讨论，仍然高度集中于模型层面——输入是否被注入、输出是否越界、对齐是否失效。这条讨论路径本身没有问题，但它隐含了一个前提：安全问题主要发生在“模型”这个单点上。

这个前提可能正在瓦解。当Agent不再只是被动响应指令，而是持续接收来自多个来源的信息、在多组件结构中自主决策、并通过工具链将决策转化为真实动作时，“安全”所指的对象，已不再是单一模型，而是一个由模型、记忆、工具、运行环境以及交互链路共同编织的系统。

在这个系统中，风险不一定以“错误输出”的形式出现，也不一定以“瞬间失控”的方式爆发。它可能表现为决策过程中的方向偏移、信息在各链路间的传递与放大，甚至是跨组件、跨主体之间相互干扰导致的连锁反应。

这也意味着，Agent安全的核心问题，正从“是否安全”转向“如何被影响”。

在论文《From Secure Agentic AI to Secure Agentic Web》中，上海交通大学、上海创智学院张伟楠团队正是立足于这一转变，尝试将Agent安全从模型层面的鲁棒性议题，重新置于系统结构与运行机制中进行系统性审视。

围绕这一议题，AI科技评论与论文第一作者邓智航进行了深度对话。以下内容在不改变原意的基础上，对访谈内容进行了整理与呈现，力求还原其对于Agent安全问题“从模型走向系统”的整体认知框架。

Agent 安全，被解读错了？

OpenClaw的爆火让Agent安全话题迅速升温，但你会发现大家的讨论几乎都集中在提示词注入、越狱这类表层问题上。这其实是一个非常普遍的认知偏差。

目前大多数人在谈论Agent安全时，仍然停留在这些“浅层”问题上，本质上还是在关注模型输出这一环节。但实际上，Agent早已不是只生成文本的系统。过去的聊天机器人，输入一段文本、输出一段文本，而现在的Agent会调用工具、写入长期记忆、持续与外部环境交互。

在这种背景下，安全问题的重心必须转移——从“模型会不会说错话”转向“整个系统在开放环境中是否可控、可审计、可约束”。这是当前最重要的视角转换。

这意味着，风险不再只是“说错话”，而是能直接改变现实世界的状态。因为Agent现在能调用工具、操作外部系统，它的行为已经跨越了内容生成层，可以直接转化为具体动作。例如，它可以删除文件、泄露隐私，甚至在获取到敏感信息后自动调用邮件系统发送给攻击者。所以当下问题不仅是“生成是否安全”，更是“执行层面是否安全”——这一变化是本质性的。

那么，驱动这种质变的关键因素是什么？很多人首先想到工具调用。工具调用确实重要，但如果只选一个更核心的驱动因素，那应是Agent在开放环境中的自主行动能力。工具调用只是能力的接口，它让Agent能做更多事，但真正让安全问题发生质变的，是Agent开始在一个动态、复杂甚至带有对抗性的环境中进行感知、判断和执行。

比如网页中的内容、文档中的信息、第三方服务返回的数据，这些都会进入Agent的决策流程，共同构成一个更大的风险面。所以关键不仅是“能不能调用工具”，更是“在什么环境中行动，以及如何行动”。

在论文中，团队将威胁分为提示词、环境、记忆、工具链等多个类别。如果从攻击者视角来看，这些攻击有一个统一的本质——争夺对Agent的决策控制权。无论是提示词攻击、环境注入、记忆投毒，还是工具链上的漏洞，它们发生在不同模块，但本质上都是在影响Agent的理解能力和认知过程。

因此安全问题的核心，不是某个漏洞被触发，而是Agent在看似正常的状态下被悄悄带偏。这种“控制权的转移”，才是所有攻击最关键的共性。

既然提到环境，是不是可以理解为，外部世界本身就是Agent的输入？这个理解完全正确。对人类而言，网页主要用来阅读和判断信息；但对Agent来说，它通常不会像人那样进行复杂推理，而是把网页、文件以及工具返回的内容直接当作输入，用来影响其任务规划和行为决策。

所以从系统安全角度，我们需要将整个外部环境都视为潜在攻击面——默认它可能带有恶意意图，而不是默认它是可信的。

如果有人认为仅靠系统提示词和拒答机制就能解决大部分问题，这种想法远远不够。首先，系统提示词本身就可能被篡改或攻击；其次，许多攻击并非通过用户正面输入进入系统，而是来自网页内容、工具返回，甚至跨Agent通信。

因此系统提示词和拒答机制只是第一层护栏，很重要，但无法覆盖整个Agent系统的攻击面。真正可靠的安全方案，需要将工具权限控制、运行时监控、协议级校验以及持续红队测试结合起来，构建一个更完整的安全体系。本质上，这是一个生态级的问题。

在论文中，团队将工具链风险类比为供应链问题。这个类比很直观。风险不一定来自模型本身，也可能来自它依赖的第三方工具、API或插件。比如一个被污染的工具提供方、一个返回结果不可靠的接口，或者多个看似安全的工具组合调用时产生的联动效应，都可能引发严重后果。因此在Agent系统中，工具链相当于一个供应链，安全问题也就变成了供应链安全问题。

那么，像MCP（Model Context Protocol）这种统一工具调用方式，一方面提升能力，另一方面是否也在放大风险？这种双重性非常明显。一方面，MCP提供了统一的上下文和工具交互方式，使不同系统更方便协作，确实大幅提升了Agent能力。但另一方面，它作为统一入口，也会将权限问题、信任问题以及潜在的污染风险集中放大。

所以关键不在于是否使用MCP，而在于使用这些能力的同时，是否同步设计了对应的安全机制。本质上，能力越强，风险面越大。

当前围绕Agent安全的讨论中，哪些风险被高估了，哪些又被低估了？被高估的主要是那些容易发现的风险，比如单轮越狱或即时攻破，这类问题因为直观所以更容易被关注。但被低估的是一些更接近真实部署场景的问题：长期记忆污染、Agent之间的传播效应、行为偏移。

这些问题通常不会立即爆发，也不易被察觉，但会在长期进程中持续影响Agent的行为。一个更“聪明”的攻击不会让Agent当场失控，而是会慢慢改变它的偏好、信任对象和决策倾向，使它在众多看似正常的决策中逐渐偏移。这种风险更值得警惕。

问题，不再局限于一个 Agent

如果Agent之间形成网络，会带来哪些新变化？一个关键变化是：我们原来在互联网中默认请求的另一端是“人”，许多信任关系建立在这个隐含假设之上。但在Agentic Web（智能体网络）中，这个前提被打破，因为请求可能来自另一个Agent，甚至多层Agent的委托与自动决策。

这意味着，原来依赖常识建立的信任关系已经失效，必须转化为显式表达，并且需要具备可验证、可审计、可追踪的能力。

这是否也意味着一旦出问题，责任追溯会变得极其困难？是的，这是一个非常现实的问题。如果是人说错话，我们可以直接找到这个人；但如果Agent出现问题，我们很难判断它是自身判断错误、被其他Agent误导，还是某个中间环节被污染。

在这种情况下，需要一整套审计和追溯机制，否则就会变成一层层往上追，这个过程极其复杂，类似于追查资金来源的链条。

那么，会不会出现一种攻击，不是立刻爆发，而是长期潜伏？这种情况不仅可能，而且概率很高。更成熟的攻击方式不会马上制造一个可被发现的故障，而是会悄悄改变Agent的偏好、信任对象以及行为倾向，让它在大量看似正常的微小决策中持续偏移。相比瞬间失控，这种长期行为漂移更危险——因为它更隐蔽，也更难被检测。

能力和安全之间的矛盾应如何处理？这是一个不可避免的张力。Agent能力越强，可访问的上下文越多、可调用的工具越多、自主性越高，相应的风险也会增加。如果把权限收紧，能力又会受限。

所以问题不在于能否消除这种张力，而在于能否将其设计成一个可控的系统——通过分级授权、实时监测以及事后追溯等机制，将该张力转化为一种可管理的状态。

未来两三年，Agent安全的分水岭会出现在哪里？关键在于，整个行业能否将身份、授权、溯源以及运行时治理这些能力真正做成基础设施。如果这些基础设施建立起来，Agent才有可能从“能用但危险”走向“可扩展且可治理”。

如果只是依赖提示词工程或局部补丁式防御，一旦Agent大规模进入开放网络，这种方式根本无法支撑。

这种“安全基础设施”可能以什么形式出现？具体形式仍需行业探索，但可以做一个类比。两年前没有MCP时，各家的工具调用方式完全不统一，不同系统之间难以互通。而MCP出现后，通过统一协议，工具调用这一层被标准化，Agent能力因此大幅提升。

未来的安全机制，也可能以类似“协议”的形式出现——通过统一的安全协议，让整个Agent生态在运行过程中更加安全。

Agent安全重构：从龙虾到Agentic Web深度解析

Agent 安全，被解读错了？

问题，不再局限于一个 Agent

相关阅读

最新教程

最新资讯