Agent安全重构:从龙虾到Agentic Web深度解析

2026-06-24阅读 0热度 0
AI Agent Agent安全

OpenClaw的突然走红,将一项长期停留在技术圈内的底层变革,首次清晰地推到了公众视线之中。

当一个智能体能够跨应用执行操作、调用各类工具,并在几乎零人工介入的情况下完成复杂任务链时,人们第一次直观地看到:AI正从“生成内容的工具”进化为“可以动手做事的行动者”。就在这一刻,安全问题迅速成为焦点。

但一个更值得深究的现象是:几乎所有关于Agent安全的讨论,仍然高度集中于模型层面——输入是否被注入、输出是否越界、对齐是否失效。这条讨论路径本身没有问题,但它隐含了一个前提:安全问题主要发生在“模型”这个单点上。

这个前提可能正在瓦解。当Agent不再只是被动响应指令,而是持续接收来自多个来源的信息、在多组件结构中自主决策、并通过工具链将决策转化为真实动作时,“安全”所指的对象,已不再是单一模型,而是一个由模型、记忆、工具、运行环境以及交互链路共同编织的系统。

在这个系统中,风险不一定以“错误输出”的形式出现,也不一定以“瞬间失控”的方式爆发。它可能表现为决策过程中的方向偏移、信息在各链路间的传递与放大,甚至是跨组件、跨主体之间相互干扰导致的连锁反应。

这也意味着,Agent安全的核心问题,正从“是否安全”转向“如何被影响”。

在论文《From Secure Agentic AI to Secure Agentic Web》中,上海交通大学、上海创智学院张伟楠团队正是立足于这一转变,尝试将Agent安全从模型层面的鲁棒性议题,重新置于系统结构与运行机制中进行系统性审视。

围绕这一议题,AI科技评论与论文第一作者邓智航进行了深度对话。以下内容在不改变原意的基础上,对访谈内容进行了整理与呈现,力求还原其对于Agent安全问题“从模型走向系统”的整体认知框架。

对话邓智航|以「龙虾」为起点,起底从单个 Agent 到 Agentic Web 的安全重构

Agent 安全,被解读错了?

OpenClaw的爆火让Agent安全话题迅速升温,但你会发现大家的讨论几乎都集中在提示词注入、越狱这类表层问题上。这其实是一个非常普遍的认知偏差。

目前大多数人在谈论Agent安全时,仍然停留在这些“浅层”问题上,本质上还是在关注模型输出这一环节。但实际上,Agent早已不是只生成文本的系统。过去的聊天机器人,输入一段文本、输出一段文本,而现在的Agent会调用工具、写入长期记忆、持续与外部环境交互。

在这种背景下,安全问题的重心必须转移——从“模型会不会说错话”转向“整个系统在开放环境中是否可控、可审计、可约束”。这是当前最重要的视角转换。

这意味着,风险不再只是“说错话”,而是能直接改变现实世界的状态。因为Agent现在能调用工具、操作外部系统,它的行为已经跨越了内容生成层,可以直接转化为具体动作。例如,它可以删除文件、泄露隐私,甚至在获取到敏感信息后自动调用邮件系统发送给攻击者。所以当下问题不仅是“生成是否安全”,更是“执行层面是否安全”——这一变化是本质性的。

那么,驱动这种质变的关键因素是什么?很多人首先想到工具调用。工具调用确实重要,但如果只选一个更核心的驱动因素,那应是Agent在开放环境中的自主行动能力。工具调用只是能力的接口,它让Agent能做更多事,但真正让安全问题发生质变的,是Agent开始在一个动态、复杂甚至带有对抗性的环境中进行感知、判断和执行。

比如网页中的内容、文档中的信息、第三方服务返回的数据,这些都会进入Agent的决策流程,共同构成一个更大的风险面。所以关键不仅是“能不能调用工具”,更是“在什么环境中行动,以及如何行动”。

在论文中,团队将威胁分为提示词、环境、记忆、工具链等多个类别。如果从攻击者视角来看,这些攻击有一个统一的本质——争夺对Agent的决策控制权。无论是提示词攻击、环境注入、记忆投毒,还是工具链上的漏洞,它们发生在不同模块,但本质上都是在影响Agent的理解能力和认知过程。

因此安全问题的核心,不是某个漏洞被触发,而是Agent在看似正常的状态下被悄悄带偏。这种“控制权的转移”,才是所有攻击最关键的共性。

既然提到环境,是不是可以理解为,外部世界本身就是Agent的输入?这个理解完全正确。对人类而言,网页主要用来阅读和判断信息;但对Agent来说,它通常不会像人那样进行复杂推理,而是把网页、文件以及工具返回的内容直接当作输入,用来影响其任务规划和行为决策。

所以从系统安全角度,我们需要将整个外部环境都视为潜在攻击面——默认它可能带有恶意意图,而不是默认它是可信的。

如果有人认为仅靠系统提示词和拒答机制就能解决大部分问题,这种想法远远不够。首先,系统提示词本身就可能被篡改或攻击;其次,许多攻击并非通过用户正面输入进入系统,而是来自网页内容、工具返回,甚至跨Agent通信。

因此系统提示词和拒答机制只是第一层护栏,很重要,但无法覆盖整个Agent系统的攻击面。真正可靠的安全方案,需要将工具权限控制、运行时监控、协议级校验以及持续红队测试结合起来,构建一个更完整的安全体系。本质上,这是一个生态级的问题。

在论文中,团队将工具链风险类比为供应链问题。这个类比很直观。风险不一定来自模型本身,也可能来自它依赖的第三方工具、API或插件。比如一个被污染的工具提供方、一个返回结果不可靠的接口,或者多个看似安全的工具组合调用时产生的联动效应,都可能引发严重后果。因此在Agent系统中,工具链相当于一个供应链,安全问题也就变成了供应链安全问题。

那么,像MCP(Model Context Protocol)这种统一工具调用方式,一方面提升能力,另一方面是否也在放大风险?这种双重性非常明显。一方面,MCP提供了统一的上下文和工具交互方式,使不同系统更方便协作,确实大幅提升了Agent能力。但另一方面,它作为统一入口,也会将权限问题、信任问题以及潜在的污染风险集中放大。

所以关键不在于是否使用MCP,而在于使用这些能力的同时,是否同步设计了对应的安全机制。本质上,能力越强,风险面越大。

当前围绕Agent安全的讨论中,哪些风险被高估了,哪些又被低估了?被高估的主要是那些容易发现的风险,比如单轮越狱或即时攻破,这类问题因为直观所以更容易被关注。但被低估的是一些更接近真实部署场景的问题:长期记忆污染、Agent之间的传播效应、行为偏移。

这些问题通常不会立即爆发,也不易被察觉,但会在长期进程中持续影响Agent的行为。一个更“聪明”的攻击不会让Agent当场失控,而是会慢慢改变它的偏好、信任对象和决策倾向,使它在众多看似正常的决策中逐渐偏移。这种风险更值得警惕。

问题,不再局限于一个 Agent

如果Agent之间形成网络,会带来哪些新变化?一个关键变化是:我们原来在互联网中默认请求的另一端是“人”,许多信任关系建立在这个隐含假设之上。但在Agentic Web(智能体网络)中,这个前提被打破,因为请求可能来自另一个Agent,甚至多层Agent的委托与自动决策。

这意味着,原来依赖常识建立的信任关系已经失效,必须转化为显式表达,并且需要具备可验证、可审计、可追踪的能力。

这是否也意味着一旦出问题,责任追溯会变得极其困难?是的,这是一个非常现实的问题。如果是人说错话,我们可以直接找到这个人;但如果Agent出现问题,我们很难判断它是自身判断错误、被其他Agent误导,还是某个中间环节被污染。

在这种情况下,需要一整套审计和追溯机制,否则就会变成一层层往上追,这个过程极其复杂,类似于追查资金来源的链条。

那么,会不会出现一种攻击,不是立刻爆发,而是长期潜伏?这种情况不仅可能,而且概率很高。更成熟的攻击方式不会马上制造一个可被发现的故障,而是会悄悄改变Agent的偏好、信任对象以及行为倾向,让它在大量看似正常的微小决策中持续偏移。相比瞬间失控,这种长期行为漂移更危险——因为它更隐蔽,也更难被检测。

能力和安全之间的矛盾应如何处理?这是一个不可避免的张力。Agent能力越强,可访问的上下文越多、可调用的工具越多、自主性越高,相应的风险也会增加。如果把权限收紧,能力又会受限。

所以问题不在于能否消除这种张力,而在于能否将其设计成一个可控的系统——通过分级授权、实时监测以及事后追溯等机制,将该张力转化为一种可管理的状态。

未来两三年,Agent安全的分水岭会出现在哪里?关键在于,整个行业能否将身份、授权、溯源以及运行时治理这些能力真正做成基础设施。如果这些基础设施建立起来,Agent才有可能从“能用但危险”走向“可扩展且可治理”。

如果只是依赖提示词工程或局部补丁式防御,一旦Agent大规模进入开放网络,这种方式根本无法支撑。

这种“安全基础设施”可能以什么形式出现?具体形式仍需行业探索,但可以做一个类比。两年前没有MCP时,各家的工具调用方式完全不统一,不同系统之间难以互通。而MCP出现后,通过统一协议,工具调用这一层被标准化,Agent能力因此大幅提升。

未来的安全机制,也可能以类似“协议”的形式出现——通过统一的安全协议,让整个Agent生态在运行过程中更加安全。

对话邓智航|以「龙虾」为起点,起底从单个 Agent 到 Agentic Web 的安全重构

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策