LASM安全深度测评：Agent系统的七层攻击面解析与防护指南

2026-05-09阅读 0热度 0

LASM

当前Agent安全研究领域存在一个显著的结构性失衡：大量学术与工程资源都集中在模型层和工具层的即时、单会话攻击上；而更贴近实际生产环境的高层级、慢变量、跨会话安全风险，却长期处于被忽视的状态。

其根源在于，传统大语言模型本质上是无状态的问答系统，而智能体则是具备跨步骤、跨组件、跨环境执行能力的自主系统。两者所面临的安全挑战，在维度和复杂性上存在本质差异。

以往，我们习惯用“提示注入”、“越狱”、“数据投毒”等标签来归类风险。这种分类法虽具参考价值，但其局限性正日益凸显。表面上，许多攻击都可被归入“提示注入”范畴，但其实际发生的“攻击面”却截然不同——有的作用于模型输入侧，有的潜伏在工具调用返回的结果中，有的发生在长期记忆的写入阶段，还有的藏匿于多智能体间的通信链路里。名称相似，但攻击的入口点、利用路径和控制点却千差万别。

这正是LASM（分层攻击面模型）框架提出的核心动因。它主张，Agent安全分析不能止步于“这是什么攻击”的定性描述，必须深入回答：“攻击命中了系统的哪一层？”“它穿过了哪条信任边界？”“又该在哪个环节部署防御？”简言之，LASM的目标不是编纂另一份风险术语表，而是绘制一张能够真正指导工程实践的安全架构蓝图。

从方法论上看，这篇论文更接近于一篇系统综述。作者系统检索了IEEE Xplore、ACM Digital Library、arXiv和Google Scholar等主流学术数据库，时间范围覆盖2024年1月至2025年4月，初步筛选出1247篇相关文献，最终对94篇核心论文进行了深度分析与编码。

其真正价值不在于“分析了多少文献”，而在于作者如何重新组织这些知识。它摒弃了常见的“攻击类型分类法”，而是将所有研究成果映射到一个全新的分析框架——LASM之中。该框架包含两个核心分析维度：

第一个维度是系统层级，即论文定义的七层攻击面；第二个维度是攻击的时间性，即攻击载荷从植入到最终产生危害所经历的时间跨度。

当这两个维度交叉结合时，LASM便从一个抽象概念，转化为一个能够“定位现有研究、并清晰识别空白领域”的实用分析工具。作者得出的结论极具启发性：当前研究高度集中于模型层与工具层的即时、单会话攻击；而那些更符合真实Agent部署场景的高层级、慢变量、跨会话风险，相关研究却严重匮乏。

七层攻击面：从模型底座到系统治理

LASM，全称分层攻击面模型。它将一个完整的Agent系统解构为七个层次，每一层都对应着不同的核心资产、信任边界、典型攻击手法以及相应的防御切入点。

第一层，基础模型层。 这是整个系统的基石，关注模型权重、对齐机制、训练过程本身的安全风险，例如越狱攻击、对抗性提示、后门模型、训练数据污染等。这一层继承了传统大模型安全的诸多议题，但在Agent架构下，它仅是安全挑战的起点，而非终点。

第二层，认知层。 这是Agent进行任务规划、逻辑推理、目标管理与步骤分解的“决策中枢”。Agent并非简单应答，而是会形成并执行行动计划。因此，风险形态也随之演变：攻击者可能不再追求即时输出有害内容，转而诱导Agent形成错误的规划链路，使其在后续执行中逐步偏离正轨。这类风险更接近于“思维被误导”，而非“回答被劫持”。

第三层，记忆层。 这一层是Agent与普通LLM的关键分界线。长期记忆、RAG检索记忆、用户偏好记忆，赋予了系统跨会话持续运作的能力，同时也引入了持续性的攻击界面。记忆一旦被投毒，危害未必立即显现，而可能在未来的某个看似无关的任务中被触发，具有极强的隐蔽性与延迟性。

第四层，工具执行层。 这一层涉及Agent对外部工具（如API、文件系统、代码解释器、浏览器、数据库等）的调用与执行。现实中最危险的Agent风险往往发生于此，因为一旦工具被调用，模型输出就不再只是“文本”，而是会转化为真实的“行动”。此时，注入攻击、越权操作、能力滥用等问题会迅速升级为实际后果。

第五层，多Agent协同层。 当系统从单智能体演变为多智能体协作网络时，安全问题便从“单点风险”升级为“网络风险”。一个权限较低的子Agent被攻破后，可能通过正常的任务委托、消息传递等流程，将有害影响扩散至整个网络，形成级联效应。

第六层，生态与供应链层。 这一层关注框架、插件、MCP服务器、提示模板、模型包、依赖库等更广泛的运行生态。Agent的能力越来越依赖于外部生态组件的集成。因此，供应链投毒、依赖污染、恶意插件等，成为了新的、更复杂的攻击入口。

第七层，治理层。 这看似不属于传统的“技术层”，却至关重要。对于一个高自主性的Agent系统，一旦发生错误或恶意行为，后续的问责、审计、追溯需求便随之而来。日志记录、行为归因、实时监控、持续治理等能力，均落在此层，它决定了系统是否具备可靠的责任追溯链条。

LASM的深刻之处在于，它并未将这七层视为彼此孤立的模块，而是将其看作一条纵向贯通的风险传导链。现实中的Agent攻击，往往从某一层渗透进入，再穿透至另一层，最终在影响力更大的位置释放危害。

四类攻击时间性：风险何时生效？

如果说七层攻击面回答了“攻击发生在哪”，那么论文提出的T1到T4分类，则精准地回答了另一个关键问题：“攻击何时生效？”

作者依据时间性将攻击划分为四类：

T1，即时攻击。 攻击载荷与危害后果发生在同一次推理过程中，是最常见的类型，例如单轮对话中的提示注入。

T2，单会话持久攻击。 攻击在同一个会话内持续影响后续多轮交互行为，但尚未跨越会话边界。

T3，跨会话累积攻击。 这是需要高度警惕的类型，典型场景是长期记忆投毒。攻击者今日写入一条看似无害的信息，未来Agent在另一任务中检索到它时，其行为才逐渐发生偏转。

T4，长期系统性攻击。 时间边界被彻底模糊，攻击可能已深入模型参数、训练过程或生态依赖之中，甚至无法清晰定位具体的“载荷植入时刻”。

这个时间维度至关重要，因为它直接揭示了当前许多安全防护与评测体系的盲区。多数产品擅长检测T1攻击，部分能覆盖T2，但一旦风险升级为T3或T4，传统的单轮检测、单次审查方法往往就失效了。换言之，Agent安全的挑战，不仅在于攻击变得更复杂，更在于攻击开始“变慢、变长、变得更隐蔽”了。

记忆层：最危险也最易被低估的战场

在七层之中，记忆层的安全讨论尤为关键。原因很直接：记忆让Agent变得更智能、更个性化，但也为“持续性影响”创造了条件。传统大模型大多是无状态的，会话结束，影响即告终结。而Agent一旦拥有长期记忆，攻击便获得了一个可以长期潜伏的载体。

论文特别指出，记忆投毒最棘手之处，恰恰在于其“表现正常”。写入时像一条普通记忆，读取时像一次标准检索，孤立审视任何单次交互都可能毫无异常。然而，将时间线拉长后，系统的整体行为却已被悄然重塑。

这也意味着，记忆安全绝不能仅依赖内容过滤，而必须综合来源验证、写入权限管理、命名空间隔离、跨会话审计和行为一致性校验。从工程视角看，许多团队关注记忆的召回率与个性化体验；但从安全视角看，记忆本质上是一个高风险的“长期状态数据库”，它存储的不仅是数据，更是能影响未来决策的“语义偏置”。

工具层：问题的根源是“信任倒置”

论文对工具执行层的一个判断极为精准：许多安全问题的根源并非工具本身，而是系统的信任关系被倒置了。

在理想设计中，Agent应优先遵循开发者预设的约束和系统策略，将网页内容、API返回值等环境信息视为低信任度的数据输入。但现实中，大量Agent实现恰恰会将这些环境输入重新拼接到上下文中，甚至将其当作高优先级的指令来解析和执行。

于是，攻击者无需直接操作用户输入，只需污染Agent可能访问的外部环境，便有机会通过“间接注入”改变其行为轨迹。

这类问题的危险性在于，它极易从“文本风险”升级为“行动风险”。如果Agent仅用于对话，一次误导的后果可能停留在输出层面；但如果它绑定了代码执行、邮件发送、文件操作等能力，那么一次环境侧的注入，就可能引发真实的越权操作。

因此，Agent安全不能只停留在提示词检测。更有效的工程思路是：对外部输入进行显式的信任分层，严格隔离数据与指令，对工具调用实施最小权限原则和沙箱控制，并将高风险、不可逆的操作设计为必须经过确认的流程。

多Agent与供应链：风险的放大器

LASM将多Agent协同层和生态供应链层单独列出，极具前瞻性。因为一旦系统从“单个Agent”演进为“多Agent协作网络”，风险的分析单位就必须从单点切换到整个网络。单个Agent再安全，也不等同于系统整体安全。

一个低权限Agent被污染后，可能通过完全正常的任务委托、消息传递机制，将有害影响逐层扩散。这个过程未必需要恶意代码，它可以完全隐藏在“正常协作”的流程之中。

到了供应链层，问题则更为深远。如今Agent的能力越来越依赖外部插件、框架、提示模板和第三方服务。安全风险也随之从“模型本身是否安全”，扩展到“整个运行生态是否可信”。

论文提出的ABOM（Agent物料清单）概念，正是在此背景下应运而生。其核心思想是借鉴传统软件安全中的SBOM，明确记录Agent的关键组成部分与依赖关系，包括模型版本、工具权限、系统提示、外部服务来源等。

这个方向值得产业界高度重视。因为未来的许多Agent风险，可能并非源于模型能力缺陷，而是来自生态组件过于复杂、权限关系混乱、来源验证薄弱。谁接入了什么工具、使用了哪个版本、哪些插件拥有写权限——这些都将成为真实部署中更高频、更难以追溯的安全隐患。

Agent安全本质是分布式系统安全问题

这篇论文最值得肯定的价值在于，它没有将Agent安全简单归结为一份更长的攻击清单，而是试图构建一种更贴近工程现实的系统性观察视角。

我们讨论安全时，容易陷入“罗列更多风险点”的惯性思维。但对于Agent这类复杂系统而言，风险从来不是点状的，而是沿着状态、记忆、工具、通信、生态、治理等路径传导的。某一层的微小缺陷，可能在另一层演变为高影响事件；某个当下无害的写入，也可能在未来某次检索中成为触发条件。

LASM的价值正在于此。它提醒我们，Agent安全并非“模型安全加上一点工具风控”那么简单，而是一个典型的分布式系统安全问题。必须清晰识别组件边界、信任边界、时间维度、供应链以及治理问责机制，否则很可能在底层做了大量防护，却在更高层级留下致命漏洞。

框架带来的三点启发

第一，安全控制点必须前移与扩散。 对于Agent，输入输出审核仍是基础防线，但绝非全部。防护重点应逐步转向记忆写入控制、工具调用约束、消息链路验证、外部组件准入，以及全链路的行为审计与责任追踪。

第二，安全评测体系亟待升级。 过去的大量基准测试聚焦于单轮攻击、即时危害和表层输出。未来更需要测试多会话、长时间跨度、延迟触发、风险链路传播和慢性行为漂移。否则，许多在“评测中表现安全”的Agent，在真实长期部署中可能不堪一击。

第三，安全产品的形态将发生演变。 它不再只是模型前后添加的“护栏”，而更像一个围绕运行时环境构建的“安全底座”。这个底座需要整合内容安全、权限控制、依赖治理、资产清单、日志审计、行为监控和策略编排等多元能力。

从这个意义上说，LASM不仅是一个研究框架，也在悄然重新定义Agent安全赛道的产品与能力边界。

局限与展望

当然，作为一篇系统综述与概念框架论文，它的主要优势在于“系统性识别问题”，而非“提供即时的解决方案”。其对文献的编码和归类具有一定主观性，各层级之间也存在交叠，实际系统未必能如此工整地切割。

此外，Agent技术生态演进极快，尤其是MCP协议、工具链和治理实践在过去一年变化迅猛。论文的结论虽具框架性价值，但具体到某些风险的比例分布和研究覆盖情况，仍需后续工作持续跟踪与更新。

然而，这些局限并不折损其重要性。恰恰因为行业尚未形成稳定共识，LASM这样的框架才更显珍贵。它至少提供了一套清晰的坐标系，让安全讨论不至于继续在“罗列更多攻击类型”的表层道路上原地踏步。

结语：视角的升级

如果要用一句话概括这篇论文的核心贡献，那就是：它真正提醒我们的，并非Agent有多少种新型攻击，而是审视Agent安全的整体视角必须进行系统性升级。

过去，我们关注模型是否会被诱导；现在，我们必须审视一个拥有记忆、工具、协作能力和复杂供应链的自治系统，会在什么层级、穿越哪些信任边界、以何种时间尺度出现问题。LASM的七层攻击面与T1-T4时间维度，共同提供了一种更成熟、更工程化的理解框架。

对当下的Agent行业而言，这种框架感尤为稀缺。许多团队已在积极开发Agent应用，却尚未建立与之匹配的“安全架构地图”。没有地图，就容易在热闹但次要的地方布防，却在真正危险的地带毫无准备。

LASM的价值，就在于率先绘制了这张地图。