LASM安全深度测评:Agent系统的七层攻击面解析与防护指南
当前Agent安全研究领域存在一个显著的结构性失衡:大量学术与工程资源都集中在模型层和工具层的即时、单会话攻击上;而更贴近实际生产环境的高层级、慢变量、跨会话安全风险,却长期处于被忽视的状态。
其根源在于,传统大语言模型本质上是无状态的问答系统,而智能体则是具备跨步骤、跨组件、跨环境执行能力的自主系统。两者所面临的安全挑战,在维度和复杂性上存在本质差异。
以往,我们习惯用“提示注入”、“越狱”、“数据投毒”等标签来归类风险。这种分类法虽具参考价值,但其局限性正日益凸显。表面上,许多攻击都可被归入“提示注入”范畴,但其实际发生的“攻击面”却截然不同——有的作用于模型输入侧,有的潜伏在工具调用返回的结果中,有的发生在长期记忆的写入阶段,还有的藏匿于多智能体间的通信链路里。名称相似,但攻击的入口点、利用路径和控制点却千差万别。
这正是LASM(分层攻击面模型)框架提出的核心动因。它主张,Agent安全分析不能止步于“这是什么攻击”的定性描述,必须深入回答:“攻击命中了系统的哪一层?”“它穿过了哪条信任边界?”“又该在哪个环节部署防御?”简言之,LASM的目标不是编纂另一份风险术语表,而是绘制一张能够真正指导工程实践的安全架构蓝图。
从方法论上看,这篇论文更接近于一篇系统综述。作者系统检索了IEEE Xplore、ACM Digital Library、arXiv和Google Scholar等主流学术数据库,时间范围覆盖2024年1月至2025年4月,初步筛选出1247篇相关文献,最终对94篇核心论文进行了深度分析与编码。
其真正价值不在于“分析了多少文献”,而在于作者如何重新组织这些知识。它摒弃了常见的“攻击类型分类法”,而是将所有研究成果映射到一个全新的分析框架——LASM之中。该框架包含两个核心分析维度:
第一个维度是系统层级,即论文定义的七层攻击面;第二个维度是攻击的时间性,即攻击载荷从植入到最终产生危害所经历的时间跨度。
当这两个维度交叉结合时,LASM便从一个抽象概念,转化为一个能够“定位现有研究、并清晰识别空白领域”的实用分析工具。作者得出的结论极具启发性:当前研究高度集中于模型层与工具层的即时、单会话攻击;而那些更符合真实Agent部署场景的高层级、慢变量、跨会话风险,相关研究却严重匮乏。
七层攻击面:从模型底座到系统治理
LASM,全称分层攻击面模型。它将一个完整的Agent系统解构为七个层次,每一层都对应着不同的核心资产、信任边界、典型攻击手法以及相应的防御切入点。
第一层,基础模型层。 这是整个系统的基石,关注模型权重、对齐机制、训练过程本身的安全风险,例如越狱攻击、对抗性提示、后门模型、训练数据污染等。这一层继承了传统大模型安全的诸多议题,但在Agent架构下,它仅是安全挑战的起点,而非终点。
第二层,认知层。 这是Agent进行任务规划、逻辑推理、目标管理与步骤分解的“决策中枢”。Agent并非简单应答,而是会形成并执行行动计划。因此,风险形态也随之演变:攻击者可能不再追求即时输出有害内容,转而诱导Agent形成错误的规划链路,使其在后续执行中逐步偏离正轨。这类风险更接近于“思维被误导”,而非“回答被劫持”。
第三层,记忆层。 这一层是Agent与普通LLM的关键分界线。长期记忆、RAG检索记忆、用户偏好记忆,赋予了系统跨会话持续运作的能力,同时也引入了持续性的攻击界面。记忆一旦被投毒,危害未必立即显现,而可能在未来的某个看似无关的任务中被触发,具有极强的隐蔽性与延迟性。
第四层,工具执行层。 这一层涉及Agent对外部工具(如API、文件系统、代码解释器、浏览器、数据库等)的调用与执行。现实中最危险的Agent风险往往发生于此,因为一旦工具被调用,模型输出就不再只是“文本”,而是会转化为真实的“行动”。此时,注入攻击、越权操作、能力滥用等问题会迅速升级为实际后果。
第五层,多Agent协同层。 当系统从单智能体演变为多智能体协作网络时,安全问题便从“单点风险”升级为“网络风险”。一个权限较低的子Agent被攻破后,可能通过正常的任务委托、消息传递等流程,将有害影响扩散至整个网络,形成级联效应。
第六层,生态与供应链层。 这一层关注框架、插件、MCP服务器、提示模板、模型包、依赖库等更广泛的运行生态。Agent的能力越来越依赖于外部生态组件的集成。因此,供应链投毒、依赖污染、恶意插件等,成为了新的、更复杂的攻击入口。
第七层,治理层。 这看似不属于传统的“技术层”,却至关重要。对于一个高自主性的Agent系统,一旦发生错误或恶意行为,后续的问责、审计、追溯需求便随之而来。日志记录、行为归因、实时监控、持续治理等能力,均落在此层,它决定了系统是否具备可靠的责任追溯链条。
LASM的深刻之处在于,它并未将这七层视为彼此孤立的模块,而是将其看作一条纵向贯通的风险传导链。现实中的Agent攻击,往往从某一层渗透进入,再穿透至另一层,最终在影响力更大的位置释放危害。
四类攻击时间性:风险何时生效?
如果说七层攻击面回答了“攻击发生在哪”,那么论文提出的T1到T4分类,则精准地回答了另一个关键问题:“攻击何时生效?”
作者依据时间性将攻击划分为四类:
T1,即时攻击。 攻击载荷与危害后果发生在同一次推理过程中,是最常见的类型,例如单轮对话中的提示注入。
T2,单会话持久攻击。 攻击在同一个会话内持续影响后续多轮交互行为,但尚未跨越会话边界。
T3,跨会话累积攻击。 这是需要高度警惕的类型,典型场景是长期记忆投毒。攻击者今日写入一条看似无害的信息,未来Agent在另一任务中检索到它时,其行为才逐渐发生偏转。
T4,长期系统性攻击。 时间边界被彻底模糊,攻击可能已深入模型参数、训练过程或生态依赖之中,甚至无法清晰定位具体的“载荷植入时刻”。
这个时间维度至关重要,因为它直接揭示了当前许多安全防护与评测体系的盲区。多数产品擅长检测T1攻击,部分能覆盖T2,但一旦风险升级为T3或T4,传统的单轮检测、单次审查方法往往就失效了。换言之,Agent安全的挑战,不仅在于攻击变得更复杂,更在于攻击开始“变慢、变长、变得更隐蔽”了。
记忆层:最危险也最易被低估的战场
在七层之中,记忆层的安全讨论尤为关键。原因很直接:记忆让Agent变得更智能、更个性化,但也为“持续性影响”创造了条件。传统大模型大多是无状态的,会话结束,影响即告终结。而Agent一旦拥有长期记忆,攻击便获得了一个可以长期潜伏的载体。
论文特别指出,记忆投毒最棘手之处,恰恰在于其“表现正常”。写入时像一条普通记忆,读取时像一次标准检索,孤立审视任何单次交互都可能毫无异常。然而,将时间线拉长后,系统的整体行为却已被悄然重塑。
这也意味着,记忆安全绝不能仅依赖内容过滤,而必须综合来源验证、写入权限管理、命名空间隔离、跨会话审计和行为一致性校验。从工程视角看,许多团队关注记忆的召回率与个性化体验;但从安全视角看,记忆本质上是一个高风险的“长期状态数据库”,它存储的不仅是数据,更是能影响未来决策的“语义偏置”。
工具层:问题的根源是“信任倒置”
论文对工具执行层的一个判断极为精准:许多安全问题的根源并非工具本身,而是系统的信任关系被倒置了。
在理想设计中,Agent应优先遵循开发者预设的约束和系统策略,将网页内容、API返回值等环境信息视为低信任度的数据输入。但现实中,大量Agent实现恰恰会将这些环境输入重新拼接到上下文中,甚至将其当作高优先级的指令来解析和执行。
于是,攻击者无需直接操作用户输入,只需污染Agent可能访问的外部环境,便有机会通过“间接注入”改变其行为轨迹。
这类问题的危险性在于,它极易从“文本风险”升级为“行动风险”。如果Agent仅用于对话,一次误导的后果可能停留在输出层面;但如果它绑定了代码执行、邮件发送、文件操作等能力,那么一次环境侧的注入,就可能引发真实的越权操作。
因此,Agent安全不能只停留在提示词检测。更有效的工程思路是:对外部输入进行显式的信任分层,严格隔离数据与指令,对工具调用实施最小权限原则和沙箱控制,并将高风险、不可逆的操作设计为必须经过确认的流程。
多Agent与供应链:风险的放大器
LASM将多Agent协同层和生态供应链层单独列出,极具前瞻性。因为一旦系统从“单个Agent”演进为“多Agent协作网络”,风险的分析单位就必须从单点切换到整个网络。单个Agent再安全,也不等同于系统整体安全。
一个低权限Agent被污染后,可能通过完全正常的任务委托、消息传递机制,将有害影响逐层扩散。这个过程未必需要恶意代码,它可以完全隐藏在“正常协作”的流程之中。
到了供应链层,问题则更为深远。如今Agent的能力越来越依赖外部插件、框架、提示模板和第三方服务。安全风险也随之从“模型本身是否安全”,扩展到“整个运行生态是否可信”。
论文提出的ABOM(Agent物料清单)概念,正是在此背景下应运而生。其核心思想是借鉴传统软件安全中的SBOM,明确记录Agent的关键组成部分与依赖关系,包括模型版本、工具权限、系统提示、外部服务来源等。
这个方向值得产业界高度重视。因为未来的许多Agent风险,可能并非源于模型能力缺陷,而是来自生态组件过于复杂、权限关系混乱、来源验证薄弱。谁接入了什么工具、使用了哪个版本、哪些插件拥有写权限——这些都将成为真实部署中更高频、更难以追溯的安全隐患。
Agent安全本质是分布式系统安全问题
这篇论文最值得肯定的价值在于,它没有将Agent安全简单归结为一份更长的攻击清单,而是试图构建一种更贴近工程现实的系统性观察视角。
我们讨论安全时,容易陷入“罗列更多风险点”的惯性思维。但对于Agent这类复杂系统而言,风险从来不是点状的,而是沿着状态、记忆、工具、通信、生态、治理等路径传导的。某一层的微小缺陷,可能在另一层演变为高影响事件;某个当下无害的写入,也可能在未来某次检索中成为触发条件。
LASM的价值正在于此。它提醒我们,Agent安全并非“模型安全加上一点工具风控”那么简单,而是一个典型的分布式系统安全问题。必须清晰识别组件边界、信任边界、时间维度、供应链以及治理问责机制,否则很可能在底层做了大量防护,却在更高层级留下致命漏洞。
框架带来的三点启发
第一,安全控制点必须前移与扩散。 对于Agent,输入输出审核仍是基础防线,但绝非全部。防护重点应逐步转向记忆写入控制、工具调用约束、消息链路验证、外部组件准入,以及全链路的行为审计与责任追踪。
第二,安全评测体系亟待升级。 过去的大量基准测试聚焦于单轮攻击、即时危害和表层输出。未来更需要测试多会话、长时间跨度、延迟触发、风险链路传播和慢性行为漂移。否则,许多在“评测中表现安全”的Agent,在真实长期部署中可能不堪一击。
第三,安全产品的形态将发生演变。 它不再只是模型前后添加的“护栏”,而更像一个围绕运行时环境构建的“安全底座”。这个底座需要整合内容安全、权限控制、依赖治理、资产清单、日志审计、行为监控和策略编排等多元能力。
从这个意义上说,LASM不仅是一个研究框架,也在悄然重新定义Agent安全赛道的产品与能力边界。
局限与展望
当然,作为一篇系统综述与概念框架论文,它的主要优势在于“系统性识别问题”,而非“提供即时的解决方案”。其对文献的编码和归类具有一定主观性,各层级之间也存在交叠,实际系统未必能如此工整地切割。
此外,Agent技术生态演进极快,尤其是MCP协议、工具链和治理实践在过去一年变化迅猛。论文的结论虽具框架性价值,但具体到某些风险的比例分布和研究覆盖情况,仍需后续工作持续跟踪与更新。
然而,这些局限并不折损其重要性。恰恰因为行业尚未形成稳定共识,LASM这样的框架才更显珍贵。它至少提供了一套清晰的坐标系,让安全讨论不至于继续在“罗列更多攻击类型”的表层道路上原地踏步。
结语:视角的升级
如果要用一句话概括这篇论文的核心贡献,那就是:它真正提醒我们的,并非Agent有多少种新型攻击,而是审视Agent安全的整体视角必须进行系统性升级。
过去,我们关注模型是否会被诱导;现在,我们必须审视一个拥有记忆、工具、协作能力和复杂供应链的自治系统,会在什么层级、穿越哪些信任边界、以何种时间尺度出现问题。LASM的七层攻击面与T1-T4时间维度,共同提供了一种更成熟、更工程化的理解框架。
对当下的Agent行业而言,这种框架感尤为稀缺。许多团队已在积极开发Agent应用,却尚未建立与之匹配的“安全架构地图”。没有地图,就容易在热闹但次要的地方布防,却在真正危险的地带毫无准备。
LASM的价值,就在于率先绘制了这张地图。






