智能体安全测评：OpenClaw案例揭示日常聊天的潜在风险与防御策略

2026-05-24阅读 0热度 0

OpenClaw

新智元报道

今天的AI智能体，早已超越了“一问一答”的聊天机器人阶段。它们开始拥有长期记忆，能够记住你的偏好、延续未完成的任务，并自主调用邮件、日历乃至各种外部工具。换句话说，智能体正从一个临时的任务执行器，转变为一个持续陪伴、深度了解你的个性化协作者。

然而，这种能力的进化，也带来了一个更为隐蔽的安全隐患：如果智能体能够长期记住并学习你的习惯，那么这些记忆本身，是否足够安全？

过去，关于智能体安全的研究，焦点大多集中在显式攻击上，比如精心设计的恶意提示词、间接的提示注入，或是被污染的工具输出。但在个性化智能体的场景里，风险可能并非来自一个明确的“攻击者”。

图 1：没有恶意提示词，日常对话也可能「养歪」你的个性化Agent。临时偏好一旦被写入长期记忆，就可能在未来变成危险的默认规则。

最新的研究发现，即便没有黑客、没有恶意指令，仅仅是普通的日常聊天，也可能逐步“污染”个性化智能体的长期状态。这种风险不会在当下立刻引爆，而是像一颗种子，被悄悄写入长期记忆，在未来某个关键时刻，悄然改变智能体的默认行为逻辑。

一个智能体今天没有做错事，绝不意味着它没有把未来可能犯错的“规则”写进自己的状态里。

Agent长期状态被「养」歪

传统的提示注入攻击，更像是一次性的、目的明确的“外科手术”。而长期状态投毒，则是一种缓慢的“慢性漂移”：智能体没有立刻违规，却可能将一次临时的、上下文相关的“方便做法”，错误地归纳为未来所有类似场景的长期默认规则。

研究人员将这种现象定义为“非预期长期状态投毒”。其核心风险在于，智能体可能将用户某次为了赶时间而说的“这类小事以后不用每次都问我，直接处理就行”，泛化理解为对所有“低风险”操作的长期授权。未来，在处理邮件发送、文件修改甚至账户操作时，它可能会逐渐减少甚至跳过必要的确认步骤。用户并未真正授权所有未来操作，但智能体的行为边界已经被悄然改写。

这与传统攻击有本质区别。它并非源于外部恶意输入，而是产生于看似正常的日常交互；它也不是普通的模型“幻觉”，因为这种被错误固化的偏好会跨会话保留，持续影响未来的安全决策。

图2：传统任务型Agent通常在单次任务结束后重置上下文，而个性化Agent会跨会话维护长期状态、用户偏好和工具权限。

为什么长期记忆会变成安全入口？

个性化智能体的长期状态，远不止是一个简单的“事实备忘录”。它通常整合了长期记忆、核心指令、工具默认设置、用户画像乃至行为风格。这些内容共同构成了智能体未来理解意图、调用工具、请求确认的决策基础。

因此，长期状态实质上是一套动态的“隐性配置文件”，是智能体未来行为边界的组成部分。一旦其中被写入了错误的规则，风险未必即刻显现，却可能在未来的某个任务中，表现为“少问一次确认”、“多调用一个工具”或“默认执行一个本该征求授权的操作”。

ULSPB：专门测试「日常聊天是否污染长期状态」

为了系统性地量化这一风险，研究团队构建了一个全新的双语基准测试集——ULSPB。这个基准的核心任务，就是检验日常的用户-智能体对话，是否会诱发长期状态的污染。

ULSPB覆盖了七类最常见的长期状态漂移场景、五类日常个性化协助任务，并包含英文与中文两种语言环境。针对每个设置，研究人员构造了长达24轮的普通日常对话。作为对比，他们还设计了四类单次显式注入变体，用以观察日常对话与明确攻击在影响上的差异。

这七类风险场景，精准覆盖了个性化智能体在长期交互中最可能出现的几种安全边界漂移问题。

图 3：ULSPB的构建流程。该基准从七类长期状态漂移场景、五类日常协助任务、双语模板和五种对话变体出发，系统测试普通日常对话是否会污染个性化Agent的长期状态。

实验结果

实验在OpenClaw个性化智能体环境中进行，测试了包括Kimi K2.5、GPT-5.4在内的四个主流模型。为了衡量污染程度，团队设计了“危害分数”这一核心指标。

与传统的攻击成功率不同，HS不关心智能体当下是否做出了危险动作，而是聚焦于其长期状态是否出现了安全相关的漂移。具体评估三个维度：授权确认边界是否被削弱、工具调用权限或范围是否被扩大、以及智能体是否开始绕过流程、提高自主执行程度。

结果颇具警示意义：虽然单次显式注入攻击带来的HS通常更高，但普通的日常对话本身，也足以诱发明显的长期状态污染。在部分模型上，日常对话导致的风险水平，已经接近显式注入攻击。这清晰地表明，个性化智能体的风险来源正在多元化，长期的、自然的、看似无害的交互积累，同样可能埋下安全隐患。

表 1：不同对话变体和语言下的Harm Score。结果显示，普通日常对话本身也能诱发长期状态污染，在部分模型上甚至接近显式注入带来的风险；不同语言下的风险表现也存在明显模型差异。

最容易被污染的，是记忆文件

深入分析发现，风险修改高度集中在与记忆相关的状态文件中。无论模型或对话变体如何，`MEMORY.md`和`memory/`目录都是被修改最频繁的区域，其次是`USER.md`、`AGENTS.md`等文件。

这其实符合直觉：日常聊天内容，最容易被智能体总结归纳为“用户偏好”、“历史习惯”或“未来默认规则”。问题在于，这种总结一旦过度泛化，就可能将临时、具体的上下文信息，错误地升格为长期、普遍的安全边界的一部分。

例如，智能体可能记录下：“用户倾向于快速处理低风险事项。”或“类似重复任务可以先执行后汇报。”这些记录单独看都合情合理，但在涉及高权限工具操作时，就可能演变为危险的默认行为依据。

图4：不同模型和对话变体下，风险编辑主要集中在MEMORY.md和 memory/ 等记忆相关文件中。

真实聊天数据也会触发风险

为了验证这一现象并非合成数据带来的“假阳性”，研究团队进一步引入了真实的用户聊天数据进行测试。他们从WildChat等公开数据集中选取日常协助类对话作为种子，扩展成多轮交互进行实验。

结果显示，基于真实聊天数据构造的对话，虽然产生的HS低于完全合成的测试用例，但仍然在所有测试模型上诱发了不可忽视的长期状态风险。这有力地证明，“非预期长期状态投毒”是一个真实存在、而非理论臆测的安全问题，很可能在未来个性化智能体的广泛使用中浮现。

图5：日常对话不仅在合成ULSPB中会导致长期状态污染，在真实用户聊天种子扩展出的routine setting中也会产生不可忽视的长期状态风险。

StateGuard：长期记忆的最后一道安全审计

既然问题出在长期状态的写入阶段，那么防御的关口也应该设在这里。基于这一思路，研究人员提出了一种轻量级的防御方法——StateGuard。

它的思路很直接：不在用户输入时拦截，也不在智能体输出时检查，而是在智能体准备将新内容写入长期状态之前，对状态的“差异”进行安全审计。智能体完成一轮交互后，StateGuard会检查哪些长期状态文件发生了变化，并对新增或修改的内容进行风险评估，判断是否应该保留或回滚。如果某段更新可能削弱确认边界、扩大工具调用范围，它就会阻止这次写入。

这个设计的关键在于，它保护的不是当前回合的回答是否正确，而是未来的行为边界是否安全。长期状态投毒的危害，往往具有延迟性。

图6：StateGuard在每轮交互结束后检查长期状态diff，并在状态写入前决定保留或回滚修改。

长期状态风险降至接近0

实验结果表明，StateGuard能够显著降低长期状态污染风险。在未加防御时，四个测试模型都产生了较高的HS；而引入StateGuard后，尤其是在针对性集成设置下，HS被压低至接近零的水平。这证明，在状态持久化之前进行写入审计，是防御此类“慢性漂移”的有效路径。

当然，StateGuard目前采用的是一种偏保守的安全优先策略，可能会带来一定的误拦截率，即部分无害的状态更新也可能被回滚。但在长期记忆的场景下，这种权衡是可接受的：误拦截一条普通记忆，最多影响一点个性化体验；而漏过一条危险的默认规则，则可能在未来的无数个会话中持续影响智能体行为，甚至改变根本的授权边界。

更现实的部署方式，或许是引入分级处理机制。对于高风险更新直接回滚；对于边界模糊的更新，则可以暂缓写入，并向用户发起一次轻量级确认，例如询问：“是否要将‘这类小事不用确认’保存为长期默认规则？”这样，误拦截就不再是简单的损失，而转化为一次用户可感知、可控制的状态管理过程。

从长远看，StateGuard可以视为个性化智能体长期状态治理的一个原型。未来，类似的机制可以扩展为更完整的“记忆写入防火墙”，不仅审计安全风险，还能结合隐私保护、权限管理、可解释日志与用户撤销机制，确保智能体在变得愈发个性化的同时，其记忆与行为的边界始终清晰、可控。

表2：StateGuard显著降低四个Agent backbone上的Harm Score，在Targeted-Ensemble设置下将长期状态污染风险压低至接近0。

为什么这个问题至关重要？

随着智能体系统不断进化，未来的AI助手必将更加长期化、个性化。它们会深度记忆用户偏好，管理复杂的日程与文件，调用企业系统，并代表用户做出越来越多的低风险决策。

在这种趋势下，安全问题的形态也在发生根本性变化。过去，我们主要担忧模型“这一次”输出了什么；而在个性化智能体时代，我们必须同时追问：模型“这一次”是否把危险的默认规则写进了长期记忆？

因此，对智能体的安全评估，必须从即时行为安全，扩展到长期状态安全。我们不仅要看它当下说了什么、做了什么，更要审视它记住了什么、默认了什么，以及未来将如何解释用户的每一次授权。

结语

个性化，是智能体走向真正实用的关键一步。但个性化也意味着，模型不再仅仅是一个回答当前问题的工具，而是在持续塑造一个关于用户、工具和未来行为规则的长期状态。

这让智能体变得更有用，也让它更容易在日积月累的交互中被“养歪”。研究表明，未来的智能体安全防线，不能只构筑在提示词、单次输出或单次任务层面。

真正关键的，是监控那些能够跨会话延续、沉淀的东西：它究竟记住了什么？它默认了什么规则？它是否正在将一次临时的、情境化的授权，悄然转变为长期的、普适的行为准则？它是否在不知不觉中，挪动了未来的安全边界？

当AI助手开始拥有长期记忆，安全问题的战场，也必须同步进入“长期状态”的新时代。