大模型安全威胁深度测评：从记忆劫持到智能体失控的三大核心风险

2026-05-11阅读 0热度 0

大模型

未来，针对特定智能体的大规模精准钓鱼攻击将成为可能。这与我们熟悉的网络安全范式截然不同——攻击者通常不会试图让汽车相撞，但AI智能体却是在一个充满敌意的环境中运行，环境本身就在不断适应，并试图利用它们的每一个弱点。

最近几个月，大模型与AI智能体的安全问题，已迅速从理论探讨演变为迫在眉睫的现实挑战。综合多份研究报告与行业动态来看，有三个趋势尤其值得警惕。

一、记忆劫持：推理型模型的新漏洞

一项有趣的实验揭示了新型风险。研究人员利用ChatGPT生成了一张内含隐藏指令的图片，当这张图片被提交给Claude Opus 4.7进行分析时，模型在解读图片内容后，竟调用了自身的记忆工具，将一条虚假信息写入了记忆库。

实验重复了十次，其中五次成功。关键在于，每次攻击过程中，Claude其实都察觉到了异常。它要么触发了“潜在提示注入”的检测，要么质疑这些信息“是否适合存储”。但最终，防御机制未能阻止写入操作的执行。

这暴露了一个核心问题：当前模型的防御系统，在“感知风险”与“有效阻止”之间，依然存在缺口。尽管Anthropic已在系统提示词中为记忆工具设置了安全护栏，例如“绝不存储敏感信息”和“绝不存储逐字命令”，但这些规则在面对精心设计的对抗性输入时，仍显得不够牢靠。

更值得玩味的是，研究人员发现，诱使模型调用一个外部MCP服务器，通常比诱使其调用内置记忆工具更容易。这或许意味着，对于功能特定的已知工具，模型可以调校得更安全；而对于通用性强的工具，构建有效防御则更为困难。

二、小模型在安全领域的独特优势

普遍观点认为，参数规模更大的模型能力更强，在安全任务上理应表现更佳。然而，以色列公司Novee用仅40亿参数的小模型，在渗透测试任务上超越了被广泛认为是该领域标杆的Claude 4 Sonnet。

小模型何以胜出？Novee的解释直指要害：大型语言模型的训练目标是预测文本，这使其擅长解释、摘要和通用推理，却天然缺乏两项关键能力——与环境实时交互，以及基于试错的快速适应。

攻击性安全的本质是对抗性推理。真正的攻击者并非盲目猜测，而是遵循一个动态过程：先探测（发送载荷观察系统反应），再推断（根据反馈判断防御机制），最后适应（调整策略以绕过防御）。这是一个高度依赖真实系统反馈的交互式、迭代式过程。

为此，Novee设计了一套两阶段训练方案：第一阶段通过监督微调，让模型掌握XSS的基本语法与载荷结构；第二阶段引入强化学习，让每个生成的载荷都在真实浏览器环境中进行测试——成功执行获得正反馈，被过滤或转义则获得负反馈。模型通过数千次真实的成功与失败，最终学会了像人类攻击者一样进行探测与适应。

简而言之，监督微调教会了模型“语法”，而强化学习结合真实环境反馈，则教会了模型“实战策略”。

三、智能体安全：从“使用AI工具”到“部署AI员工”

在RSAC 2026创新沙盒大赛中，冠军由一家专注于企业级AI智能体安全治理的伦敦初创公司Geordie AI夺得。这释放出一个明确信号：AI智能体安全已从技术探索期，迈入产业化落地的初期阶段。

该赛道迅速升温的背后，是企业应用范式的根本转变。企业正从“使用AI工具”快速转向“部署AI智能体”。代码生成、自动化运维、企业知识助手等各类具备自主决策与跨系统协作能力的“数字员工”，已成为企业数字化体系的核心执行主体。它们在提升效率的同时，也带来了新的安全挑战：资产不可见、行为非确定、权限边界模糊，以及持续扩大的攻击面。

国内安全厂商长亭科技也推出了针对智能体场景的“守元”大模型安全围栏。他们自研了一套智能体风险框架，将风险拆解为四个关键环节：用户输入、基础模型调用、工具调用与外部服务调用，并在此基础上定义了任务意图劫持、不安全工具调用等十类智能体专属风险。

此外，“守元”采用了一种“数据飞轮”机制：将模型安全评估服务与运行时安全围栏能力打通，通过测试与防护全流程的数据互通，使防护模型能在客户的实际落地环境中持续进化。这意味着，系统使用越久，越能形成深度契合自身业务场景的防护能力。

结语

纵观这些趋势，大模型安全面临的核心矛盾日益清晰：模型的能力越强大，其可能被恶意利用的方式就越是复杂多样。记忆劫持、小模型在特定任务上的反超、智能体行为失控——这些问题都已不再是孤立的技术漏洞，而是AI系统在复杂开放环境中运行时，所必然面临的结构性风险。

有研究预示，未来针对特定智能体的大规模精准钓鱼攻击将变得可能。这彻底碘伏了传统的安全假设。攻击者不再需要直接撞击系统，而是可以操纵智能体所处的“环境”，让环境本身去诱导智能体犯错。

因此，赋予AI工具调用权限的决策，其潜在代价可能极高。这个问题的重要性，丝毫不亚于模型本身的对齐难度。构建适应智能体时代的全新安全范式，已成为整个行业必须共同应对的课题。

大模型安全威胁深度测评：从记忆劫持到智能体失控的三大核心风险

一、记忆劫持：推理型模型的新漏洞

二、小模型在安全领域的独特优势

三、智能体安全：从“使用AI工具”到“部署AI员工”

结语

相关阅读

最新教程

最新资讯