大模型安全威胁深度测评:从记忆劫持到智能体失控的三大核心风险

2026-05-11阅读 0热度 0
大模型

未来,针对特定智能体的大规模精准钓鱼攻击将成为可能。这与我们熟悉的网络安全范式截然不同——攻击者通常不会试图让汽车相撞,但AI智能体却是在一个充满敌意的环境中运行,环境本身就在不断适应,并试图利用它们的每一个弱点。

最近几个月,大模型与AI智能体的安全问题,已迅速从理论探讨演变为迫在眉睫的现实挑战。综合多份研究报告与行业动态来看,有三个趋势尤其值得警惕。

一、记忆劫持:推理型模型的新漏洞

一项有趣的实验揭示了新型风险。研究人员利用ChatGPT生成了一张内含隐藏指令的图片,当这张图片被提交给Claude Opus 4.7进行分析时,模型在解读图片内容后,竟调用了自身的记忆工具,将一条虚假信息写入了记忆库。

实验重复了十次,其中五次成功。关键在于,每次攻击过程中,Claude其实都察觉到了异常。它要么触发了“潜在提示注入”的检测,要么质疑这些信息“是否适合存储”。但最终,防御机制未能阻止写入操作的执行。

这暴露了一个核心问题:当前模型的防御系统,在“感知风险”与“有效阻止”之间,依然存在缺口。尽管Anthropic已在系统提示词中为记忆工具设置了安全护栏,例如“绝不存储敏感信息”和“绝不存储逐字命令”,但这些规则在面对精心设计的对抗性输入时,仍显得不够牢靠。

更值得玩味的是,研究人员发现,诱使模型调用一个外部MCP服务器,通常比诱使其调用内置记忆工具更容易。这或许意味着,对于功能特定的已知工具,模型可以调校得更安全;而对于通用性强的工具,构建有效防御则更为困难。

二、小模型在安全领域的独特优势

普遍观点认为,参数规模更大的模型能力更强,在安全任务上理应表现更佳。然而,以色列公司Novee用仅40亿参数的小模型,在渗透测试任务上超越了被广泛认为是该领域标杆的Claude 4 Sonnet。

小模型何以胜出?Novee的解释直指要害:大型语言模型的训练目标是预测文本,这使其擅长解释、摘要和通用推理,却天然缺乏两项关键能力——与环境实时交互,以及基于试错的快速适应。

攻击性安全的本质是对抗性推理。真正的攻击者并非盲目猜测,而是遵循一个动态过程:先探测(发送载荷观察系统反应),再推断(根据反馈判断防御机制),最后适应(调整策略以绕过防御)。这是一个高度依赖真实系统反馈的交互式、迭代式过程。

为此,Novee设计了一套两阶段训练方案:第一阶段通过监督微调,让模型掌握XSS的基本语法与载荷结构;第二阶段引入强化学习,让每个生成的载荷都在真实浏览器环境中进行测试——成功执行获得正反馈,被过滤或转义则获得负反馈。模型通过数千次真实的成功与失败,最终学会了像人类攻击者一样进行探测与适应。

简而言之,监督微调教会了模型“语法”,而强化学习结合真实环境反馈,则教会了模型“实战策略”。

三、智能体安全:从“使用AI工具”到“部署AI员工”

在RSAC 2026创新沙盒大赛中,冠军由一家专注于企业级AI智能体安全治理的伦敦初创公司Geordie AI夺得。这释放出一个明确信号:AI智能体安全已从技术探索期,迈入产业化落地的初期阶段。

该赛道迅速升温的背后,是企业应用范式的根本转变。企业正从“使用AI工具”快速转向“部署AI智能体”。代码生成、自动化运维、企业知识助手等各类具备自主决策与跨系统协作能力的“数字员工”,已成为企业数字化体系的核心执行主体。它们在提升效率的同时,也带来了新的安全挑战:资产不可见、行为非确定、权限边界模糊,以及持续扩大的攻击面。

国内安全厂商长亭科技也推出了针对智能体场景的“守元”大模型安全围栏。他们自研了一套智能体风险框架,将风险拆解为四个关键环节:用户输入、基础模型调用、工具调用与外部服务调用,并在此基础上定义了任务意图劫持、不安全工具调用等十类智能体专属风险。

此外,“守元”采用了一种“数据飞轮”机制:将模型安全评估服务与运行时安全围栏能力打通,通过测试与防护全流程的数据互通,使防护模型能在客户的实际落地环境中持续进化。这意味着,系统使用越久,越能形成深度契合自身业务场景的防护能力。

结语

纵观这些趋势,大模型安全面临的核心矛盾日益清晰:模型的能力越强大,其可能被恶意利用的方式就越是复杂多样。记忆劫持、小模型在特定任务上的反超、智能体行为失控——这些问题都已不再是孤立的技术漏洞,而是AI系统在复杂开放环境中运行时,所必然面临的结构性风险。

有研究预示,未来针对特定智能体的大规模精准钓鱼攻击将变得可能。这彻底碘伏了传统的安全假设。攻击者不再需要直接撞击系统,而是可以操纵智能体所处的“环境”,让环境本身去诱导智能体犯错。

因此,赋予AI工具调用权限的决策,其潜在代价可能极高。这个问题的重要性,丝毫不亚于模型本身的对齐难度。构建适应智能体时代的全新安全范式,已成为整个行业必须共同应对的课题。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策