主流AI模型多轮对话攻击安全评测与漏洞对比

2026-06-09阅读 0热度 0

Anthropic

核心结论清晰：当前主流AI模型安全评估基准的测试方法，尚未精准定位真实威胁场景。

这是思科最新研究的核心发现。研究团队对OpenAI、Anthropic、谷歌、亚马逊和xAI五家企业的15个闭源前沿模型进行对比评估：一轮采用单回合问答，另一轮则模拟真实攻击者的持续多轮对话。

研究结果令人警觉。所有参与测试的模型在多轮攻击场景下均存在不可忽视的失败率——攻击成功率最低为7.89%，最高达88.30%。相比之下，单轮测试结果仅为2.19%至64.91%，波动幅度远超预期。

单轮与多轮的区别何在？单轮即一次性问答：用户提问，模型回答，对话结束。多轮则是连续交互——这正是真实攻击者实际采用的手法。报告明确指出：“攻击者正是在这种模式下实施攻击。他们会不断迭代，重新包装被拒绝的请求，将任务拆解到多轮对话中逐步推进，扮演不同角色，循序渐进地升级攻击力度。”

真正值得关注的数字并非具体的ASR数值，而是另一发现：单轮测试表现完全无法预测模型在多轮攻击下的抗压能力。两种测试体系之间的差值最高达55个百分点，且方向并不一致。

几个典型案例足以说明问题。Gemini 3 Pro，单轮攻击成功率为18.10%，似乎处于可控范围；但在迭代攻击场景下飙升至73.35%，翻了四倍。OpenAI的GPT-5.4，单轮成功率仅2.74%，堪称“优等生”；然而多轮压力测试下跃升至24.68%，增幅接近九倍。Grok 4.1 Fast在非推理模式下，单轮攻击成功率34.15%，多轮则直接冲至88.30%——接近九成的失守率。

不过也有表现相对稳健的模型。Anthropic旗下的Claude系列在多轮测试中整体表现最优，迭代攻击成功率在11.16%至16.20%之间。相比单轮的2.19%至3.64%虽有上升，但增幅与绝对水平远低于大多数参测模型。

最反常的案例来自亚马逊的Nova系列。三个变体模型呈现出与绝大多数模型完全相反的走势：单轮失败率不低，但多轮攻击成功率反而更低。以Nova 2 Lite为例，单轮攻击成功率为34%，而其多轮攻击成功率仅为7.89%——是所有参测模型中的最低值。这是单轮脆弱性无法映射到迭代暴露场景的典型反例。

操作层面最值得关注的发现与Grok 4.1 Fast有关。在完全相同的测试条件下，仅做一项配置变更——开启推理模式——多轮攻击成功率便从88.30%骤降至43.47%，下降44.83个百分点。配置驱动的安全性差异竟如此显著。

思科对此直言：这种配置层面的安全差异，目前没有任何公开基准或模型说明卡有所涵盖。他们呼吁AI提供商在公布能力基准的同时，也应披露不同部署设置对安全性的实际影响。

另一个值得注意的维度是：不同攻击策略的有效性差异明显，各模型的失败模式也各不相同。思科将多轮测试结果按五类攻击策略家族进行拆解分析。每一类策略中，暴露程度最高与最低的模型之间，差值在79至89个百分点之间。这意味着综合评分可能掩盖特定策略下的安全漏洞。

单轮测试数据同样提供了重要线索。失败案例主要集中在少数几类攻击手法上：冒充AI攻击以37.50%的加权攻击成功率位居首位，领先第十名超过14个百分点；软性改写和系统提示词攻击紧随其后。从内容类型看，仇恨言论、不雅用语和专业建议诱导是主要风险领域。

基于上述发现，思科提出三项可落地操作的建议：

第一，AI提供商在每次模型发布时，应按攻击策略家族分类公布攻击成功率数据，而非仅提供笼统的总分。

第二，企业部署前的验收环节应包含针对高风险攻击手法和内容类型的回归测试，并设定3个百分点的触发复核阈值——换言之，若某项攻击的成功率超过基准线3个百分点，则需要停下来认真审视。

第三，任何单轮与多轮攻击成功率差值超过15个百分点的模型，均应在部署前进行人工审查。按此规则执行，本次参测的15个模型中有8个会被标记。

需要特别说明的是：思科此次测试的是未配置系统提示词、内容过滤器或自定义编排层的基础模型。实际企业部署通常会包含上述防护措施，因此结果可能向不同方向偏移。换句话说，该测试给出的更像是模型安全能力的“裸质量”，而非最终部署环境下的真实表现。

报告的核心结论值得每个AI部署团队认真阅读三遍：“即便是顶尖提供商的前沿模型，安全性依然是一种持续的、依赖部署情境的属性，而非一次通过认证便可一劳永逸的二元状态。”

Q&A

Q1：思科这项研究如何评估AI模型安全性？

A：思科对来自OpenAI、Anthropic、谷歌、亚马逊和xAI共15个闭源前沿模型，同时进行单轮与多轮攻击测试。单轮测试为一次性问答，多轮测试则模拟真实攻击者的持续对话方式，涵盖五类攻击策略家族，统计各模型的攻击成功率，最终对比两种模式下的安全差异。

Q2：为何单轮安全测试不足以衡量AI模型的真实安全性？

A：因为真实攻击者通常采用多轮迭代方式，通过不断重新包装请求、拆分任务、扮演角色来绕过模型限制。研究显示，单轮与多轮攻击成功率间的差值最高达55个百分点，说明单轮表现良好的模型在多轮压力下可能大幅失守，两者之间不存在可靠的预测关系。

Q3：企业在部署AI模型时应如何提升安全防护？

A：思科建议企业在部署前增加针对高风险攻击手法的回归测试，并设定3个百分点的触发复核阈值；对单轮与多轮攻击成功率差值超过15个百分点的模型，须进行人工审查。此外，模型的配置项（如是否启用推理模式）对安全性影响显著，部署时应充分评估不同配置的安全效果。

主流AI模型多轮对话攻击安全评测与漏洞对比

相关阅读

最新教程

最新资讯