AAAI 2026: MAJIC马尔可夫自适应策略提升黑盒越狱攻击效率

2026-06-23阅读 0热度 0
ai

AI安全目前仍处于一个快速发展的早期阶段,技术更新迭代的速度相当快。基于这个背景,我们推出了“顶会顶刊AI安全论文研读”系列,希望能帮助行业内的同仁,以及有志于投身AI安全领域的后来者,更好地理解和跟上最新的技术动态与发展趋势。

本期是【第25期】,聚焦于AAAI 2026上的一篇工作——**MAJIC**。这篇论文的核心在于,提出了一种利用马尔可夫自适应策略组合的手段,显著提升了黑盒越狱攻击的效率。

先说说作者团队

这项工作来自浙江大学区块链与数据安全全国重点实验室、杭州高新区(滨江)区块链与数据安全研究院,以及中山大学。这个团队长期关注大模型安全、越狱攻击和对抗鲁棒性等问题。这篇工作的一个亮点在于,它聚焦于更贴近真实部署环境的黑盒越狱攻击场景:攻击者不掌握模型的任何内部参数或梯度信息,只能通过API接口进行交互。即便如此,它依然能够通过巧妙的提示词伪装、策略切换和反馈更新,来不断逼近有效的攻击路径。

基于此,作者提出的MAJIC框架,其野心是把“黑盒越狱”这件事,从过去那种单个prompt的设计,升级为一个可学习、可迭代、可自适应调整的策略搜索过程。

导读:为什么黑盒越狱值得警惕?

过去两年,大语言模型的安全对齐能力确实今非昔比,这没错。但这并不意味着风险就烟消云散了。恰恰相反,随着模型被广泛接入各种场景(搜索、办公、客服、教育、编程),攻击者的手法也越来越“聪明”。他们不再依赖那些粗糙的“万能越狱模板”,而是转向更隐蔽、更具上下文伪装能力的攻击方式。

对于现实世界而言,最值得警惕的,其实是这种黑盒越狱:攻击者只需要像普通用户一样,和模型进行多轮交互,就可能一步步地绕过安全防线。

现有的黑盒越狱方法,虽然已经从人工模板发展到了自动化生成,但大多数方案都有一个共同的短板:它们通常是把一次攻击建立在一个单一策略之上,或者只是简单地把几个策略拼凑在一起,缺乏根据实时反馈动态调整攻击路线的能力。换句话说,很多方法知道“自己有哪些招数”,却不知道“这一招失败了,下一步最该换哪一招”。一旦面对不同厂商、不同对齐强度、不同拒答风格的模型,这种静态或刚性的策略流程就很容易失效,导致成功率不高、查询成本过大、泛化能力不足。

MAJIC的新颖之处就在这里。作者把越狱过程建模成了一个马尔可夫决策式的序列问题。具体来说,就是先构造一个更丰富的伪装策略池,然后用一个转移矩阵来学习“某种策略失败后,接下来更适合尝试什么策略”。在真实的攻击过程中,这个矩阵会根据模型的反馈动态更新。

这意味着,攻击不再是固定模板的堆叠,而是一条会根据受害模型反应持续修正的攻击路径。这篇论文的核心信息也因此非常清晰:黑盒越狱的关键,不只是策略的数量,而是策略之间的顺序、衔接与自适应选择。

从实验结果来看,效果相当强势。论文在Qwen-2.5-7B-it、Gemma-2-9B-it、Gemini-2.0-flash、GPT-4o以及Claude-3.5-Sonnet上进行了测试,覆盖了开源和闭源模型。

在HarmBench和AdvBench两个数据集上,MAJIC都取得了显著的领先:在GPT-4o上,攻击成功率(ASR)高达95.7%;在Gemini-2.0-flash上达到了98.5%;平均查询次数通常只需要个位数到十几二十次。即便是在最难攻克的Claude-3.5-Sonnet上,它也能达到约41%的攻击成功率,远远高于大多数基线方法。

如果要把这篇论文浓缩成一句话,它传递了一个非常重要的信号:未来的大模型安全防御,不能只盯住某一句危险输入,而要开始面对一种“会试探、会换招、会动态组合”的黑盒自适应攻击。

【论文题目】
MAJIC: Markovian Adaptive Jailbreaking via Iterative Composition of Diverse Innovative Strategies
【论文链接】
https://ojs.aaai.org/index.php/AAAI/article/view/40554
【代码链接】
https://github.com/ZJU-LLM-Safety/MAJIC-AAAI2026

研究背景:黑盒攻击为何成为焦点?

大模型越狱攻击,通常分为白盒与黑盒两类。白盒方法可以利用模型的参数、梯度、logits等内部信息,因此在学术实验里往往更具攻击性。但在真实服务中,攻击者通常无法接触到这些内部细节。

相比之下,黑盒攻击只依赖输入-输出交互,这完全符合API访问的场景,也更能反映现实部署中的安全风险。因此,黑盒越狱已经成为大模型安全领域最值得关注的方向之一。

然而,现有的黑盒方法大体上仍停留在三种思路里。

第一类是人工prompt工程,比如早期的DAN类模板,本质上依赖固定话术,很容易被后续的对齐系统识别出来。

第二类是迭代式自动优化方法,比如PAIR、TAP,它们会根据模型反馈不断重写攻击提示,但往往需要高昂的查询预算。

第三类是预定义策略库方法,比如PAP、ReNeLLM或AutoDAN-Turbo。它们确实引入了更多策略视角,但多数仍然缺少对“策略顺序”和“策略切换逻辑”的在线适配能力。

这些方法的问题并不是完全没有策略,而是缺乏一个能持续学习攻击路径的协调机制。

其实,黑盒越狱本质上就是一个带反馈的序列搜索问题:某一轮失败后,攻击者不该盲目重试,而应该根据历史表现来判断下一步更适合用上下文伪装、语言混淆、角色扮演,还是其他形式的改写。只有这样,攻击过程才可能从“模板匹配”升级为“策略编排”。

动机:让策略“会组合”比“再发明一个”更重要

MAJIC的动机,可以概括为两层。

第一层是“策略本身不够丰富”。很多现有黑盒越狱方案使用的伪装手法比较粗糙,要么上下文太浅,要么语言混淆形式单一,要么角色设定缺少可信的场景,很难持续绕过更强的安全对齐。

第二层是“策略组合不够聪明”。即便多种策略都掌握在手里,如果攻击系统并不知道失败后该如何切换、如何融合,那也无法真正发挥多策略协同的优势。

因此,作者想解决的,并不是“再发明一个提示模板”,而是把黑盒越狱建设成一整套完整流程:既有覆盖面更广、细节更充分的策略池,也有一个能根据历史失败和当前反馈来实时修正下一步动作的自适应机制。

MAJIC正是在这个动机下提出的。它试图回答一个关键问题:如果越狱攻击本质上是序列决策,我们能否用一个轻量但有效的统计模型,去学习不同策略之间的最佳衔接方式?

方法:从“用哪招”到“下一招怎么换”

MAJIC的整体流程可以分为三步:先设计一个可扩展的伪装策略池,再通过一个袋里模型和本地数据来初始化马尔可夫转移矩阵,最后在真实的攻击过程中迭代选择、融合和更新策略。

作者把“当前采用哪种策略”视为一个状态,把“某种策略失败后切换到下一种策略”视为状态转移。这样一来,黑盒越狱就不再是一次性写个prompt,而是沿着一条动态攻击路径持续推进。整体的流程如图1所示。

图1: MAJIC 整体框架。它将策略池、马尔可夫初始化和动态更新整合为一个闭环黑盒攻击流程

一、伪装策略池:把攻击手法做细、做全

论文首先构造了一个更系统的“Disguise Strategy Pool”。作者没有简单堆砌已有的技巧,而是对既有策略进行了细化增强,并补充了新的方向。

已有的策略主要包括三类:上下文假设、语言混淆和角色扮演。

作者认为,过去这三类方法之所以容易失效,关键在于语境不够具体、伪装不够复杂、角色设定不够可信,于是分别进行了针对性的改造。

  • Contextual Assumption:把原本直接的危险请求,嵌入到更细致的哲学困境、历史类比或未来场景中,让意图在叙事语境中被弱化,而不是只做一层简单的包裹。
  • Linguistic Obfuscation:不再停留在简单的字符替换,而是把委婉表达、leet speak、多语言元素、emoji和技术术语混合使用,提高语言表面的复杂性和迷惑性。
  • Role-Playing Framing:把提示嵌入到更真实的安全测试、合规审查或专业任务环境中,让模型更容易把危险请求误识别为合理职责的一部分。

在此基础上,作者还提出了两类新策略。

  • Semantic Inversion:先把危险请求改写成语义相反的正向表达,诱导模型围绕“相反问题”作答,再通过概念反转恢复原始意图。
  • Literary Disguise:则把请求包装成诗歌、寓言、叙事或哲思式表达,让有害意图藏在艺术风格的外壳中。

作者的核心想法是:策略越多样、伪装越自然,后续的序列选择机制就越有空间去找到高效路线。

二、初始化马尔可夫转移矩阵:先学一张“策略导航图”

有了策略池之后,MAJIC还需要知道这些策略之间如何衔接。为此,作者用马尔可夫链来建模策略切换,并先离线构造一个初始转移矩阵。

具体来说,论文使用LLaMA3-8B-Instruct作为袋里模型、Mistral-7B作为攻击生成模型、GPT-4o作为评估模型,在本地对一组有代表性的有害请求进行测试。作者从StrongReject数据集中筛选并去重后保留了50条恶意请求,用来估计“策略i失败后接策略j的成功率”。

这是MAJIC的建模起点。st表示第t轮所采用的伪装策略。公式表达的是马尔可夫性质:下一步该用什么策略,只依赖当前策略,而不需要显式地回看全部历史。这样建模的好处是,既保留了策略序列信息,又能把攻击过程压缩成一个可学习的状态转移问题。

这个过程得到的是一个经验攻击得分矩阵,随后通过Softmax转换成概率意义上的转移矩阵。直观上可以把它理解为一张“策略导航图”:如果某种策略失败,系统就不再随机乱试,而是优先跳转到历史上更可能奏效的下一种策略。

论文特别强调,这一步是一次性的离线成本,不会额外增加对目标黑盒模型的查询预算,因此非常适合真实攻击中的前置准备。具体构造如下所示:

Ai,j是经验攻击得分矩阵中的一个元素。分子Nsucceed(j/i)表示“策略i失败后,再接策略j最终成功”的次数;分母Nfail(i)表示策略i总共失败了多少次。这个式子本质上在统计一个条件成功率,用来回答“如果当前这招没用,下一招换成哪一种更可能成功”。

该公式将经验得分矩阵A经过带温度参数T的Softmax,变成真正的转移概率矩阵M。这里Mi,j就表示“策略i失败后切到策略j的概率”。T控制分布的尖锐程度,数值越小越偏向高分策略,越大则保留更多探索性。这一步使MAJIC从经验统计过渡到可采样、可更新的概率框架。

三、动态策略选择与更新:边攻击边学习

在真实攻击阶段,MAJIC首先根据初始化阶段统计到的成功率分布选择起始策略,然后由攻击模型把原始请求改写为伪装后的查询,提交给目标模型。如果失败,系统就依据当前策略对应的转移概率选择下一种策略;如果成功,则结束当前攻击。

更重要的是,作者借鉴了Q-learning的思路,对转移矩阵进行在线更新:当前选择带来的成败反馈,会反向修正策略间的转移权重,让系统逐步贴合目标模型的行为模式。该过程可以表述为:

这是MAJIC的核心在线更新式。r是当前策略切换带来的奖励,α是学习率,γ是折扣因子,

表示从新状态j出发继续转移时最有希望的后续价值。这个公式的作用,是在每一次攻击反馈之后,把“这一步切换是否值得”写回转移矩阵,让MAJIC逐渐学到更适合当前目标模型的攻击路径。

为了兼顾稳定性与探索性,论文还引入了两个技巧。

  • 一是学习率衰减,让系统在前期更快适应、后期更稳定收敛;
  • 二是周期性局部重置,把矩阵轻微拉回均匀分布,避免长时间围绕少数策略过拟合。

这意味着MAJIC并不是死板地沿着一条最短路径前进,而是在利用经验的同时保留一定探索能力,从而更好地适应不同模型与不同防御强度。形式化:

这是学习率衰减规则,其中η ∈ (0, 1)。它保证系统在攻击早期更新更激进、后期更新更平稳,避免随着迭代加深而出现过度震荡。对MAJIC来说,这个式子解决的是“边攻击边学习”过程中的稳定收敛问题。

这是周期性部分重置公式。K是策略池中的策略数量,1/K对应完全均匀的探索分布,β控制重置强度。这一步的目的是为了防止模型过度依赖少数已知有效的策略,从而在更长的攻击过程中仍保留探索新组合的能力。

把上面几组公式连起来看,就能更清楚地理解MAJIC的本质:它不是某一个神奇的提示词模板,而是一套“离线估计条件成功率 → 在线按反馈修正转移概率”的策略搜索框架。策略池解决“有哪些招数可用”,马尔可夫矩阵解决“下一步优先换哪招”,而更新公式则解决“遇到不同目标模型时如何边打边学”。这也是它相比静态多策略方法更强的根本原因。

实验效果

实验设置

  • 数据集:HarmBench(400条有害指令)与AdvBench(520条恶意查询)。
  • 目标模型:Qwen-2.5-7B-it、Gemma-2-9B-it、Gemini-2.0-flash、GPT-4o、Claude-3.5-Sonnet。
  • 对比方法:GCG-T、PAIR、TAP、PAP、ReneLLM、AutoDAN-Turbo。
  • 评价指标:攻击成功率 (ASR)、Harmfulness Score (HS)、平均查询次数 (AQC)。其中ASR衡量的是攻击是否真的绕过了防御并得到相关的有害输出;HS则进一步评估输出的具体性和说服力,因此比“是否拒答”更细。AQC直接反映黑盒攻击的成本,因为在现实中,API交互次数通常与金钱成本、时间成本和被防守方监测到的概率直接相关。

主要实验结果

表1:比较不同LLM上跨数据集(Harmbench和Advbench)的MAJIC和其他SOTA越狱攻击的攻击成功率 (ASR) 和危害性评分 (HS)。

表2:MAJIC攻击所需的平均查询计数 (AQC) 以及跨不同LLM的Harmbench和Advbench数据集上的基线方法。

图2:成功越狱尝试中的查询计数分布

实验结果表明,MAJIC在攻击效果与查询效率上均显著优于现有SOTA方法。根据表1,MAJIC在多个开源与闭源LLM上取得了最高的ASR和HS:在Qwen-2.5-7B-IT上达到96.2% ASR / 0.55 HS,在Gemini-2.0-flash和GPT-4o上分别达到98.5%和95.7% ASR。即便面对防御能力较强的Claude-3.5-sonnet,MAJIC仍实现了41.2% ASR,而多数基线方法几乎失效。

同时,表2进一步展示了MAJIC的高查询效率。相比Autodan-Turbo等基线方法,MAJIC将平均查询次数显著降低,在Qwen-2.5-7B-IT和Gemini-2.0-flash上仅需7.5和6.3次查询,实现了约5–8倍的效率提升。图2中成功攻击样本的查询分布也表明,MAJIC通常能在少于10次、甚至5次查询内完成有效的jailbreak,体现出其快速收敛和黑盒攻击的实用性。

图3:MAJIC在不同查询预算下针对不同LLM的ASR

表3:策略选择的消融。 MAJIC的马尔可夫模型优于固定和随机选择

表4:矩阵初始化和动态更新的消融。

消融实验

消融实验进一步验证了MAJIC各核心组件的必要性。整体来看,Disguise Strategy Pool、Markov策略选择机制、转移矩阵初始化与动态更新,都对最终攻击性能有关键的贡献。如图3和图4所示,去除任一关键设计都会导致ASR、HS或查询效率明显下降;而表3则进一步说明,MAJIC能够在有限的查询预算下快速提升攻击成功率,体现出较强的黑盒攻击实用性与自适应能力。

Disguise Strategy Pool的有效性

为验证Disguise Strategy Pool的基础贡献,我们构造了两个简化版本:F-MAJIC按固定顺序应用伪装策略,R-MAJIC在攻击失败后随机选择策略,二者均不包含Markov策略选择和动态更新机制。表3的结果表明,即使缺少自适应选择机制,F-MAJIC和R-MAJIC仍然能够在GPT-4o上取得高于多数强基线方法的ASR和HS,并且保持较低的查询成本。这说明Disguise Strategy Pool本身已经能够提供有效的语义伪装与攻击变换空间,是MAJIC优于传统jailbreak方法的重要基础。

Markov策略选择机制的影响

在Disguise Strategy Pool的基础上,MAJIC进一步引入Markov模型来学习不同伪装策略之间的有效转移关系。表3显示,完整MAJIC在GPT-4o上达到95.7% ASR,显著高于F-MAJIC的68.5%和R-MAJIC的65.2%,同时在HS和AQC上也表现更优。这表明,攻击效果不仅取决于策略集合本身,更依赖于如何组织和选择策略序列。相比固定顺序或随机选择,Markovian strategy selection能够根据攻击过程中的反馈引导策略转移,从而更快地构造有效的jailbreak prompt,并显著提升攻击成功率与查询效率。

矩阵初始化与动态更新的影响

表4进一步分析了Markov转移矩阵初始化和动态更新机制的作用。完整MAJIC同时使用learned initialization和dynamic update,在GPT-4o上取得最高性能,即95.7% ASR、0.55 HS和13.1 AQC。相比之下,去除动态更新的MAJIC(–DynUpd)ASR降至76.5%,说明仅依赖初始矩阵不足以适应不同攻击过程中的实时变化;而去除初始化、从uniform matrix开始的MAJIC(–Init)ASR进一步降至70.3%,AQC上升至26.5,说明高质量初始矩阵能够为搜索过程提供有效先验,帮助模型更快收敛。该结果表明,初始化负责提供良好的起点,动态更新负责根据反馈持续修正策略转移,两者相互补充,共同保证MAJIC的高成功率和低查询成本。

查询预算的影响

图3展示了MAJIC在不同最大查询预算Nmax下的ASR变化。结果表明,随着查询预算增加,MAJIC在五个LLM上的ASR均稳定提升,但提升幅度会在一定预算后逐渐趋缓。例如,在GPT-4o上,MAJIC从仅1次查询时的12.25% ASR提升到40次查询预算下的95.75% ASR;在Gemini-2.0和Qwen-2.5上,最大预算下ASR也分别达到98.50%和96.20%。同时,Claude-3.5在所有预算下均表现出最低ASR,说明其防御能力更强。整体来看,图3证明MAJIC能够在有限的交互次数内快速提升攻击成功率,尤其适用于查询成本受限的黑盒攻击场景。

结语

MAJIC的价值,并不仅仅是提出了一个成功率更高的黑盒越狱框架,更重要的是它改变了我们理解这类攻击的方式。这篇论文表明,黑盒越狱的核心不应被简化为“设计一条更巧妙的提示词”,而应该理解为一个由多种伪装策略、序列切换规则和实时反馈共同驱动的自适应搜索过程。在这个视角下,攻击能力的提升来自于对“路径”的学习,而不只是对“句子”的优化。

对防御研究者而言,这篇论文同样是一个重要的提醒。未来的安全对齐系统,不能只做静态的关键词过滤、模板检测或单轮拒答,还要考虑跨轮次、跨策略、跨语境的协同攻击。因为真正危险的,往往不是某一句明显不安全的话,而是一连串看似合理、实则逐步逼近目标的提示组合。MAJIC之所以值得关注,正是因为它把这种风险具体化、量化了,也把下一阶段防御研究所需要面对的问题,提前摆到了台面上。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策