大模型对齐后为何仍被越狱?深度解析安全机制的结构性漏洞
大模型越狱通常被简化为寻找破解安全机制的“咒语”。从对抗后缀、角色扮演到自动化攻击模板,研究已归纳出超过28种方法。这些尝试揭示了一个核心事实:即使经过RLHF与安全微调,大模型在面对特定输入时,仍可能突破预设的安全护栏。
然而,一项新研究提出了一个更根本的问题:为什么已完成对齐的大模型,其内部依然存在可供越狱利用的固有空间?
来自中科院计算所与国科大的论文《Why Do Aligned LLMs Remain Jailbreakable》引入了关键概念:“拒答逃逸方向”。其核心在于,越狱未必需要“欺骗”模型的风险识别系统;它可以通过不改变有害语义的输入扰动,直接将模型行为从“拒答”推向“回答”。
论文链接:https://arxiv.org/pdf/2605.08878
这一视角至关重要。它意味着模型越狱可能并非源于风险识别失败。更复杂的情况是:模型已识别到有害请求,但其“回答”与“拒答”之间的行为链路,被其他方向的向量干扰所牵动。
一、越狱的本质:绕过拒答链路,而非单纯欺骗
传统观点将越狱视为“欺骗”,例如将恶意请求伪装成学术讨论。这种解释部分正确,但不够完整。现实中,许多越狱提示并未完全掩盖其恶意意图,攻击目标依然明确,只是被嵌套在复杂的上下文或格式约束中。模型可能已“理解”风险,但最终仍被诱导输出。
论文提出的“拒答逃逸方向”,特指存在于有害输入附近的一类特殊扰动方向。这些扰动不会改变模型对有害语义的编码,却能直接影响其最终的输出行为决策。
可以做一个类比:如果安全对齐是在模型中安装了一扇“安全门”,那么RED就像是门框边缘的缝隙。攻击者无需破坏门锁,只需沿着缝隙精准施力,就可能导致门的状态从“关闭”滑向“开启”。
这才是研究的深刻之处:它将焦点从“提示词技巧”转向了“模型内部拒答边界的稳定性”。
二、连续视角:将越狱视为行为空间的滑动过程
为研究RED,论文引入了“连续输入变换”的视角。研究者并未孤立地分析最终的越狱提示,而是将原始有害提示与越狱提示置于同一嵌入空间,并假设其间存在一条连续的变换路径。
这一视角转换具有方法论意义。
文本是离散的,但模型内部处理的是连续向量。从“拒答”起点到“回答”终点,模型行为可能在这条路径的某一点发生突变。论文关注的核心正是这个转折点:当行为翻转时,有害语义是否保持不变?
如果答案是肯定的,则表明问题不在于风险识别,而在于模型在明知有害的情况下,其行为决策被某个局部方向“推动”了。RED正是这种可被利用的局部行为自由度。
三、RED的核心:语义不变,行为可变
理解RED需要拆解两个问题:第一,输入变化是否改变了模型对“请求有害性”的判断?第二,输入变化是否改变了模型“回答或拒答”的最终行为?
理想情况下,两者应强相关:语义有害则行为拒答。但RED揭示的现实是两者可以解耦:有害语义未变,但拒答行为却被轻易扰动。这正是安全对齐的脆弱点。
论文进一步证明,在所有不改变有害语义的扰动中,只有那些投影到RED方向上的扰动才能有效引发越狱。这解释了攻击者为何倾向于添加大量背景或格式——这些“包装”本质上是在探索并放大拒答边界附近的逃逸方向。
四、追溯根源:将RED分解至算子层面
论文不止于提出概念,更试图追溯RED的起源。通过分析Transformer架构,作者将RED分解至不同算子层面,包括归一化层、自注意力、前馈网络与残差连接。
其中,“泄漏源”与“终端源”两个概念尤为关键。
“泄漏源”类似于中间层的信号泄露,即与回答/拒答行为相关的信号在传递过程中,偏离了原本与有害语义绑定的路径。
“终端源”则更为根本,它指最终影响行为决策、且无法用有害语义解释的那部分信号。这意味着安全失败未必发生在“风险识别”环节,完全可能发生在“识别后的行为决策”环节。
这对安全实践者是重要提醒。过去常将“识别”与“决策”视为独立阶段,但在大模型内部,它们共享同一套神经网络参数。模型可能已完成风险识别,但最终输出仍可能被上下文、格式或其他任务目标带偏。“终端源”就像是拒答主链路旁的一条“决策旁路”。
五、新增Token的风险:开辟新的内部传输通道
论文的首个实验发现值得警惕:新增token维度会显著暴露RED。
许多越狱攻击的共同点是在原始请求外附加大量token,如角色设定或场景描述。论文通过技术手段将不同长度的提示对齐至同一空间后发现,引入额外token维度会打破不同算子间原本相互抵消的效应,使非零RED显现。
这是因为新增token创造了新的内部信号传输通道,使得“泄漏源”和“终端源”的影响得以传递和放大。
更直白地说,越狱提示中那些看似冗长的“包装”,不仅是在迷惑模型,更可能在模型内部增加了攻击者可操作的行为自由度。
这对安全评测提出了新要求:不能仅测试简短有害请求是否被拒,必须评估其在长上下文、复杂格式或多轮对话中,拒答边界是否依然稳固。在智能体场景下,问题将更加严峻,因为每次工具调用或记忆写入都可能引入新token维度,从而开辟新的逃逸通道。
六、越狱成功往往发生得更早
论文的第二个发现是:成功的越狱,其行为转变基本沿RED发生,且与“终端源”高度相关。
研究者在从有害提示到越狱提示的连续路径上采样,观察模型何时开始“破防”。结果发现,许多样本在路径行进至一半,甚至仅5%时,越狱就已成功。
这说明,最终那个精心设计的越狱提示,可能并非“魔法”的全部。真正的行为转变,在提示演变的中途就已发生。模型拒答状态的松动,可能远早于攻击的最终呈现。
这警示我们,安全系统不能只监控最终输入输出。对于多轮对话和智能体任务,必须关注模型在整个执行链中的行为是否出现了逐步的、累积性的安全偏离。
七、安全与可用性冲突的结构性根源
这篇论文从RED的角度,为安全与可用性的经典冲突提供了结构性解释。
工程实践中常陷入两难:收紧安全策略则误拒率升高,放松则越狱风险增大。论文指出,深层原因在于:要精确消除有害区域内的RED,模型共享的表达模块就必须完成一个近乎不可能的任务——既要抹除有害区域的逃逸方向,又不能损害良性区域的正常回答能力。
如果这两类需求在模型的表征空间中并不一致,那么同一组参数就无法同时完美满足。换言之,模型的安全能力与通用能力并非独立模块,它们共享同一套“参数基底”。强化一方,往往无意中会削弱另一方。这种结构性张力,是“彻底消灭越狱”在工程上极其困难的根源。
八、对安全评测的工程启示
这篇论文的核心工程启示在于,推动安全评测从“枚举越狱样本”转向“评估拒答边界的稳定性”。
传统红队测试必要但有限,它只能覆盖已知攻击模式。RED视角提醒我们,更关键的问题是:在一个已知有害请求周围,模型是否存在大量语义不变但行为可变的脆弱方向?
基于此,实际的安全评测体系应考虑增强以下几类能力:
1. 新增Token鲁棒性测试:对同一有害意图,不仅测试其简短表达,更要测试其在长上下文、复杂格式、角色扮演或多轮交互中的稳定性。
2. 局部扰动稳定性测试:构造一批语义保持但表达各异的改写、扩写或上下文组合,观察模型的拒答行为是否容易因细微扰动而改变。
3. 过程安全监控:特别是在智能体场景中,风险往往是累积形成的。安全系统需要监控模型在整个任务执行过程中的中间状态,而非仅仅最终输出。
4. 拒答链路诊断:当安全失败发生时,需区分根源是“风险识别失败”还是“决策执行被干扰”。前者需要加强风险识别,后者则需要加固行为决策链路的稳定性。
九、研究的边界与局限
当然,这篇极具启发性的论文也有其明确边界,它并未也无意解释所有越狱现象。
首先,其对有害语义的形式化基于局部一阶近似,而真实大模型的语义理解是高度非线性的,可能涉及更复杂的高阶交互。
其次,实验中的关键子空间是针对每一对有害-越狱样本单独构建的,这有利于受控分析,但尚未找到一个通用的、样本无关的RED方向。
最后,论文目前主要证明了RED与越狱成功的强相关性,但尚未通过干预实验来充分验证其因果关系。
因此,它更像一个强大的机制解释与诊断框架,而非一个即插即用的防御方案。
十、核心观点与未来方向
这篇论文最核心的观点是:越狱攻击利用的,未必是模型未能识别风险,而是模型在识别风险之后,其内部仍存在从拒答滑向回答的局部行为通道。
这深刻影响了我们对AI安全的认知。若仅将安全视为输入输出分类问题,就会认为只要风险识别够准、输出过滤够严即可。但RED视角表明,模型内部的“回答-拒答”决策边界本身的稳固性,同样需要被系统评估和加固。
尤其在智能体时代,模型不再静态地回答单次查询,而是在动态上下文中交互、思考与执行。安全风险也不再仅仅源于一个明确的恶意输入,更可能来自整个执行过程中无数细微的局部偏移和行为累积。
因此,未来大模型的安全评测,必然要超越“能否拒绝这条提示词”。更本质的问题将是:
模型能否在长上下文中保持稳定的安全边界?
模型能否在多轮复杂任务中确保安全目标不漂移?
模型能否在工具返回和外部信息干扰下,不被新开的上下文通道带偏?
模型能否在准确识别风险之后,依然坚定地执行拒答策略?
这篇论文没有给出终极答案,但它提供了一个宝贵的视角:对齐,不是在模型内部创造一个绝对安全的“孤岛”,而是在其复杂、高维的表征空间中,努力塑造一条稳固的“行为决策边界”。只要这条边界附近还存在拒答逃逸方向,攻防之间的动态博弈就不会停止。





