大模型对齐后为何仍被越狱？深度解析安全机制的结构性漏洞

2026-05-19阅读 0热度 0

大模型

大模型越狱通常被简化为寻找破解安全机制的“咒语”。从对抗后缀、角色扮演到自动化攻击模板，研究已归纳出超过28种方法。这些尝试揭示了一个核心事实：即使经过RLHF与安全微调，大模型在面对特定输入时，仍可能突破预设的安全护栏。

然而，一项新研究提出了一个更根本的问题：为什么已完成对齐的大模型，其内部依然存在可供越狱利用的固有空间？

来自中科院计算所与国科大的论文《Why Do Aligned LLMs Remain Jailbreakable》引入了关键概念：“拒答逃逸方向”。其核心在于，越狱未必需要“欺骗”模型的风险识别系统；它可以通过不改变有害语义的输入扰动，直接将模型行为从“拒答”推向“回答”。

论文链接：https://arxiv.org/pdf/2605.08878

这一视角至关重要。它意味着模型越狱可能并非源于风险识别失败。更复杂的情况是：模型已识别到有害请求，但其“回答”与“拒答”之间的行为链路，被其他方向的向量干扰所牵动。

一、越狱的本质：绕过拒答链路，而非单纯欺骗

传统观点将越狱视为“欺骗”，例如将恶意请求伪装成学术讨论。这种解释部分正确，但不够完整。现实中，许多越狱提示并未完全掩盖其恶意意图，攻击目标依然明确，只是被嵌套在复杂的上下文或格式约束中。模型可能已“理解”风险，但最终仍被诱导输出。

论文提出的“拒答逃逸方向”，特指存在于有害输入附近的一类特殊扰动方向。这些扰动不会改变模型对有害语义的编码，却能直接影响其最终的输出行为决策。

可以做一个类比：如果安全对齐是在模型中安装了一扇“安全门”，那么RED就像是门框边缘的缝隙。攻击者无需破坏门锁，只需沿着缝隙精准施力，就可能导致门的状态从“关闭”滑向“开启”。

这才是研究的深刻之处：它将焦点从“提示词技巧”转向了“模型内部拒答边界的稳定性”。

二、连续视角：将越狱视为行为空间的滑动过程

为研究RED，论文引入了“连续输入变换”的视角。研究者并未孤立地分析最终的越狱提示，而是将原始有害提示与越狱提示置于同一嵌入空间，并假设其间存在一条连续的变换路径。

这一视角转换具有方法论意义。

文本是离散的，但模型内部处理的是连续向量。从“拒答”起点到“回答”终点，模型行为可能在这条路径的某一点发生突变。论文关注的核心正是这个转折点：当行为翻转时，有害语义是否保持不变？

如果答案是肯定的，则表明问题不在于风险识别，而在于模型在明知有害的情况下，其行为决策被某个局部方向“推动”了。RED正是这种可被利用的局部行为自由度。

三、RED的核心：语义不变，行为可变

理解RED需要拆解两个问题：第一，输入变化是否改变了模型对“请求有害性”的判断？第二，输入变化是否改变了模型“回答或拒答”的最终行为？

理想情况下，两者应强相关：语义有害则行为拒答。但RED揭示的现实是两者可以解耦：有害语义未变，但拒答行为却被轻易扰动。这正是安全对齐的脆弱点。

论文进一步证明，在所有不改变有害语义的扰动中，只有那些投影到RED方向上的扰动才能有效引发越狱。这解释了攻击者为何倾向于添加大量背景或格式——这些“包装”本质上是在探索并放大拒答边界附近的逃逸方向。

四、追溯根源：将RED分解至算子层面

论文不止于提出概念，更试图追溯RED的起源。通过分析Transformer架构，作者将RED分解至不同算子层面，包括归一化层、自注意力、前馈网络与残差连接。

其中，“泄漏源”与“终端源”两个概念尤为关键。

“泄漏源”类似于中间层的信号泄露，即与回答/拒答行为相关的信号在传递过程中，偏离了原本与有害语义绑定的路径。

“终端源”则更为根本，它指最终影响行为决策、且无法用有害语义解释的那部分信号。这意味着安全失败未必发生在“风险识别”环节，完全可能发生在“识别后的行为决策”环节。

这对安全实践者是重要提醒。过去常将“识别”与“决策”视为独立阶段，但在大模型内部，它们共享同一套神经网络参数。模型可能已完成风险识别，但最终输出仍可能被上下文、格式或其他任务目标带偏。“终端源”就像是拒答主链路旁的一条“决策旁路”。

五、新增Token的风险：开辟新的内部传输通道

论文的首个实验发现值得警惕：新增token维度会显著暴露RED。

许多越狱攻击的共同点是在原始请求外附加大量token，如角色设定或场景描述。论文通过技术手段将不同长度的提示对齐至同一空间后发现，引入额外token维度会打破不同算子间原本相互抵消的效应，使非零RED显现。

这是因为新增token创造了新的内部信号传输通道，使得“泄漏源”和“终端源”的影响得以传递和放大。

更直白地说，越狱提示中那些看似冗长的“包装”，不仅是在迷惑模型，更可能在模型内部增加了攻击者可操作的行为自由度。

这对安全评测提出了新要求：不能仅测试简短有害请求是否被拒，必须评估其在长上下文、复杂格式或多轮对话中，拒答边界是否依然稳固。在智能体场景下，问题将更加严峻，因为每次工具调用或记忆写入都可能引入新token维度，从而开辟新的逃逸通道。

六、越狱成功往往发生得更早

论文的第二个发现是：成功的越狱，其行为转变基本沿RED发生，且与“终端源”高度相关。

研究者在从有害提示到越狱提示的连续路径上采样，观察模型何时开始“破防”。结果发现，许多样本在路径行进至一半，甚至仅5%时，越狱就已成功。

这说明，最终那个精心设计的越狱提示，可能并非“魔法”的全部。真正的行为转变，在提示演变的中途就已发生。模型拒答状态的松动，可能远早于攻击的最终呈现。

这警示我们，安全系统不能只监控最终输入输出。对于多轮对话和智能体任务，必须关注模型在整个执行链中的行为是否出现了逐步的、累积性的安全偏离。

七、安全与可用性冲突的结构性根源

这篇论文从RED的角度，为安全与可用性的经典冲突提供了结构性解释。

工程实践中常陷入两难：收紧安全策略则误拒率升高，放松则越狱风险增大。论文指出，深层原因在于：要精确消除有害区域内的RED，模型共享的表达模块就必须完成一个近乎不可能的任务——既要抹除有害区域的逃逸方向，又不能损害良性区域的正常回答能力。

如果这两类需求在模型的表征空间中并不一致，那么同一组参数就无法同时完美满足。换言之，模型的安全能力与通用能力并非独立模块，它们共享同一套“参数基底”。强化一方，往往无意中会削弱另一方。这种结构性张力，是“彻底消灭越狱”在工程上极其困难的根源。

八、对安全评测的工程启示

这篇论文的核心工程启示在于，推动安全评测从“枚举越狱样本”转向“评估拒答边界的稳定性”。

传统红队测试必要但有限，它只能覆盖已知攻击模式。RED视角提醒我们，更关键的问题是：在一个已知有害请求周围，模型是否存在大量语义不变但行为可变的脆弱方向？

基于此，实际的安全评测体系应考虑增强以下几类能力：

1. 新增Token鲁棒性测试：对同一有害意图，不仅测试其简短表达，更要测试其在长上下文、复杂格式、角色扮演或多轮交互中的稳定性。

2. 局部扰动稳定性测试：构造一批语义保持但表达各异的改写、扩写或上下文组合，观察模型的拒答行为是否容易因细微扰动而改变。

3. 过程安全监控：特别是在智能体场景中，风险往往是累积形成的。安全系统需要监控模型在整个任务执行过程中的中间状态，而非仅仅最终输出。

4. 拒答链路诊断：当安全失败发生时，需区分根源是“风险识别失败”还是“决策执行被干扰”。前者需要加强风险识别，后者则需要加固行为决策链路的稳定性。

九、研究的边界与局限

当然，这篇极具启发性的论文也有其明确边界，它并未也无意解释所有越狱现象。

首先，其对有害语义的形式化基于局部一阶近似，而真实大模型的语义理解是高度非线性的，可能涉及更复杂的高阶交互。

其次，实验中的关键子空间是针对每一对有害-越狱样本单独构建的，这有利于受控分析，但尚未找到一个通用的、样本无关的RED方向。

最后，论文目前主要证明了RED与越狱成功的强相关性，但尚未通过干预实验来充分验证其因果关系。

因此，它更像一个强大的机制解释与诊断框架，而非一个即插即用的防御方案。

十、核心观点与未来方向

这篇论文最核心的观点是：越狱攻击利用的，未必是模型未能识别风险，而是模型在识别风险之后，其内部仍存在从拒答滑向回答的局部行为通道。

这深刻影响了我们对AI安全的认知。若仅将安全视为输入输出分类问题，就会认为只要风险识别够准、输出过滤够严即可。但RED视角表明，模型内部的“回答-拒答”决策边界本身的稳固性，同样需要被系统评估和加固。

尤其在智能体时代，模型不再静态地回答单次查询，而是在动态上下文中交互、思考与执行。安全风险也不再仅仅源于一个明确的恶意输入，更可能来自整个执行过程中无数细微的局部偏移和行为累积。

因此，未来大模型的安全评测，必然要超越“能否拒绝这条提示词”。更本质的问题将是：

模型能否在长上下文中保持稳定的安全边界？
模型能否在多轮复杂任务中确保安全目标不漂移？
模型能否在工具返回和外部信息干扰下，不被新开的上下文通道带偏？
模型能否在准确识别风险之后，依然坚定地执行拒答策略？

这篇论文没有给出终极答案，但它提供了一个宝贵的视角：对齐，不是在模型内部创造一个绝对安全的“孤岛”，而是在其复杂、高维的表征空间中，努力塑造一条稳固的“行为决策边界”。只要这条边界附近还存在拒答逃逸方向，攻防之间的动态博弈就不会停止。