AI安全新挑战：古文漏洞倒逼全域防护升级策略

2026-05-24阅读 0热度 0

一项发表于ICLR 2026的研究揭示了一个关键的安全漏洞：利用文言文构造的越狱提示，对主流大语言模型的攻击成功率可达100%。

这一发现直指古典语言在AI安全对齐中的系统性盲区。

研究结论明确指出，当前大模型的安全防护机制在面对文言文、拉丁文及梵文等古典语言时，存在普遍性失效。研究者提出的“CC-BOS”攻击框架，在六大主流模型上实现了完全穿透。

一、为什么偏偏是文言文？

论文指出，大模型的安全过滤器主要针对现代语言（尤其是英语）的敏感词库和攻击模式进行训练和拦截。文言文凭借其固有的语言特性，构成了三重“语义屏障”：

首先，文言文高度凝练，信息密度极大。安全系统在极短的文本跨度内难以有效识别危险模式。

其次，文言文一词多义现象普遍。同一字词在不同上下文中的语义差异显著，增加了安全机制精准判定的难度。

最后，文言文大量使用隐喻、用典、借代等修辞手法。现代的危险指令可被无缝“转译”为看似无害的古典表达，实现语义层面的伪装。

这导致模型本体能够理解文言指令的真实意图，但其表层安全检测器却无法触发拦截。论文将此定义为“高能力-低对齐”的分布偏移问题。

CC-BOS，全称为“Classical Chinese Bio-inspired Optimization Search”（文言文生物启发式优化搜索），是研究者为系统性验证该漏洞而设计的攻击框架。

其核心是将越狱提示的生成过程，建模为一个八维策略空间的搜索问题。这八个维度涵盖：角色身份、行为引导、机制设计、隐喻映射、表达风格、知识关联、情境设置与触发模式。

其中，隐喻映射是成功的关键。该模块负责将现代敏感概念精准映射为古代术语与典故，在完整保留攻击语义的前提下，完成语言风格的古化转换。

框架随后引入了“果蝇优化算法”进行策略搜索。该算法模拟果蝇觅食行为，通过“嗅觉搜索”（局部精细调优）、“视觉搜索”（全局收敛）与“柯西变异”（跳出局部最优）三种机制，在庞大的组合空间中高效定位最优攻击向量。

研究在六个主流模型上进行了测试，包括GPT-4o、Claude-3.7 Sonnet、Gemini-2.5-Flash、DeepSeek-Reasoner、Qwen3与Grok-3。

在AdvBench恶意行为基准测试中，CC-BOS框架对所有模型的攻击成功率均为100%。

作为对比，此前表现最佳的ICRT方法在Claude-3.7上的成功率仅为40%；PAIR方法在多数模型上接近零成功。

攻击效率优势显著：PAIR平均需40-60次查询，TAP需50-93次，而CC-BOS仅需1.12至2.38次。

实验将攻击范围扩展至拉丁语与梵语，成功率亦维持在94%以上。这证实了漏洞的根源在于古典语言面临的系统性风险，而非文言文特有。

跨语言对比实验显示，文言文攻击成功率最高（100%），现代中文为86%，英语为82%。

更值得关注的是，在模型部署了Llama Guard等多层防御的复合场景下，现有攻击方法几近失效，而CC-BOS仍能保持16%的穿透成功率。

随着AI智能体日益频繁地执行操作系统指令、操控外部工具，此漏洞的潜在影响已超出纯文本范畴。攻击者可能无需编写复杂代码，仅需将一段精心构造的文言文指令嵌入网页或邮件，即可诱导高权限智能体绕过安全边界，执行任意操作。

设想一个场景：一个具备文件管理与邮件处理权限的AI助手。攻击者仅需在某个网页中嵌入一段文言文指令。当智能体访问并“阅读”该内容时，其安全系统可能因语言屏障而失守，导致它执行删除文件或外发敏感邮件等恶意操作。

因此，这并非一个简单的程序缺陷，而是一个触及AI安全对齐技术路线根本的挑战。它向所有研究者警示：安全防护的构建必须系统性地覆盖多语言、多文化的复杂语境，不能局限于现代主流语言和常见攻击模式。

AI能力的边界正在快速扩展，其安全漏洞的形态也愈发隐蔽和深刻。文言文越狱或许只是冰山一角。构建真正稳健的AI安全，要求我们从纯粹的技术堆叠中跳脱出来，融合语言学、文化研究与社会计算等多维视角，建立立体、深层的防御体系。