AI安全新挑战:古文漏洞倒逼全域防护升级策略
一项发表于ICLR 2026的研究揭示了一个关键的安全漏洞:利用文言文构造的越狱提示,对主流大语言模型的攻击成功率可达100%。
这一发现直指古典语言在AI安全对齐中的系统性盲区。
研究结论明确指出,当前大模型的安全防护机制在面对文言文、拉丁文及梵文等古典语言时,存在普遍性失效。研究者提出的“CC-BOS”攻击框架,在六大主流模型上实现了完全穿透。
一、为什么偏偏是文言文?
论文指出,大模型的安全过滤器主要针对现代语言(尤其是英语)的敏感词库和攻击模式进行训练和拦截。文言文凭借其固有的语言特性,构成了三重“语义屏障”:
首先,文言文高度凝练,信息密度极大。安全系统在极短的文本跨度内难以有效识别危险模式。
其次,文言文一词多义现象普遍。同一字词在不同上下文中的语义差异显著,增加了安全机制精准判定的难度。
最后,文言文大量使用隐喻、用典、借代等修辞手法。现代的危险指令可被无缝“转译”为看似无害的古典表达,实现语义层面的伪装。
这导致模型本体能够理解文言指令的真实意图,但其表层安全检测器却无法触发拦截。论文将此定义为“高能力-低对齐”的分布偏移问题。
二、什么是CC-BOS架构?
CC-BOS,全称为“Classical Chinese Bio-inspired Optimization Search”(文言文生物启发式优化搜索),是研究者为系统性验证该漏洞而设计的攻击框架。
其核心是将越狱提示的生成过程,建模为一个八维策略空间的搜索问题。这八个维度涵盖:角色身份、行为引导、机制设计、隐喻映射、表达风格、知识关联、情境设置与触发模式。
其中,隐喻映射是成功的关键。该模块负责将现代敏感概念精准映射为古代术语与典故,在完整保留攻击语义的前提下,完成语言风格的古化转换。
框架随后引入了“果蝇优化算法”进行策略搜索。该算法模拟果蝇觅食行为,通过“嗅觉搜索”(局部精细调优)、“视觉搜索”(全局收敛)与“柯西变异”(跳出局部最优)三种机制,在庞大的组合空间中高效定位最优攻击向量。
三、实验结果
研究在六个主流模型上进行了测试,包括GPT-4o、Claude-3.7 Sonnet、Gemini-2.5-Flash、DeepSeek-Reasoner、Qwen3与Grok-3。
在AdvBench恶意行为基准测试中,CC-BOS框架对所有模型的攻击成功率均为100%。
作为对比,此前表现最佳的ICRT方法在Claude-3.7上的成功率仅为40%;PAIR方法在多数模型上接近零成功。
攻击效率优势显著:PAIR平均需40-60次查询,TAP需50-93次,而CC-BOS仅需1.12至2.38次。
实验将攻击范围扩展至拉丁语与梵语,成功率亦维持在94%以上。这证实了漏洞的根源在于古典语言面临的系统性风险,而非文言文特有。
跨语言对比实验显示,文言文攻击成功率最高(100%),现代中文为86%,英语为82%。
更值得关注的是,在模型部署了Llama Guard等多层防御的复合场景下,现有攻击方法几近失效,而CC-BOS仍能保持16%的穿透成功率。
四、这则漏洞意味着什么?
随着AI智能体日益频繁地执行操作系统指令、操控外部工具,此漏洞的潜在影响已超出纯文本范畴。攻击者可能无需编写复杂代码,仅需将一段精心构造的文言文指令嵌入网页或邮件,即可诱导高权限智能体绕过安全边界,执行任意操作。
设想一个场景:一个具备文件管理与邮件处理权限的AI助手。攻击者仅需在某个网页中嵌入一段文言文指令。当智能体访问并“阅读”该内容时,其安全系统可能因语言屏障而失守,导致它执行删除文件或外发敏感邮件等恶意操作。
因此,这并非一个简单的程序缺陷,而是一个触及AI安全对齐技术路线根本的挑战。它向所有研究者警示:安全防护的构建必须系统性地覆盖多语言、多文化的复杂语境,不能局限于现代主流语言和常见攻击模式。
AI能力的边界正在快速扩展,其安全漏洞的形态也愈发隐蔽和深刻。文言文越狱或许只是冰山一角。构建真正稳健的AI安全,要求我们从纯粹的技术堆叠中跳脱出来,融合语言学、文化研究与社会计算等多维视角,建立立体、深层的防御体系。