顶尖团队1个月猎杀271个漏洞：Claude Mythos安全测评揭秘

2026-05-20阅读 0热度 0

Claude

Mozilla近期发布的一篇技术复盘博文，揭示了浏览器安全领域的一次范式转变。

Firefox团队通过集成Claude Mythos Preview模型，在30天内完成了423个安全漏洞的修复。这一数字具有里程碑意义——它超过了Firefox过去15个月的漏洞修复总量。

纵向对比更能说明问题：2025财年，Firefox平均每月修复的安全漏洞约为21.5个；即便是同期工作量较大的4月，修复量也仅为31个。此次单月423个的修复成果，标志着AI驱动安全审计的效率已实现数量级提升。

核心突破：从“幻觉噪音”到“精准猎手”

“漏洞定位的难度骤然降低。” Mozilla工程师在博文中如此描述。

此前，AI生成的安全漏洞报告因高误报率而备受诟病，常被开发者视为需要额外验证成本的“噪音”。维护者不得不耗费大量精力去甄别每一个“潜在发现”，结果往往徒劳无功。

当前局面的根本性扭转，源于两大要素的同步进化：其一，代码理解与推理模型的底层能力取得了实质性飞跃；其二，工程团队驾驭模型进行规模化漏洞挖掘的方法论趋于成熟。

简言之，模型能力的指数增长与工程实践的经验积累形成合力，共同催化了单月修复423个漏洞这一突破性成果。

成果解码：271个漏洞，180个高危，部分潜伏超20年

此次合作始于今年2月。Firefox团队最初采用Claude Opus 4.6模型，在Firefox 148版本中成功修复了22个安全漏洞。

当项目推进至Firefox 150版本时，团队切换至新发布的Mythos Preview模型。效能提升立竿见影：该模型单次扫描便识别出271个安全漏洞。

漏洞的严重性分布更值得关注：其中180个被评级为“高危”，80个为“中危”，11个为“低危”。高危漏洞意味着攻击者可能通过构造恶意网页直接威胁用户安全。此类漏洞历来发现成本极高，往往依赖外部安全研究员通过悬赏项目提交，单个漏洞赏金可达数千乃至上万美元。

Mythos模型一次性完成了271个此类漏洞的挖掘。随后，该模型在149.0.2、150.0.1及150.0.2等后续版本中持续产出，最终贡献了4月总修复量423个漏洞中的271个。其余漏洞来源为：41个来自外部安全研究员，111个由内部团队通过其他模型及模糊测试等方法发现。

Mozilla进一步披露了其中12个漏洞的细节。一个涉及HTML ``元素的漏洞在代码库中潜伏了15年；另一个与XSLT处理相关的缺陷，存在时间更是长达20年。

攻克堡垒：Mythos成功挖掘“沙箱逃逸”漏洞

最令安全界瞩目的，是Mythos发现了多个“沙箱逃逸”漏洞。

现代浏览器通过沙箱机制隔离网页进程，旨在将潜在攻击限制在沙箱内部。沙箱逃逸漏洞则允许攻击者突破隔离，获取更高系统权限。

这类漏洞的挖掘极具挑战性，传统模糊测试方法很难触及。在Mozilla的漏洞赏金计划中，沙箱逃逸类漏洞的顶级赏金高达2万美元，处于赏金体系的最高层级。

Firefox安全工程师Brian Grindsight指出：“Mythos发现的沙箱逃逸漏洞数量，已超过了人类安全研究员的历史发现总和。”

其挖掘方式也体现了深度推理能力：模型会自行编写恶意补丁注入沙箱进程，并以此测试浏览器核心安全组件的坚固性。整个过程不仅需要创造性思维，更依赖于对浏览器多进程架构的透彻理解。

工程架构：“Agentic Harness”系统与一行代码的模型切换

强大的模型是基础，但高效的工程化流程才是实现规模化的关键。

项目初期，团队尝试使用GPT-4或Claude Sonnet 3.5进行“静态代码分析”，但因误报率过高而无法规模化应用。

“Agentic Harness”系统的引入成为转折点。该系统的核心工作流如下：

漏洞发现： 向模型提交代码片段，由其进行静态分析以识别潜在缺陷。
动态验证： 模型需生成可执行的测试用例来验证其假设。仅当漏洞可被稳定复现时，报告才会被采纳。
去重与分诊： 自动与现有漏洞数据库比对，过滤重复报告。
跟踪与修复： 确认有效的漏洞将进入标准的安全漏洞修复生命周期流程。

流程跑通后，团队实施了并行化扫描策略——在多台临时虚拟机上同时运行任务，每台机器负责扫描特定的代码文件或函数模块。

该架构的优势在于其模块化设计。一旦自动化流水线搭建完成，更换底层模型变得异常简便，几乎只需修改一行配置代码。从Opus 4.6切换到Mythos Preview实现了无缝衔接。模型每次迭代升级，都直接带动整个流水线在发现广度、验证精度和报告质量上的同步提升。

人工闭环：超过百名工程师参与的修复行动

必须明确，AI发现漏洞仅是起点。

Brian Grinstead在博文中强调：每一个漏洞的修复，都严格遵循标准软件开发流程——由一名工程师编写补丁，再由另一名工程师进行代码审查。AI生成的补丁仅作为参考草案，绝不会直接部署至生产环境。

为应对此次涌出的数百个漏洞，超过100名工程师投入了相关工作，涵盖补丁开发、代码审查、管道维护、漏洞分类、修复测试及发布管理等各个环节。这构成了Firefox有史以来最大规模的一次集中安全修复行动，也由此交付了迄今最安全的浏览器版本。

战略分野：Anthropic与OpenAI的AI安全路径

Firefox修复的423个漏洞，或许只是AI重塑网络安全格局的开端。

在AI安全能力的前沿，Anthropic与OpenAI正展现出不同的战略取向。

Anthropic方面，在发布Claude Mythos Preview的同时，其“Project Glasswing”（玻璃翼计划）也浮出水面。该公司发布了迄今最强的代码安全模型，却采取了相对封闭的部署策略。据称，Mythos已在主流操作系统和浏览器中发现了数千个高危漏洞，甚至包括一个在OpenBSD中潜藏27年的古老缺陷。

OpenAI则选择了更为开放的路径。在Anthropic发布Mythos约一周后，OpenAI迅速推出了GPT-5.4-Cyber模型，并将其“威胁分析中心”计划的访问权限扩展至数千名个人防御者和数百个安全团队。近期，其更强大的GPT-5.5-Cyber已面向顶级威胁分析中心用户开放，功能覆盖漏洞挖掘、恶意软件分析与攻击链逆向工程。

OpenAI官方博客数据显示，GPT-5.5-Cyber在网络攻防基准测试中取得了81.9%的得分。其逻辑是构建一个分层授权体系：验证身份、分级授权，旨在让尽可能多的防御者获得强大的AI辅助工具。

目前，Anthropic与OpenAI均在构筑自身的技术与生态壁垒。然而，AI安全能力的扩散速度可能远超预期。这场决定未来网络安全基石的竞赛，序幕刚刚拉开。