Claude模型实力对比：Opus 4.7与Mythos深度测评

2026-05-17阅读 0热度 0

Claude

Anthropic近期推出了Claude Mythos（神话）模型的预览版本。熟悉Claude产品线的用户可能接触过Opus、Sonnet等公开模型，但Mythos截然不同。它比当前最先进的Opus 4.7更为特殊，其能力特殊性甚至让Anthropic暂时不敢将其全面开放给公众。

官方明确指出，Mythos并非为通用场景设计。它是通过“Project Glasswing”项目，以严格的邀请制形式，专门面向防御性网络安全领域提供的评估版本。这一定位背后有何深意？一份题为《评估Claude Mythos预览版的网络安全能力》的独立报告，为我们揭示了其令人震撼的技术实质。

报告中最具冲击力的案例，是Mythos在OpenBSD操作系统中成功定位了一个远程崩溃漏洞。OpenBSD以其超过二十年的极致安全专注而闻名业界。然而，Mythos在其TCP协议的SACK（选择性确认）实现里，挖掘出了一个自1998年便存在、潜伏长达27年的逻辑缺陷。

该漏洞的机理体现了深层的代码审计挑战。简而言之，OpenBSD在验证TCP SACK块时，检查了数据块结束位置是否在发送窗口内，却遗漏了对起始位置的同等校验。孤立地看，这个缺陷的危害似乎可控。

但Mythos的深度推理能力在此显现。它进一步关联并发现了第二个更底层的漏洞：当某个特定的SACK块同时满足两个特定条件——既要删除链表中的唯一“空洞”，又需追加一个新的“空洞”——代码会向一个NULL指针执行写入操作，直接引发内核级崩溃。

问题的核心在于，触发这条崩溃路径的条件在常规逻辑下是“不可能”成立的，因为一个数值无法同时“大于空洞起点”又“小于等于空洞起点”。然而，TCP序列号采用的32位整数存在“回绕”特性。Mythos通过推理发现，若将SACK块的起点设置在真实窗口约2^31字节之外，减法运算将导致符号位溢出，从而奇迹般地同时满足那两个矛盾条件，打通了这条理论上“不可达”的攻击路径。

复盘整个过程，完成此类攻击需要深度融合对TCP协议规范、内核内存管理、整数溢出语义及漏洞利用链构建的多领域专家知识。这对现有大多数AI模型而言是难以独立跨越的鸿沟。但Mythos在未经针对性训练的前提下，自主实现了这一突破。

Anthropic在技术文档中提供了Opus 4.6与Mythos在漏洞修复与识别能力上的直接对比图表，其性能差距一目了然。

Mythos的能力展示并未止步于此。它在另一个广泛使用的多媒体库FFmpeg中，同样定位了一个从2003年遗留至今的安全漏洞。

在FFmpeg的H.264解码器中，一段用于初始化查找表的代码使用了memset(..., -1, ...)，意图是将所有条目标记为“未被任何切片引用”。但这里存在一个类型宽度不匹配的问题：切片计数器是32位整数，而查找表条目是16位。在正常视频流中，每帧切片数量极少，计数器远达不到65535的上限。然而，Mythos构造了一个极端边界场景：如果单帧包含65536个切片，那么第65535个切片的编号，其16位无符号表示恰好等于-1的对应值（65535）。这会导致解码器错误判断邻居像素的归属关系，进而执行越界内存写入，引发进程崩溃。

至此，你或许会认为Mythos只是一个更高级的自动化代码审计工具。但这种看法低估了其本质。

Mythos在OpenBSD案例中展现的核心能力，是其能够理解并有机串联起TCP协议、内存管理、整数溢出和内核漏洞利用这些离散的知识体系，从而自主构建出完整的攻击链。代码理解、逻辑推理与利用构造——这三者本质上是同一套高阶认知能力的综合体现。

一旦这种能力可以自主运行，其意义就超越了“漏洞发现”，进入了“漏洞武器化”的领域。试想，如果这种能力毫无限制地扩散，意味着什么？意味着获取堪比顶级安全研究员的攻击能力，其技术门槛将趋近于零。

传统网络安全的基石建立在一种基本假设上：攻击者的资源与能力存在上限，防御方可以通过持续修补和体系加固来建立优势。然而，当攻击成本因AI的介入而无限降低时，这一根本假设被动摇了。这正是Anthropic采取极度审慎策略的原因：他们将Mythos“锁定”在受限环境中，仅通过Project Glasswing项目，向包括AWS、苹果、谷歌、微软、英伟达在内的12家核心合作伙伴提供受控的访问权限。

写在最后

Anthropic报告中的一句关键陈述，或许揭示了整个事件最核心、也最值得深思的维度：

我们没有专门训练Mythos去黑系统的能力。这些能力是随着通用能力提升而自动出现的。

这或许才是最具警示意义的发现。我们正在创造和释放的，可能是一种连创造者自身都尚未完全掌握如何安全驾驭与部署的颠覆性力量。

Claude模型实力对比：Opus 4.7与Mythos深度测评

写在最后

相关阅读

最新教程

最新资讯