GPT-5.5-Cyber 满血版 vs Claude Mythos 5 谁更强

2026-06-23阅读 0热度 0

Claude

就在刚刚，OpenAI 直接放出了满血版 GPT-5.5-Cyber。

CyberGym 安全评测排行榜上，GPT-5.5-Cyber 得分 85.6%，单模型最高分。Claude Mythos 5 紧随其后，83.8%。Claude Opus 4.7 排末尾，73.1%。

这时间点选的，只能说有点意思——那边 Claude Mythos 5 还在一纸禁令里没缓过来，这边直接把大招甩出来了。

而且不只是一个模型。OpenAI 今天一口气升级了整个 Daybreak 网络安全计划。

Daybreak 是 OpenAI 今年 5 月推出的网络安全平台，用 AI 模型帮企业和开源项目找漏洞、验证漏洞、生成补丁。今天这波更新，力度不小：用于代码安全扫描的 Codex Security 插件全面升级，联合 30 家全球安全巨头加入合作伙伴计划，还启动了一个叫 Patch the Planet 的项目，专门帮 Python、Go、cURL 这些开源项目修复安全漏洞。

Codex Security 今年 3 月正式上线，到现在不到四个月。在这期间它扫描了 3 万多个代码库，覆盖超过 3000 万次代码提交，自动修复了 50 万个安全漏洞，另外还有 7 万多个由人工审核确认修复。

之前内测的时候数据更亮眼：120 万次提交，扫描出 792 个关键漏洞，超过 1 万个高危漏洞。堆缓冲区溢出、双重释放、认证绕过——GnuTLS、OpenSSH、Chromium 这些知名开源项目全中招了。Firefox、Safari、OpenBSD、FreeBSD 这些主流浏览器和操作系统也都被发现并验证了安全漏洞，部分补丁已经提交。

升级后的 Codex Security 直接嵌入 Codex，开发者写代码的时候可以一键启动安全扫描，自动生成补丁，全程人工审核。操作流程也简单：打开 Codex 桌面客户端，在插件页面添加 Codex Security 插件，安装好后点「Try in chat」，选一个代码文件夹，点发送就开始扫描了。CLI 也差不多，一行命令搞定。

curl -fsSL https://openai.com/codex/security/scan.sh | bash

这里有个关键区别：通用版 GPT-5.5 碰到安全相关的请求经常直接拒绝，但 GPT-5.5-Cyber 对认证过的安全研究人员放开了限制，安全能力也更强。目前只向经过验证的防御方开放。

从测试数据来看，这种差异非常明显。ExploitGym 测试的是 AI 能不能把已知漏洞变成真正跑得起来的攻击代码。GPT-5.5-Cyber 得分 39.5%，通用版 GPT-5.5 只有 25.95%——差了将近一倍。SEC-bench Pro 测试长周期漏洞挖掘和概念验证生成，GPT-5.5-Cyber 69.8%，通用版 63.1%。

这次 OpenAI 还联合了 30 家合作伙伴。Cisco、IBM、Cloudflare 这些耳熟能详的名字都在里面，全球头部网络安全公司基本到齐了。这些公司可以在自己的安全产品里接入 GPT-5.5 的能力，直接给客户用。

开源社区这边，OpenAI 也没落下。

全世界的软件基础设施跑在开源代码上面，但这些项目大多只有几个人在维护。据调查，94% 的主流开源项目，90% 以上的代码由不到 10 个开发者贡献。AI 让漏洞发现速度暴涨，但维护者的时间和精力没有跟着涨。报告越来越多，误报也越来越多，真正的问题反而被淹没了。

OpenAI 和安全公司 Trail of Bits 联合发起了 Patch the Planet 项目。专业安全研究人员带着 Codex Security 和 GPT-5.5-Cyber 直接进入开源项目，帮维护者验证漏洞、去重、开发补丁。首批 30 多个开源项目已经加入，包括 cURL、Go、Python、Sigstore 和 pyca/cryptography。经过 5 天冲刺，数百个安全问题已提交审查。

Claude Mythos 5 还没回来，OpenAI 已经迫不及待要放大招了。GPT-5.5-Cyber，可能还只是个开始。

GPT-5.5-Cyber 满血版 vs Claude Mythos 5 谁更强

相关阅读

最新教程

最新资讯