GPT-5.5-Cyber 满血版 vs Claude Mythos 5 谁更强

2026-06-23阅读 0热度 0
Claude

就在刚刚,OpenAI 直接放出了满血版 GPT-5.5-Cyber

CyberGym 安全评测排行榜上,GPT-5.5-Cyber 得分 85.6%,单模型最高分。Claude Mythos 5 紧随其后,83.8%。Claude Opus 4.7 排末尾,73.1%。

这时间点选的,只能说有点意思——那边 Claude Mythos 5 还在一纸禁令里没缓过来,这边直接把大招甩出来了。

而且不只是一个模型。OpenAI 今天一口气升级了整个 Daybreak 网络安全计划。

Daybreak 是 OpenAI 今年 5 月推出的网络安全平台,用 AI 模型帮企业和开源项目找漏洞、验证漏洞、生成补丁。今天这波更新,力度不小:用于代码安全扫描的 Codex Security 插件全面升级,联合 30 家全球安全巨头加入合作伙伴计划,还启动了一个叫 Patch the Planet 的项目,专门帮 Python、Go、cURL 这些开源项目修复安全漏洞。

Codex Security 今年 3 月正式上线,到现在不到四个月。在这期间它扫描了 3 万多个代码库,覆盖超过 3000 万次代码提交,自动修复了 50 万个安全漏洞,另外还有 7 万多个由人工审核确认修复。

之前内测的时候数据更亮眼:120 万次提交,扫描出 792 个关键漏洞,超过 1 万个高危漏洞。堆缓冲区溢出、双重释放、认证绕过——GnuTLS、OpenSSH、Chromium 这些知名开源项目全中招了。Firefox、Safari、OpenBSD、FreeBSD 这些主流浏览器和操作系统也都被发现并验证了安全漏洞,部分补丁已经提交。

升级后的 Codex Security 直接嵌入 Codex,开发者写代码的时候可以一键启动安全扫描,自动生成补丁,全程人工审核。操作流程也简单:打开 Codex 桌面客户端,在插件页面添加 Codex Security 插件,安装好后点「Try in chat」,选一个代码文件夹,点发送就开始扫描了。CLI 也差不多,一行命令搞定。

curl -fsSL https://openai.com/codex/security/scan.sh | bash

这里有个关键区别:通用版 GPT-5.5 碰到安全相关的请求经常直接拒绝,但 GPT-5.5-Cyber 对认证过的安全研究人员放开了限制,安全能力也更强。目前只向经过验证的防御方开放。

从测试数据来看,这种差异非常明显。ExploitGym 测试的是 AI 能不能把已知漏洞变成真正跑得起来的攻击代码。GPT-5.5-Cyber 得分 39.5%,通用版 GPT-5.5 只有 25.95%——差了将近一倍。SEC-bench Pro 测试长周期漏洞挖掘和概念验证生成,GPT-5.5-Cyber 69.8%,通用版 63.1%。

这次 OpenAI 还联合了 30 家合作伙伴。Cisco、IBM、Cloudflare 这些耳熟能详的名字都在里面,全球头部网络安全公司基本到齐了。这些公司可以在自己的安全产品里接入 GPT-5.5 的能力,直接给客户用。

开源社区这边,OpenAI 也没落下。

全世界的软件基础设施跑在开源代码上面,但这些项目大多只有几个人在维护。据调查,94% 的主流开源项目,90% 以上的代码由不到 10 个开发者贡献。AI 让漏洞发现速度暴涨,但维护者的时间和精力没有跟着涨。报告越来越多,误报也越来越多,真正的问题反而被淹没了。

OpenAI 和安全公司 Trail of Bits 联合发起了 Patch the Planet 项目。专业安全研究人员带着 Codex Security 和 GPT-5.5-Cyber 直接进入开源项目,帮维护者验证漏洞、去重、开发补丁。首批 30 多个开源项目已经加入,包括 cURL、Go、Python、Sigstore 和 pyca/cryptography。经过 5 天冲刺,数百个安全问题已提交审查。

Claude Mythos 5 还没回来,OpenAI 已经迫不及待要放大招了。GPT-5.5-Cyber,可能还只是个开始。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策