GPT-5.5突破300黑客评测任务，仅用5000万Token

2026-05-29阅读 0热度 0

网络安全

316项进攻性网络安全任务，GPT-5.5攻破292道，成功率92.4%。这份由澳大利亚研究机构Lyptus Research于5月27日发布的报告明确指出，GPT-5.5已让这套评估体系彻底饱和。

测试覆盖7个基准，涵盖漏洞利用、CTF夺旗到真实CVE复现，每道题均配有人类安全专家的完成时间基线。GPT-5.5的表现已逼近顶级黑客团队的水平。关键在于，剩余24道未解难题已无法绘制出具有统计意义的能力曲线。研究团队判断直截了当——这套评估方法对该类任务“不再适用”。

回溯来看，2025年12月Lyptus团队搭建这套测试时，选取的是当时全球能搜罗到的最棘手题目。到2026年3月首版报告发布时，数据已显现饱和迹象。再到5月，饱和成为定局。短短六个月，从“最难”到“不够用”。

能力曲线加速攀升

真正值得警惕的是这条能力曲线的斜率。几个核心判断：Lyptus自2024年起系统追踪，拟合出的结论令人震惊——AI的进攻性网络安全能力每5到6个月翻一番。

具体数据：2026年初，Claude Opus 4.6的时间地平线为3.2小时，GPT-5.3 Codex为3.1小时。仅两个月后，GPT-5.5直接拉升至5.1小时。而且，只要算力充足，突破12小时测量上限毫无问题，图表甚至无法完整绘制。

另一个变量——Token预算——更能说明问题。GPT-5.5在难度最高的CyberGym基准上，200万Token预算下的正确率为54.4%；当预算推至5000万Token，正确率飙升至86.4%。

同一模型，仅因算力投入增加，成绩飙升32个百分点。

英国人工智能安全研究所（AIUK AI Safety Institute）的研究也得出类似结论：即使将Token预算推至1亿，能力仍在增长，未见平台期。这意味着所有公开的基准测试成绩，都只是有限预算下的跑分结果。真实能力的天花板远高于账面数字。

强大模型受控部署

面对能力飞跃，头部实验室已被迫做出选择。Anthropic于4月发布Claude Mythos Preview模型，但决定不公开——理由是网络安全能力过强，不宜直接开放。作为配套，他们同时推出Project Glasswing，将Mythos部署给关键基础设施的防御方使用。

OpenAI则将GPT-5.5的网络安全能力评级定为“High”，仅比最高级“Critical”低一档，所有攻击相关能力均通过“Trusted Access for Cyber”门控系统管控。METR对Mythos的独立评估同样撞上能力天花板——拟合出的时间地平线至少16小时，但他们对这个数字不敢给出点估计，仅表示“应保持谨慎”。

控制谁能用，是目前唯一拿得出手的策略。但留给决策者的窗口正在快速缩小。Lyptus测量了一个关键指标——适应缓冲期：闭源前沿能力传导到开源模型的时间差。进攻性网络安全领域，这个差距大约在5.7到13.1个月之间。按此速度推算，Mythos和GPT-5.5级别的攻击能力，年内就可能以开源形式落到任何人手里。

评估标尺被击穿

回到核心问题：没人能准确说出当前大模型的上限有多强。这才是最令人不安的部分。

时间地平线方法论的设计逻辑很简单——用比模型能力更难的任务来锚定曲线拐点。但模型把任务全部做完后，拐点消失，曲线无法拟合。评估体系不是被证伪，而是被能力增长甩在了身后。

要造出更难的测试，需要更多时间和人力。现实是，模型能力每半年翻一番，而测试开发周期远超于此。更关键的是英国人工智能安全研究所的发现：只要攻击方愿意多烧算力，就算有更难的题，同样能攻破。评估追不上能力——这个结构性困境已清晰可见。

放到更大框架下看，信号相当明确。一个高度专业化的领域里，人类为AI能力设定的标尺已被彻底击穿。

网络安全恰好是最易量化的领域之一——有明确的成功判据：漏洞找到或未找到，系统攻破或未攻破。连这种硬指标领域的评估都跟不上了，那些更模糊、更难量化的能力维度呢？每6个月翻一番的增速如果持续，一年后能力是今天的4倍，两年后16倍。通往AGI乃至ASI的路上，被击穿的不会只有这一把尺子。看不到边界，比边界本身更危险。

GPT-5.5突破300黑客评测任务，仅用5000万Token

能力曲线加速攀升

强大模型受控部署

评估标尺被击穿

相关阅读

最新教程

最新资讯