GPT-5.5突破300黑客评测任务,仅用5000万Token
316项进攻性网络安全任务,GPT-5.5攻破292道,成功率92.4%。这份由澳大利亚研究机构Lyptus Research于5月27日发布的报告明确指出,GPT-5.5已让这套评估体系彻底饱和。
测试覆盖7个基准,涵盖漏洞利用、CTF夺旗到真实CVE复现,每道题均配有人类安全专家的完成时间基线。GPT-5.5的表现已逼近顶级黑客团队的水平。关键在于,剩余24道未解难题已无法绘制出具有统计意义的能力曲线。研究团队判断直截了当——这套评估方法对该类任务“不再适用”。
回溯来看,2025年12月Lyptus团队搭建这套测试时,选取的是当时全球能搜罗到的最棘手题目。到2026年3月首版报告发布时,数据已显现饱和迹象。再到5月,饱和成为定局。短短六个月,从“最难”到“不够用”。
能力曲线加速攀升
真正值得警惕的是这条能力曲线的斜率。几个核心判断:Lyptus自2024年起系统追踪,拟合出的结论令人震惊——AI的进攻性网络安全能力每5到6个月翻一番。
具体数据:2026年初,Claude Opus 4.6的时间地平线为3.2小时,GPT-5.3 Codex为3.1小时。仅两个月后,GPT-5.5直接拉升至5.1小时。而且,只要算力充足,突破12小时测量上限毫无问题,图表甚至无法完整绘制。
另一个变量——Token预算——更能说明问题。GPT-5.5在难度最高的CyberGym基准上,200万Token预算下的正确率为54.4%;当预算推至5000万Token,正确率飙升至86.4%。
同一模型,仅因算力投入增加,成绩飙升32个百分点。
英国人工智能安全研究所(AIUK AI Safety Institute)的研究也得出类似结论:即使将Token预算推至1亿,能力仍在增长,未见平台期。这意味着所有公开的基准测试成绩,都只是有限预算下的跑分结果。真实能力的天花板远高于账面数字。
强大模型受控部署
面对能力飞跃,头部实验室已被迫做出选择。Anthropic于4月发布Claude Mythos Preview模型,但决定不公开——理由是网络安全能力过强,不宜直接开放。作为配套,他们同时推出Project Glasswing,将Mythos部署给关键基础设施的防御方使用。
OpenAI则将GPT-5.5的网络安全能力评级定为“High”,仅比最高级“Critical”低一档,所有攻击相关能力均通过“Trusted Access for Cyber”门控系统管控。METR对Mythos的独立评估同样撞上能力天花板——拟合出的时间地平线至少16小时,但他们对这个数字不敢给出点估计,仅表示“应保持谨慎”。
控制谁能用,是目前唯一拿得出手的策略。但留给决策者的窗口正在快速缩小。Lyptus测量了一个关键指标——适应缓冲期:闭源前沿能力传导到开源模型的时间差。进攻性网络安全领域,这个差距大约在5.7到13.1个月之间。按此速度推算,Mythos和GPT-5.5级别的攻击能力,年内就可能以开源形式落到任何人手里。
评估标尺被击穿
回到核心问题:没人能准确说出当前大模型的上限有多强。这才是最令人不安的部分。
时间地平线方法论的设计逻辑很简单——用比模型能力更难的任务来锚定曲线拐点。但模型把任务全部做完后,拐点消失,曲线无法拟合。评估体系不是被证伪,而是被能力增长甩在了身后。
要造出更难的测试,需要更多时间和人力。现实是,模型能力每半年翻一番,而测试开发周期远超于此。更关键的是英国人工智能安全研究所的发现:只要攻击方愿意多烧算力,就算有更难的题,同样能攻破。评估追不上能力——这个结构性困境已清晰可见。
放到更大框架下看,信号相当明确。一个高度专业化的领域里,人类为AI能力设定的标尺已被彻底击穿。
网络安全恰好是最易量化的领域之一——有明确的成功判据:漏洞找到或未找到,系统攻破或未攻破。连这种硬指标领域的评估都跟不上了,那些更模糊、更难量化的能力维度呢?每6个月翻一番的增速如果持续,一年后能力是今天的4倍,两年后16倍。通往AGI乃至ASI的路上,被击穿的不会只有这一把尺子。看不到边界,比边界本身更危险。







