GPT-5.5突破300黑客评测任务,仅用5000万Token

2026-05-29阅读 0热度 0
网络安全

316项进攻性网络安全任务,GPT-5.5攻破292道,成功率92.4%。这份由澳大利亚研究机构Lyptus Research于5月27日发布的报告明确指出,GPT-5.5已让这套评估体系彻底饱和。

测试覆盖7个基准,涵盖漏洞利用、CTF夺旗到真实CVE复现,每道题均配有人类安全专家的完成时间基线。GPT-5.5的表现已逼近顶级黑客团队的水平。关键在于,剩余24道未解难题已无法绘制出具有统计意义的能力曲线。研究团队判断直截了当——这套评估方法对该类任务“不再适用”。

回溯来看,2025年12月Lyptus团队搭建这套测试时,选取的是当时全球能搜罗到的最棘手题目。到2026年3月首版报告发布时,数据已显现饱和迹象。再到5月,饱和成为定局。短短六个月,从“最难”到“不够用”。

能力曲线加速攀升

真正值得警惕的是这条能力曲线的斜率。几个核心判断:Lyptus自2024年起系统追踪,拟合出的结论令人震惊——AI的进攻性网络安全能力每5到6个月翻一番。

具体数据:2026年初,Claude Opus 4.6的时间地平线为3.2小时,GPT-5.3 Codex为3.1小时。仅两个月后,GPT-5.5直接拉升至5.1小时。而且,只要算力充足,突破12小时测量上限毫无问题,图表甚至无法完整绘制。

另一个变量——Token预算——更能说明问题。GPT-5.5在难度最高的CyberGym基准上,200万Token预算下的正确率为54.4%;当预算推至5000万Token,正确率飙升至86.4%。

同一模型,仅因算力投入增加,成绩飙升32个百分点。

英国人工智能安全研究所(AIUK AI Safety Institute)的研究也得出类似结论:即使将Token预算推至1亿,能力仍在增长,未见平台期。这意味着所有公开的基准测试成绩,都只是有限预算下的跑分结果。真实能力的天花板远高于账面数字。

强大模型受控部署

面对能力飞跃,头部实验室已被迫做出选择。Anthropic于4月发布Claude Mythos Preview模型,但决定不公开——理由是网络安全能力过强,不宜直接开放。作为配套,他们同时推出Project Glasswing,将Mythos部署给关键基础设施的防御方使用。

OpenAI则将GPT-5.5的网络安全能力评级定为“High”,仅比最高级“Critical”低一档,所有攻击相关能力均通过“Trusted Access for Cyber”门控系统管控。METR对Mythos的独立评估同样撞上能力天花板——拟合出的时间地平线至少16小时,但他们对这个数字不敢给出点估计,仅表示“应保持谨慎”。

控制谁能用,是目前唯一拿得出手的策略。但留给决策者的窗口正在快速缩小。Lyptus测量了一个关键指标——适应缓冲期:闭源前沿能力传导到开源模型的时间差。进攻性网络安全领域,这个差距大约在5.7到13.1个月之间。按此速度推算,Mythos和GPT-5.5级别的攻击能力,年内就可能以开源形式落到任何人手里。

评估标尺被击穿

回到核心问题:没人能准确说出当前大模型的上限有多强。这才是最令人不安的部分。

时间地平线方法论的设计逻辑很简单——用比模型能力更难的任务来锚定曲线拐点。但模型把任务全部做完后,拐点消失,曲线无法拟合。评估体系不是被证伪,而是被能力增长甩在了身后。

要造出更难的测试,需要更多时间和人力。现实是,模型能力每半年翻一番,而测试开发周期远超于此。更关键的是英国人工智能安全研究所的发现:只要攻击方愿意多烧算力,就算有更难的题,同样能攻破。评估追不上能力——这个结构性困境已清晰可见。

放到更大框架下看,信号相当明确。一个高度专业化的领域里,人类为AI能力设定的标尺已被彻底击穿。

网络安全恰好是最易量化的领域之一——有明确的成功判据:漏洞找到或未找到,系统攻破或未攻破。连这种硬指标领域的评估都跟不上了,那些更模糊、更难量化的能力维度呢?每6个月翻一番的增速如果持续,一年后能力是今天的4倍,两年后16倍。通往AGI乃至ASI的路上,被击穿的不会只有这一把尺子。看不到边界,比边界本身更危险。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策