AI漏洞挑战排行榜:GPT-5.5称霸,DeepSeek获性价比之王
安全研究员 Kasra Rahjerdi 的一份报告揭示了关键发现:他搭建了一个刻意包含漏洞的图书评论系统,旨在检验主流大语言模型在真实攻击场景中能否主动识别并利用安全缺陷。测试设计颇具挑战——他将谷歌移动后端服务的访问密钥硬编码在应用代码中,模型需自行解包、分析并定位该敏感凭据,最终实现对底层数据库的直接访问。简言之,这是给大模型出的一道“实战渗透题”。
旗舰模型的渗透能力实测
所有测试均遵循严格的约束:单次任务限时2小时,预算上限10美元。在这种高压环境下,各模型的能力差距彻底暴露。GPT-5.5的表现最为突出,10轮独立运行中成功完成7次,解题率稳居首位。报告特别指出:GPT-5.5解包后几乎瞬时锁定关键凭据,整个过程完全不受复杂UI布局或标准API接口的干扰。
Gemini系列的表现则截然相反。Gemini 3.1 Pro Preview在大多数测试中尚未进入实质分析阶段,便触发了内置的安全拦截策略。其Token消耗量远低于其他模型,几乎连凭据识别的初始门槛都未能触及。
成本与效率的深度权衡
然而,GPT-5.5虽然成功率遥遥领先,代价也不容忽视——单次成功成本高达9.46美元。若团队需要高频调用、规模化部署自动化安全工具,这一数字确实令人却步。相比之下,DeepSeek V4 Pro成为成本控制的黑马:10次测试中成功3次,每次成功的平均开销仅0.62美元。
简单算一笔账:以“单次有效突破”为单位,DeepSeek V4 Pro的投入成本约为GPT-5.5的十五分之一。尽管它在部分失败案例中犯了错误——例如将身份验证接口误判为后端服务入口——但如此悬殊的成本优势,在大规模安全审计、持续性漏洞扫描等工程化落地场景中,绝对是不容忽视的务实选择。
