Anthropic Mythos模型评测:安全机构实测性能超预期
Anthropic的Claude Mythos模型,因其评估风险而被长期封存。近期动态显示,这一策略可能正在调整。
英国AI安全研究院发布的最新评测报告揭示了关键进展:发布仅一个月后,Mythos的最新迭代版本不仅刷新了自身记录,更在特定网络安全基准测试中超越了OpenAI的GPT-5.5。
在AISI设立的两个网络靶场测试中,新版Mythos Preview均创下纪录。在“最后幸存者”靶场,其成功率达到60%;更具突破性的是,在先前未被任何模型攻克的“冷却塔”靶场中,它实现了30%的成功率。AISI确认,这是首个能完整通过其第二个网络靶场全部任务的AI模型。
此前,Anthropic刚联合多家机构成立“Project Glasswing”网络安全测试联盟,并有限开放了Mythos Preview的访问。AISI的初期评估已指出该模型在快速演进的安全能力领域取得了实质性进步。
此次第三方评估提供了客观的衡量基准,有助于澄清两种极端观点:既非单纯的营销炒作,也尚未构成灾难性的能力飞跃。真实性能位于两者之间。
测试的另一关键发现是,AI能力的跃迁并不局限于代际更新。同一模型的不同版本间,其性能演进速度同样迅猛。
这指向一个宏观趋势:AI执行复杂网络安全任务(如漏洞挖掘)的效能正以超预期速度提升,将对整个网安防御与攻防演练体系产生深远影响。
AISI在报告中量化了这一趋势:“根据2026年2月的内部测算,自2024年底以来,AI模型可有效完成的网络任务时长,其翻倍周期已从2025年11月估算的8个月缩短至约4.7个月。”而对Mythos Preview和GPT-5.5的评估显示,“两者的表现均显著超越了这一加速趋势线”。
当然,这是否代表长期性能力突破仍有待观察。研究人员指出,目前尚不确定Mythos与GPT-5.5是标志着范式转移,还是整体演进规律中的短期例外。
测试方法本身也存在局限。为保持历史可比性,AISI将任务Token上限设定为250万。但报告明确指出,这一限制“严重低估了前沿模型的实际能力上限”。
核心原因在于,在当前测试套件的最长任务中,Mythos Preview和GPT-5.5在250万Token限制下的成功率已接近饱和,导致误差范围扩大。测试任务“复杂度不足,难以评估在任务长度增加时模型可靠性的衰减速率”。换言之,最新模型已触及现有评估体系的天花板。
由此可推断,若解除Token限制,模型的任务成功率可能大幅提升,甚至达到“任务完成耗时难以精确计量”的程度。研究补充说明,在配备更复杂的智能体框架并授予更高Token配额(实验曾使用1亿)时,模型性能仍有明确提升空间,且近期模型从资源扩充中获益的幅度更为显著。
Q&A
Q1:Claude Mythos是什么,为什么Anthropic不公开发布它?
Claude Mythos是Anthropic研发的高阶AI模型,其卓越的网络安全能力(特别是漏洞发现)被评估为潜在风险,因此未公开发布。目前仅通过“Project Glasswing”联盟向受限的合作伙伴提供访问,以实现可控环境下的能力评估与安全研究。
Q2:AISI对Claude Mythos的最新测试发现了什么?
测试确认Mythos新版攻克了此前未被突破的“冷却塔”靶场,综合表现优于其前代及GPT-5.5。数据进一步证实,AI完成网络任务的能力正加速进化,其“有效任务时长”翻倍周期已缩短至约4.7个月,而Mythos与GPT-5.5的性能已远超该趋势预测。
Q3:AISI测试中250万Token上限对结果有什么影响?
该上限是为保证跨时期测试的公平性,但已成为评估瓶颈。在现行限制下,顶尖模型的成功率已接近100%,导致测试分辨率下降。若取消限制,预计成功率将进一步提升,模型在更高配额(如1亿Token)下的性能增长已被实验观测到,表明现有测试未能充分衡量其真实上限。
