GPT-5.6 vs Mythos 5:最新AI模型性能对比评测
▲ Sam Altman推文截图
基准测试数据显示,GPT-5.6 Sol的核心优势集中在**编程、生物学与网络安全**三大领域。在Terminal-Bench 2.1编程评测中,Sol全面超越**Claude Fable 5**,其旗舰版及尚未发布的Ultra版本甚至超过了**Claude Mythos 5**。更值得关注的是,在长期安全任务中,Sol仅消耗**三分之一的输出token**,便在ExploitBench²上达到了与**Claude Mythos Preview**相当的水平。
定价方面,按每百万token计算:Sol输入5美元(约34元人民币),输出30美元(约204元);Terra输入2.5美元(约17元),输出15美元(约102元);Luna输入1美元(约6.8元),输出6美元(约41元)。对比Claude系列:Fable 5与Mythos 5均为输入10美元、输出50美元,价格是Sol的两倍;Claude Mythos Preview内测定价更是高达输入25美元、输出125美元。如此看来,GPT-5.6的定价策略极具攻击性。
此外,GPT-5.6搭载了升级版提示缓存机制,支持显式缓存断点及30分钟的最低缓存有效期。从本代开始,缓存写入费用按模型未缓存输入费用的**1.25倍**计算,读取费用仍享受90%折扣。
在安全层面,OpenAI宣称GPT-5.6 Sol配备了当前最强的安全防护体系,重点强化了对高风险活动、敏感网络请求及重复滥用行为的防御。团队投入数周时间进行漏洞挖掘与压力测试,以确保模型能抵御真实世界的攻击。
硅谷AI初创公司Henry Intelligent Machines PBC创始人Alex Finn在X上感叹:“大规模发布前沿模型的时代已经终结……如今仅少数人能够触及超级智能。”但他也指出积极面——终于出现能制衡Fable 5的产品:“GPT-5.6性能超越Mythos,价格仅为其三分之一。”
▲ Alex Finn推文截图
然而,围绕该模型的争议也未曾平息。拥有150万粉丝的科技自媒体Rohan Paul爆料称,METR发现GPT-5.6 Sol**在基准测试中作弊频率异常高**,导致成绩极不稳定。Sol的作弊率创下METR在ReAct Agent框架中的最高纪录,其手段包括试图利用评估设置而非正常完成任务。
▲ Rohan Paul推文截图
同一天,美国政府对Anthropic的政策出现松动。据Semafor报道,美国政府已**解除对Claude Mythos 5模型的禁令**,正式通知Anthropic,Mythos 5可**面向超过100家美国机构开放使用**,出口或国内转让无需另行申请许可。此前,6月13日,美国政府已对Mythos和Fable实施出口管制,导致Anthropic被迫暂停所有用户对Fable 5及Mythos 5的访问。此次解禁并未涉及Fable 5。
▲ 外媒Semafor报道截图
---
## 一、GPT-5.6 Sol编程、生物与安全性能大幅跃升,基准测试超越Claude Fable 5
作为OpenAI目前最强的模型,GPT-5.6 Sol在编程、生物学与网络安全三个维度显著提升了智能体能力。用户可在OpenAI发布的系统卡中查阅更详尽的安全性与准备情况评估数据。
底层机制方面,GPT-5.6引入了全新推理机制,赋予Sol更充裕的深度推理时间。此外,新增子智能体模式,可加速复杂任务执行,突破单智能体的能力边界。
编程领域的表现尤为突出:GPT-5.6 Sol在Terminal-Bench 2.1上成绩亮眼,该测试要求模型具备规划、迭代与工具协调能力。Sol及Ultra版本的成绩均超过Claude Mythos 5,Terra版本则超越Claude Fable 5。
▲ GPT-5.6 Sol在Terminal-Bench 2.1上的基准测试结果
生物学维度上,GPT-5.6 Sol在GeneBench v1测试中,针对基因组学与定量生物学分析,以更少的标记实现了优于GPT-5.5的成绩。
▲ GPT-5.6 Sol在GeneBench v1上的评测数据
网络安全层面,GPT-5.6 Sol是OpenAI迄今能力最强的网络安全模型,长期安全任务的绩效与效率均有显著提升。在ExploitBench测试中,Sol仅需约三分之一输出token即可媲美Mythos Preview。而在ExploitGym测试中,Sol、Terra与Luna三个版本均随推理能力增强而实现网络安全能力的显著增长。
▲ GPT-5.6 Sol在ExploitBench上的测试结果
▲ GPT-5.6 Sol在ExploitGym上的测试结果
## 二、GPT-5.6构建史上最强安全防线,部署多层防护机制
OpenAI强调,此次为GPT-5.6三个模型均配备了史上最强的安全防护,能力等级与安全配置精准匹配。重点提升了模型在真实对抗场景中的稳健性,同时保障代码审计、漏洞挖掘与补丁开发等合法防御工作。策略清晰:在不限制合法用途的前提下,使攻击行为更难实施、更不可预测、更易追溯。评估显示,合法防御将显著受益,而违规用途则被有效抑制。
Sol在漏洞识别与修复方面的辅助能力远强于端到端攻击能力。OpenAI的首要目标是确保防御者优先受益。准备框架评估表明,Sol尚未达到“关键”级别。在Chromium与Firefox测试中,Sol能识别漏洞及利用原语,但未能自主完成完整攻击链。准备框架是OpenAI用于追踪和应对可能引发严重危害的新风险的流程。鉴于基准测试的局限性,OpenAI决定在升级模型的同时实施更严格举措,并分阶段发布。
在GPT-5.6预览版中,OpenAI部署了多层安全措施:模型训练阶段内置保护、生成内容实时审核、账户级监控、差异化访问控制等。模型经过专门训练,能够拒绝违规协助;实时分类器在内容生成时进行评估,高风险内容会暂停并由更强模型审查,违规输出直接拦截;账户级审查可区分恶意行为与合法双用途。多层措施叠加后,整体防御韧性显著增强。
预览期间,用户可能会遇到安全措施阻止或拒绝某些请求。OpenAI正与企业客户合作,制定长期方案,包括隐私保护检测与风险校准的访问权限。
## 三、投入70万A100 GPU小时,开展自动化红队演练
坦白而言,攻击者的策略持续演变,仅依赖已知攻击手段远不足以应对前沿模型的安全威胁。
为此,OpenAI投入了“史无前例”的智能算力用于安全保障。通过自研模型加速漏洞发现与防护升级,仅自动化红队演练一项就消耗了**超过70万A100 GPU计算小时**,旨在挖掘通用越狱方法。这笔投入物有所值——可探索远超人工测试覆盖范围的攻击模式,更早识别故障模式,并缩短从漏洞发现到修复的周期。
除自动化红队演练外,OpenAI还与第三方测试机构合作,持续开展大规模人工专家红队演练。人工演练是自动化的必要补充,专门用于检验系统防御能否抵御富有创造力的专家以AI无法预料的方式实施的滥用行为。
当然,任何评估都无法覆盖所有产品配置、多步攻击或真实工作流。因此OpenAI建立了一套快速响应流程,用于复现、评估、分级与修复新发现的越狱漏洞,并将其纳入持续进行的评估体系,确保未来能有效测试同类漏洞。
## 结语:GPT-5.6三档精准分层,意图通过差异化定价挤压竞争对手
GPT-5.6的发布标志着OpenAI在模型能力与安全防护两条赛道上同步加速。编程、生物学与网络安全三大领域的基准测试全面超越Claude Fable 5,配合Sol、Terra、Luna三档精准卡位,OpenAI显然正以更强的性能与更细的产品分层,压缩竞争对手的生存空间。
预览阶段结束后,OpenAI计划在未来几周内将GPT-5.6逐步推广至ChatGPT、Codex及API的广泛用户。此外,7月份将在Cerebras平台上线GPT-5.6 Sol,处理速度最高达每秒750个token,刷新速率纪录。一句话概括:模型战局即将进入新一轮白热化。