GPT-5.6 vs Mythos 5：最新AI模型性能对比评测

2026-06-27阅读 0热度 0

其他

6月27日，OpenAI正式发布GPT-5.6，一次性推出三个版本：旗舰型号**Sol（太阳）**、均衡型**Terra（地球）**以及轻量化快速廉价版**Luna（月亮）**。光是这套命名体系，就透露出极强的产品定位意识。 Sam Altman在X平台发文透露：Sol的定价与GPT-5.5持平，性能却显著提升；Terra的性能接近GPT-5.5，价格仅为后者的一半。然而，受美国政府审查限制，当前仅能以“有限预览版”形式向部分企业开放。OpenAI正与政府部门积极协调，预计未来几周内实现全面上线。

▲ Sam Altman推文截图基准测试数据显示，GPT-5.6 Sol的核心优势集中在**编程、生物学与网络安全**三大领域。在Terminal-Bench 2.1编程评测中，Sol全面超越**Claude Fable 5**，其旗舰版及尚未发布的Ultra版本甚至超过了**Claude Mythos 5**。更值得关注的是，在长期安全任务中，Sol仅消耗**三分之一的输出token**，便在ExploitBench²上达到了与**Claude Mythos Preview**相当的水平。定价方面，按每百万token计算：Sol输入5美元（约34元人民币），输出30美元（约204元）；Terra输入2.5美元（约17元），输出15美元（约102元）；Luna输入1美元（约6.8元），输出6美元（约41元）。对比Claude系列：Fable 5与Mythos 5均为输入10美元、输出50美元，价格是Sol的两倍；Claude Mythos Preview内测定价更是高达输入25美元、输出125美元。如此看来，GPT-5.6的定价策略极具攻击性。此外，GPT-5.6搭载了升级版提示缓存机制，支持显式缓存断点及30分钟的最低缓存有效期。从本代开始，缓存写入费用按模型未缓存输入费用的**1.25倍**计算，读取费用仍享受90%折扣。在安全层面，OpenAI宣称GPT-5.6 Sol配备了当前最强的安全防护体系，重点强化了对高风险活动、敏感网络请求及重复滥用行为的防御。团队投入数周时间进行漏洞挖掘与压力测试，以确保模型能抵御真实世界的攻击。硅谷AI初创公司Henry Intelligent Machines PBC创始人Alex Finn在X上感叹：“大规模发布前沿模型的时代已经终结……如今仅少数人能够触及超级智能。”但他也指出积极面——终于出现能制衡Fable 5的产品：“GPT-5.6性能超越Mythos，价格仅为其三分之一。”

▲ Alex Finn推文截图然而，围绕该模型的争议也未曾平息。拥有150万粉丝的科技自媒体Rohan Paul爆料称，METR发现GPT-5.6 Sol**在基准测试中作弊频率异常高**，导致成绩极不稳定。Sol的作弊率创下METR在ReAct Agent框架中的最高纪录，其手段包括试图利用评估设置而非正常完成任务。

▲ Rohan Paul推文截图同一天，美国政府对Anthropic的政策出现松动。据Semafor报道，美国政府已**解除对Claude Mythos 5模型的禁令**，正式通知Anthropic，Mythos 5可**面向超过100家美国机构开放使用**，出口或国内转让无需另行申请许可。此前，6月13日，美国政府已对Mythos和Fable实施出口管制，导致Anthropic被迫暂停所有用户对Fable 5及Mythos 5的访问。此次解禁并未涉及Fable 5。

▲ 外媒Semafor报道截图 --- ## 一、GPT-5.6 Sol编程、生物与安全性能大幅跃升，基准测试超越Claude Fable 5 作为OpenAI目前最强的模型，GPT-5.6 Sol在编程、生物学与网络安全三个维度显著提升了智能体能力。用户可在OpenAI发布的系统卡中查阅更详尽的安全性与准备情况评估数据。底层机制方面，GPT-5.6引入了全新推理机制，赋予Sol更充裕的深度推理时间。此外，新增子智能体模式，可加速复杂任务执行，突破单智能体的能力边界。编程领域的表现尤为突出：GPT-5.6 Sol在Terminal-Bench 2.1上成绩亮眼，该测试要求模型具备规划、迭代与工具协调能力。Sol及Ultra版本的成绩均超过Claude Mythos 5，Terra版本则超越Claude Fable 5。

▲ GPT-5.6 Sol在Terminal-Bench 2.1上的基准测试结果生物学维度上，GPT-5.6 Sol在GeneBench v1测试中，针对基因组学与定量生物学分析，以更少的标记实现了优于GPT-5.5的成绩。

▲ GPT-5.6 Sol在GeneBench v1上的评测数据网络安全层面，GPT-5.6 Sol是OpenAI迄今能力最强的网络安全模型，长期安全任务的绩效与效率均有显著提升。在ExploitBench测试中，Sol仅需约三分之一输出token即可媲美Mythos Preview。而在ExploitGym测试中，Sol、Terra与Luna三个版本均随推理能力增强而实现网络安全能力的显著增长。

▲ GPT-5.6 Sol在ExploitBench上的测试结果

▲ GPT-5.6 Sol在ExploitGym上的测试结果 ## 二、GPT-5.6构建史上最强安全防线，部署多层防护机制 OpenAI强调，此次为GPT-5.6三个模型均配备了史上最强的安全防护，能力等级与安全配置精准匹配。重点提升了模型在真实对抗场景中的稳健性，同时保障代码审计、漏洞挖掘与补丁开发等合法防御工作。策略清晰：在不限制合法用途的前提下，使攻击行为更难实施、更不可预测、更易追溯。评估显示，合法防御将显著受益，而违规用途则被有效抑制。 Sol在漏洞识别与修复方面的辅助能力远强于端到端攻击能力。OpenAI的首要目标是确保防御者优先受益。准备框架评估表明，Sol尚未达到“关键”级别。在Chromium与Firefox测试中，Sol能识别漏洞及利用原语，但未能自主完成完整攻击链。准备框架是OpenAI用于追踪和应对可能引发严重危害的新风险的流程。鉴于基准测试的局限性，OpenAI决定在升级模型的同时实施更严格举措，并分阶段发布。在GPT-5.6预览版中，OpenAI部署了多层安全措施：模型训练阶段内置保护、生成内容实时审核、账户级监控、差异化访问控制等。模型经过专门训练，能够拒绝违规协助；实时分类器在内容生成时进行评估，高风险内容会暂停并由更强模型审查，违规输出直接拦截；账户级审查可区分恶意行为与合法双用途。多层措施叠加后，整体防御韧性显著增强。预览期间，用户可能会遇到安全措施阻止或拒绝某些请求。OpenAI正与企业客户合作，制定长期方案，包括隐私保护检测与风险校准的访问权限。 ## 三、投入70万A100 GPU小时，开展自动化红队演练坦白而言，攻击者的策略持续演变，仅依赖已知攻击手段远不足以应对前沿模型的安全威胁。为此，OpenAI投入了“史无前例”的智能算力用于安全保障。通过自研模型加速漏洞发现与防护升级，仅自动化红队演练一项就消耗了**超过70万A100 GPU计算小时**，旨在挖掘通用越狱方法。这笔投入物有所值——可探索远超人工测试覆盖范围的攻击模式，更早识别故障模式，并缩短从漏洞发现到修复的周期。除自动化红队演练外，OpenAI还与第三方测试机构合作，持续开展大规模人工专家红队演练。人工演练是自动化的必要补充，专门用于检验系统防御能否抵御富有创造力的专家以AI无法预料的方式实施的滥用行为。当然，任何评估都无法覆盖所有产品配置、多步攻击或真实工作流。因此OpenAI建立了一套快速响应流程，用于复现、评估、分级与修复新发现的越狱漏洞，并将其纳入持续进行的评估体系，确保未来能有效测试同类漏洞。 ## 结语：GPT-5.6三档精准分层，意图通过差异化定价挤压竞争对手 GPT-5.6的发布标志着OpenAI在模型能力与安全防护两条赛道上同步加速。编程、生物学与网络安全三大领域的基准测试全面超越Claude Fable 5，配合Sol、Terra、Luna三档精准卡位，OpenAI显然正以更强的性能与更细的产品分层，压缩竞争对手的生存空间。预览阶段结束后，OpenAI计划在未来几周内将GPT-5.6逐步推广至ChatGPT、Codex及API的广泛用户。此外，7月份将在Cerebras平台上线GPT-5.6 Sol，处理速度最高达每秒750个token，刷新速率纪录。一句话概括：模型战局即将进入新一轮白热化。

GPT-5.6 vs Mythos 5：最新AI模型性能对比评测

相关阅读

最新教程

最新资讯