Claude神话模型测评：自主科研超越《科学》论文

2026-06-10阅读 0热度 0

Claude

Claude的“神话”级模型，终于上线了。 6月10日，Anthropic正式发布了两款重磅产品：面向公众的**Claude Fable 5（寓言）**，以及面向特定机构的**Claude Mythos 5（神话）**。这两款模型同属**Mythos级**，共享同一套底层架构，但能力直接越过了此前的Opus级别——换句话说，这是Anthropic迄今为止综合性能最强的大模型。从官方公布的基准测试成绩来看，Fable 5在**几乎所有AI能力评估中都处于顶尖水平**，特别是在软件工程、知识推理、视觉理解和科学研究这些高难度任务上表现突出。任务越复杂、周期越长，它的优势就越明显。与Opus 4.8、GPT 5.5和Gemini 3.1 Pro横向对比，用“断层领先”来形容一点也不过分。

▲Fable 5/Mythos 5基准测试成绩（图源：Anthropic） Anthropic给出的实测案例也很有意思：设计3D打印模型、玩复杂的策略游戏、搭建太阳系模型、做流体力学模拟……这些任务对Fable 5来说都不在话下。

▲Fable 5实测案例（图源：Anthropic）不过，Mythos 5与Fable 5之间的主要区别在于安全策略的取舍。Fable 5在处理涉及生物学、网络安全和前沿科学研究的部分敏感请求时，会自动“降级”到Opus 4.8进行响应。而Mythos 5则被定位为“全球最强网络安全模型”，在某些领域反而移除了安全防护措施——听起来有点反直觉，但逻辑很清晰：这是面向专业研究机构的工具。目前，Mythos 5率先通过Anthropic与美国政府合作的Project Glasswing项目开放，未来计划通过更广泛的受信任访问计划逐步扩展权限。价格方面，Fable 5和Mythos 5的收费是**每百万输入token 10美元（约合软妹币67.7元），每百万输出token 50美元（约合软妹币338.6元）**，大约是此前Mythos Preview版本的一半。但即便如此，这两款模型的token消耗速度依然惊人。有用户反馈，在200美元/月的Claude Max套餐中，Fable 5仅用了1分钟就消耗了约14%的5小时使用配额，并消耗约2%的周配额。换算下来，大概是**1分钟1美元**。

▲网友吐槽Fable 5使用成本（图源：X平台）目前Fable 5已经全面上线。从发布日（6月10日）到6月22日，Pro、Max、Team和企业版用户可免费使用。但从**6月23日起，Fable 5将从这些套餐中移除，之后需消耗积分才能使用**。Anthropic官方的说法是，待容量充足后会尽快将其恢复为订阅计划的标配功能，并可能视情况延长免费期。 Anthropic这次对新模型的命名方式也很有意思。Fable和Mythos延续了此前的文学体裁命名传统，但相较于此前的Haiku（俳句）、Sonnet（十四行诗）、Opus（巨著），这些名字显得更为宏大。这或许反映出Anthropic对产品定位的调整——Claude未来承担的复杂度和规模，可能会进一步提升。 ---

一、2个月开发工作浓缩到几天干完，还能自学进化

Anthropic在技术博客中格外强调了新模型的长期自主工作能力。他们直言：“**Fable 5和Mythos 5可以比任何之前的Claude模型更长时间地自主运行。**” 这种能力意味着它们可以完成远超以往的复杂任务。 **在软件工程领域**，参与早期测试的金融科技公司Stripe反馈了一个令人印象深刻的案例：Fable 5将原本需要整个团队手工操作数月的工程工作，压缩到了几天之内。在一个5000万行的Ruby代码库中，该模型**在一天内完成了全代码库的迁移任务**——而按照原来的节奏，这需要一支团队手工操作两个月。与过去的Claude模型相比，Fable 5在token效率上也做了显著优化。在编程基准测试FrontierCode中，Fable 5仅用中等思考强度，就超过了前沿模型的表现。

▲Fable 5在FrontierCode上的表现（图源：Anthropic）不少用户已经在实际编程任务中验证了Fable 5的能力。有位网友晒出了自己用Fable 5打造的《我的世界》——游戏的完成度相当高，有完整的建造和背包系统，渲染没有bug，甚至还添加了音效和背景音乐。完成这样一个任务，Fable 5大约消耗了**30美元**。另一位网友对比了Fable 5和Opus 4.8的能力差异。在所有任务中，都能明显感受到Fable 5的领先。比如在近地物体监控网页的设计上，Fable 5的成果不仅视觉更美观，抓取的信息丰富度也更高。

▲Fable 5和Opus 4.8打造的近地物体监测器（图源：X平台）在世界杯球衣销售监测网页任务中，Fable 5的结果运行正常，而Opus 4.8打造的网页则出现了明显的视觉bug。

▲Fable 5和Opus 4.8打造的世界杯球衣销售监测网页（图源：X平台） **在知识型工作方面**，Fable 5的表现同样亮眼。在企业级AI知识管理创企Hebbia的金融基准测试中，Fable 5获得了所有模型中最高的分数，尤其在基于文档的推理、图表和表格解读以及问题解决方面取得了显著提升。全球头部的自营交易公司和做市商IMC也认为，Fable 5几乎全面超越了IMC的交易分析评估，包括事实查询、概念推理、根本原因分析和预期价值分析。 **同时，Fable 5也是一款视觉模型**。这意味着它不仅能看懂复杂的科学图表，甚至能仅靠一张截图复刻应用的源代码。在执行视觉任务时，Fable 5所需要的辅助工具也变少了。在仅使用最小化、纯视觉的Harness时，Fable 5就能通关《宝可梦火红》（Pokémon FireRed），而此前的Claude模型需要更复杂的工具才能处理这类任务。 Fable 5的记忆和长上下文能力同样让人印象深刻。它能够在长时间运行的任务中持续保持专注，甚至可以利用自身笔记来改进输出——就像一位学会了“做笔记”的助手，越用越顺手。

二、Mythos 5自己做科研，一周成果就能超越《科学》期刊论文

如果说Fable 5更适合通用场景，那么Mythos 5就是Anthropic为前沿研究量身打造的“重武器”。 **在药物设计领域**，蛋白质设计专家借助Mythos 5，将部分环节的效率提升了约10倍。在一个测试案例中，只配备蛋白质设计和生物信息学工具、完全没有人类协助的Mythos 5，表现竟然达到甚至超过了熟练的人类操作者。它自主完成了科学家通常需要亲自执行的全部任务：选择结合位点、选用并运行蛋白质设计工具、在遭遇失败时自行纠错和恢复。

▲Mythos 5设计的蛋白质结构（图源：Anthropic）在参与研究的14个蛋白质靶点中，有9个产生了强候选分子，目前已进入后续研究阶段。这些设计覆盖了免疫检查点、生长因子与受体信号传导、神经退行性疾病、肌肉疾病以及结构难度更高的靶点。 **在分子生物学领域**，Mythos 5是首个能够持续提出新颖且有说服力的科学假设的模型。在与Opus级模型进行双盲对比评测时，科学家对Mythos所提出假设的偏好率高达约80%，其中多项假设已经进入实验验证环节。值得一提的是，其中一项关于大肠杆菌某一蛋白质新机制的假设，得到了一个独立研究团队近期发表成果的验证。 **在基因组学方面**，Mythos 5的能力更是让人震惊。它自主开展了为期超过一周的原创性研究：汇集了横跨138个动物物种的数百万个单细胞数据，自行设计并训练了一个定制的机器学习模型，用于识别在亲缘关系甚远的物种中执行相同功能的细胞。在经验丰富的人类研究者指导下，Mythos 5训练出的模型**超越了近期发表在《科学》期刊上的一个模型**——而前者的参数量仅为后者的百分之一。研究团队计划在未来数月内发表这些成果。

三、新型安全分类器上线，网络安全、生物学和蒸馏任务可能被“降智”

模型能力的大幅度提升，也让Anthropic开始重新思考安全体系的构建方式。在面向公众开放的Fable 5中，Anthropic专门打造了一套安全分类器，三类请求会被路由到Opus 4.8进行响应。根据官方公布的数据，**大约有5%的请求会被降级到Opus 4.8处理。** **在网络安全类任务中**，Mythos级模型的能力尤其突出——它擅长发现和利用软件漏洞，这意味着它可以大大简化网络攻击、降低实施成本。为了防止这些黑客技能被滥用，Anthropic专门为Fable 5设计了网络安全分类器。

Anthropic对这套分类器进行了大量测试。在累计1000小时的测试中，暂时还没有团队找到通用的越狱方法。不过，官方也坦言完全防止越狱基本是不可能的。他们的核心目标是：**让越狱过程变得足够缓慢且成本高昂，从而确保Anthropic能在其大规模扩散前监测到并阻止这些行为。** **在生物学和化学任务中**，Anthropic此前已经会阻止与生化武器相关的任务。但随着模型能力的提升，他们发现一些通用类的生物学和化学研究也有可能被用于危险用途。因此，目前Fable 5在这些领域的大部分请求都会被路由到Opus 4.8上。 **此外，Anthropic还对所谓的“蒸馏”行为进行了限制**——当用户的请求被标记为蒸馏行为时，也会被路由到Opus 4.8处理。所谓蒸馏，简单来说就是试图用小模型复制大模型能力的操作，Anthropic显然不希望自己的顶级能力被轻易“抄走”。最后，Anthropic还要求企业客户将Mythos级模型的数据保存30天。这些数据不会被用于训练模型，但会用于防范网络安全攻击和减少误报。

结语：干活的能力上去了，商业模式也在重构

从这篇博客传递出的信息来看，头部AI企业的竞争焦点正在发生明显变化：它们不再单纯追求榜单上的分数，而是转向真实任务的闭环交付能力。通读Anthropic关于Fable 5/Mythos 5的介绍，你会发现性能指标与榜单成绩的占比似乎没有那么大，他们更想让外界知道：这一代模型，能把活干完、干对。与此同时，这一代Claude模型也让我们看到了算力成本与订阅模式之间张力的进一步加剧。顶级模型烧token的速度远远超出当前订阅制的承载能力。按量计费、混合计费，甚至按结果计费的新模式可能会加速普及。这些新型商业化模式的探索，值得持续关注。

Claude神话模型测评：自主科研超越《科学》论文

一、2个月开发工作浓缩到几天干完，还能自学进化

二、Mythos 5自己做科研，一周成果就能超越《科学》期刊论文

三、新型安全分类器上线，网络安全、生物学和蒸馏任务可能被“降智”

结语：干活的能力上去了，商业模式也在重构

相关阅读

最新教程

最新资讯