Claude神话模型测评:自主科研超越《科学》论文

2026-06-10阅读 0热度 0
Claude
Claude的“神话”级模型,终于上线了。 6月10日,Anthropic正式发布了两款重磅产品:面向公众的**Claude Fable 5(寓言)**,以及面向特定机构的**Claude Mythos 5(神话)**。这两款模型同属**Mythos级**,共享同一套底层架构,但能力直接越过了此前的Opus级别——换句话说,这是Anthropic迄今为止综合性能最强的大模型。 从官方公布的基准测试成绩来看,Fable 5在**几乎所有AI能力评估中都处于顶尖水平**,特别是在软件工程、知识推理、视觉理解和科学研究这些高难度任务上表现突出。任务越复杂、周期越长,它的优势就越明显。与Opus 4.8、GPT 5.5和Gemini 3.1 Pro横向对比,用“断层领先”来形容一点也不过分。 ▲Fable 5/Mythos 5基准测试成绩(图源:Anthropic) Anthropic给出的实测案例也很有意思:设计3D打印模型、玩复杂的策略游戏、搭建太阳系模型、做流体力学模拟……这些任务对Fable 5来说都不在话下。 ▲Fable 5实测案例(图源:Anthropic) 不过,Mythos 5与Fable 5之间的主要区别在于安全策略的取舍。Fable 5在处理涉及生物学、网络安全和前沿科学研究的部分敏感请求时,会自动“降级”到Opus 4.8进行响应。而Mythos 5则被定位为“全球最强网络安全模型”,在某些领域反而移除了安全防护措施——听起来有点反直觉,但逻辑很清晰:这是面向专业研究机构的工具。目前,Mythos 5率先通过Anthropic与美国政府合作的Project Glasswing项目开放,未来计划通过更广泛的受信任访问计划逐步扩展权限。 价格方面,Fable 5和Mythos 5的收费是**每百万输入token 10美元(约合软妹币67.7元),每百万输出token 50美元(约合软妹币338.6元)**,大约是此前Mythos Preview版本的一半。但即便如此,这两款模型的token消耗速度依然惊人。有用户反馈,在200美元/月的Claude Max套餐中,Fable 5仅用了1分钟就消耗了约14%的5小时使用配额,并消耗约2%的周配额。换算下来,大概是**1分钟1美元**。 ▲网友吐槽Fable 5使用成本(图源:X平台) 目前Fable 5已经全面上线。从发布日(6月10日)到6月22日,Pro、Max、Team和企业版用户可免费使用。但从**6月23日起,Fable 5将从这些套餐中移除,之后需消耗积分才能使用**。Anthropic官方的说法是,待容量充足后会尽快将其恢复为订阅计划的标配功能,并可能视情况延长免费期。 Anthropic这次对新模型的命名方式也很有意思。Fable和Mythos延续了此前的文学体裁命名传统,但相较于此前的Haiku(俳句)、Sonnet(十四行诗)、Opus(巨著),这些名字显得更为宏大。这或许反映出Anthropic对产品定位的调整——Claude未来承担的复杂度和规模,可能会进一步提升。 ---

一、2个月开发工作浓缩到几天干完,还能自学进化

Anthropic在技术博客中格外强调了新模型的长期自主工作能力。他们直言:“**Fable 5和Mythos 5可以比任何之前的Claude模型更长时间地自主运行。**” 这种能力意味着它们可以完成远超以往的复杂任务。 **在软件工程领域**,参与早期测试的金融科技公司Stripe反馈了一个令人印象深刻的案例:Fable 5将原本需要整个团队手工操作数月的工程工作,压缩到了几天之内。在一个5000万行的Ruby代码库中,该模型**在一天内完成了全代码库的迁移任务**——而按照原来的节奏,这需要一支团队手工操作两个月。 与过去的Claude模型相比,Fable 5在token效率上也做了显著优化。在编程基准测试FrontierCode中,Fable 5仅用中等思考强度,就超过了前沿模型的表现。 ▲Fable 5在FrontierCode上的表现(图源:Anthropic) 不少用户已经在实际编程任务中验证了Fable 5的能力。有位网友晒出了自己用Fable 5打造的《我的世界》——游戏的完成度相当高,有完整的建造和背包系统,渲染没有bug,甚至还添加了音效和背景音乐。完成这样一个任务,Fable 5大约消耗了**30美元**。 另一位网友对比了Fable 5和Opus 4.8的能力差异。在所有任务中,都能明显感受到Fable 5的领先。比如在近地物体监控网页的设计上,Fable 5的成果不仅视觉更美观,抓取的信息丰富度也更高。 ▲Fable 5和Opus 4.8打造的近地物体监测器(图源:X平台) 在世界杯球衣销售监测网页任务中,Fable 5的结果运行正常,而Opus 4.8打造的网页则出现了明显的视觉bug。 ▲Fable 5和Opus 4.8打造的世界杯球衣销售监测网页(图源:X平台) **在知识型工作方面**,Fable 5的表现同样亮眼。在企业级AI知识管理创企Hebbia的金融基准测试中,Fable 5获得了所有模型中最高的分数,尤其在基于文档的推理、图表和表格解读以及问题解决方面取得了显著提升。全球头部的自营交易公司和做市商IMC也认为,Fable 5几乎全面超越了IMC的交易分析评估,包括事实查询、概念推理、根本原因分析和预期价值分析。 **同时,Fable 5也是一款视觉模型**。这意味着它不仅能看懂复杂的科学图表,甚至能仅靠一张截图复刻应用的源代码。在执行视觉任务时,Fable 5所需要的辅助工具也变少了。在仅使用最小化、纯视觉的Harness时,Fable 5就能通关《宝可梦 火红》(Pokémon FireRed),而此前的Claude模型需要更复杂的工具才能处理这类任务。 Fable 5的记忆和长上下文能力同样让人印象深刻。它能够在长时间运行的任务中持续保持专注,甚至可以利用自身笔记来改进输出——就像一位学会了“做笔记”的助手,越用越顺手。

二、Mythos 5自己做科研,一周成果就能超越《科学》期刊论文

如果说Fable 5更适合通用场景,那么Mythos 5就是Anthropic为前沿研究量身打造的“重武器”。 **在药物设计领域**,蛋白质设计专家借助Mythos 5,将部分环节的效率提升了约10倍。在一个测试案例中,只配备蛋白质设计和生物信息学工具、完全没有人类协助的Mythos 5,表现竟然达到甚至超过了熟练的人类操作者。它自主完成了科学家通常需要亲自执行的全部任务:选择结合位点、选用并运行蛋白质设计工具、在遭遇失败时自行纠错和恢复。 ▲Mythos 5设计的蛋白质结构(图源:Anthropic) 在参与研究的14个蛋白质靶点中,有9个产生了强候选分子,目前已进入后续研究阶段。这些设计覆盖了免疫检查点、生长因子与受体信号传导、神经退行性疾病、肌肉疾病以及结构难度更高的靶点。 **在分子生物学领域**,Mythos 5是首个能够持续提出新颖且有说服力的科学假设的模型。在与Opus级模型进行双盲对比评测时,科学家对Mythos所提出假设的偏好率高达约80%,其中多项假设已经进入实验验证环节。值得一提的是,其中一项关于大肠杆菌某一蛋白质新机制的假设,得到了一个独立研究团队近期发表成果的验证。 **在基因组学方面**,Mythos 5的能力更是让人震惊。它自主开展了为期超过一周的原创性研究:汇集了横跨138个动物物种的数百万个单细胞数据,自行设计并训练了一个定制的机器学习模型,用于识别在亲缘关系甚远的物种中执行相同功能的细胞。在经验丰富的人类研究者指导下,Mythos 5训练出的模型**超越了近期发表在《科学》期刊上的一个模型**——而前者的参数量仅为后者的百分之一。研究团队计划在未来数月内发表这些成果。

三、新型安全分类器上线,网络安全、生物学和蒸馏任务可能被“降智”

模型能力的大幅度提升,也让Anthropic开始重新思考安全体系的构建方式。在面向公众开放的Fable 5中,Anthropic专门打造了一套安全分类器,三类请求会被路由到Opus 4.8进行响应。根据官方公布的数据,**大约有5%的请求会被降级到Opus 4.8处理。** **在网络安全类任务中**,Mythos级模型的能力尤其突出——它擅长发现和利用软件漏洞,这意味着它可以大大简化网络攻击、降低实施成本。为了防止这些黑客技能被滥用,Anthropic专门为Fable 5设计了网络安全分类器。 Anthropic对这套分类器进行了大量测试。在累计1000小时的测试中,暂时还没有团队找到通用的越狱方法。不过,官方也坦言完全防止越狱基本是不可能的。他们的核心目标是:**让越狱过程变得足够缓慢且成本高昂,从而确保Anthropic能在其大规模扩散前监测到并阻止这些行为。** **在生物学和化学任务中**,Anthropic此前已经会阻止与生化武器相关的任务。但随着模型能力的提升,他们发现一些通用类的生物学和化学研究也有可能被用于危险用途。因此,目前Fable 5在这些领域的大部分请求都会被路由到Opus 4.8上。 **此外,Anthropic还对所谓的“蒸馏”行为进行了限制**——当用户的请求被标记为蒸馏行为时,也会被路由到Opus 4.8处理。所谓蒸馏,简单来说就是试图用小模型复制大模型能力的操作,Anthropic显然不希望自己的顶级能力被轻易“抄走”。 最后,Anthropic还要求企业客户将Mythos级模型的数据保存30天。这些数据不会被用于训练模型,但会用于防范网络安全攻击和减少误报。

结语:干活的能力上去了,商业模式也在重构

从这篇博客传递出的信息来看,头部AI企业的竞争焦点正在发生明显变化:它们不再单纯追求榜单上的分数,而是转向真实任务的闭环交付能力。通读Anthropic关于Fable 5/Mythos 5的介绍,你会发现性能指标与榜单成绩的占比似乎没有那么大,他们更想让外界知道:这一代模型,能把活干完、干对。 与此同时,这一代Claude模型也让我们看到了算力成本与订阅模式之间张力的进一步加剧。顶级模型烧token的速度远远超出当前订阅制的承载能力。按量计费、混合计费,甚至按结果计费的新模式可能会加速普及。这些新型商业化模式的探索,值得持续关注。
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策