Claude神话模型测评:自主科研超越《科学》论文
▲Fable 5/Mythos 5基准测试成绩(图源:Anthropic)
Anthropic给出的实测案例也很有意思:设计3D打印模型、玩复杂的策略游戏、搭建太阳系模型、做流体力学模拟……这些任务对Fable 5来说都不在话下。
▲Fable 5实测案例(图源:Anthropic)
不过,Mythos 5与Fable 5之间的主要区别在于安全策略的取舍。Fable 5在处理涉及生物学、网络安全和前沿科学研究的部分敏感请求时,会自动“降级”到Opus 4.8进行响应。而Mythos 5则被定位为“全球最强网络安全模型”,在某些领域反而移除了安全防护措施——听起来有点反直觉,但逻辑很清晰:这是面向专业研究机构的工具。目前,Mythos 5率先通过Anthropic与美国政府合作的Project Glasswing项目开放,未来计划通过更广泛的受信任访问计划逐步扩展权限。
价格方面,Fable 5和Mythos 5的收费是**每百万输入token 10美元(约合软妹币67.7元),每百万输出token 50美元(约合软妹币338.6元)**,大约是此前Mythos Preview版本的一半。但即便如此,这两款模型的token消耗速度依然惊人。有用户反馈,在200美元/月的Claude Max套餐中,Fable 5仅用了1分钟就消耗了约14%的5小时使用配额,并消耗约2%的周配额。换算下来,大概是**1分钟1美元**。
▲网友吐槽Fable 5使用成本(图源:X平台)
目前Fable 5已经全面上线。从发布日(6月10日)到6月22日,Pro、Max、Team和企业版用户可免费使用。但从**6月23日起,Fable 5将从这些套餐中移除,之后需消耗积分才能使用**。Anthropic官方的说法是,待容量充足后会尽快将其恢复为订阅计划的标配功能,并可能视情况延长免费期。
Anthropic这次对新模型的命名方式也很有意思。Fable和Mythos延续了此前的文学体裁命名传统,但相较于此前的Haiku(俳句)、Sonnet(十四行诗)、Opus(巨著),这些名字显得更为宏大。这或许反映出Anthropic对产品定位的调整——Claude未来承担的复杂度和规模,可能会进一步提升。
---
一、2个月开发工作浓缩到几天干完,还能自学进化
Anthropic在技术博客中格外强调了新模型的长期自主工作能力。他们直言:“**Fable 5和Mythos 5可以比任何之前的Claude模型更长时间地自主运行。**” 这种能力意味着它们可以完成远超以往的复杂任务。 **在软件工程领域**,参与早期测试的金融科技公司Stripe反馈了一个令人印象深刻的案例:Fable 5将原本需要整个团队手工操作数月的工程工作,压缩到了几天之内。在一个5000万行的Ruby代码库中,该模型**在一天内完成了全代码库的迁移任务**——而按照原来的节奏,这需要一支团队手工操作两个月。 与过去的Claude模型相比,Fable 5在token效率上也做了显著优化。在编程基准测试FrontierCode中,Fable 5仅用中等思考强度,就超过了前沿模型的表现。
▲Fable 5在FrontierCode上的表现(图源:Anthropic)
不少用户已经在实际编程任务中验证了Fable 5的能力。有位网友晒出了自己用Fable 5打造的《我的世界》——游戏的完成度相当高,有完整的建造和背包系统,渲染没有bug,甚至还添加了音效和背景音乐。完成这样一个任务,Fable 5大约消耗了**30美元**。
另一位网友对比了Fable 5和Opus 4.8的能力差异。在所有任务中,都能明显感受到Fable 5的领先。比如在近地物体监控网页的设计上,Fable 5的成果不仅视觉更美观,抓取的信息丰富度也更高。
▲Fable 5和Opus 4.8打造的近地物体监测器(图源:X平台)
在世界杯球衣销售监测网页任务中,Fable 5的结果运行正常,而Opus 4.8打造的网页则出现了明显的视觉bug。
▲Fable 5和Opus 4.8打造的世界杯球衣销售监测网页(图源:X平台)
**在知识型工作方面**,Fable 5的表现同样亮眼。在企业级AI知识管理创企Hebbia的金融基准测试中,Fable 5获得了所有模型中最高的分数,尤其在基于文档的推理、图表和表格解读以及问题解决方面取得了显著提升。全球头部的自营交易公司和做市商IMC也认为,Fable 5几乎全面超越了IMC的交易分析评估,包括事实查询、概念推理、根本原因分析和预期价值分析。
**同时,Fable 5也是一款视觉模型**。这意味着它不仅能看懂复杂的科学图表,甚至能仅靠一张截图复刻应用的源代码。在执行视觉任务时,Fable 5所需要的辅助工具也变少了。在仅使用最小化、纯视觉的Harness时,Fable 5就能通关《宝可梦 火红》(Pokémon FireRed),而此前的Claude模型需要更复杂的工具才能处理这类任务。
Fable 5的记忆和长上下文能力同样让人印象深刻。它能够在长时间运行的任务中持续保持专注,甚至可以利用自身笔记来改进输出——就像一位学会了“做笔记”的助手,越用越顺手。
二、Mythos 5自己做科研,一周成果就能超越《科学》期刊论文
如果说Fable 5更适合通用场景,那么Mythos 5就是Anthropic为前沿研究量身打造的“重武器”。 **在药物设计领域**,蛋白质设计专家借助Mythos 5,将部分环节的效率提升了约10倍。在一个测试案例中,只配备蛋白质设计和生物信息学工具、完全没有人类协助的Mythos 5,表现竟然达到甚至超过了熟练的人类操作者。它自主完成了科学家通常需要亲自执行的全部任务:选择结合位点、选用并运行蛋白质设计工具、在遭遇失败时自行纠错和恢复。
▲Mythos 5设计的蛋白质结构(图源:Anthropic)
在参与研究的14个蛋白质靶点中,有9个产生了强候选分子,目前已进入后续研究阶段。这些设计覆盖了免疫检查点、生长因子与受体信号传导、神经退行性疾病、肌肉疾病以及结构难度更高的靶点。
**在分子生物学领域**,Mythos 5是首个能够持续提出新颖且有说服力的科学假设的模型。在与Opus级模型进行双盲对比评测时,科学家对Mythos所提出假设的偏好率高达约80%,其中多项假设已经进入实验验证环节。值得一提的是,其中一项关于大肠杆菌某一蛋白质新机制的假设,得到了一个独立研究团队近期发表成果的验证。
**在基因组学方面**,Mythos 5的能力更是让人震惊。它自主开展了为期超过一周的原创性研究:汇集了横跨138个动物物种的数百万个单细胞数据,自行设计并训练了一个定制的机器学习模型,用于识别在亲缘关系甚远的物种中执行相同功能的细胞。在经验丰富的人类研究者指导下,Mythos 5训练出的模型**超越了近期发表在《科学》期刊上的一个模型**——而前者的参数量仅为后者的百分之一。研究团队计划在未来数月内发表这些成果。
三、新型安全分类器上线,网络安全、生物学和蒸馏任务可能被“降智”
模型能力的大幅度提升,也让Anthropic开始重新思考安全体系的构建方式。在面向公众开放的Fable 5中,Anthropic专门打造了一套安全分类器,三类请求会被路由到Opus 4.8进行响应。根据官方公布的数据,**大约有5%的请求会被降级到Opus 4.8处理。** **在网络安全类任务中**,Mythos级模型的能力尤其突出——它擅长发现和利用软件漏洞,这意味着它可以大大简化网络攻击、降低实施成本。为了防止这些黑客技能被滥用,Anthropic专门为Fable 5设计了网络安全分类器。
Anthropic对这套分类器进行了大量测试。在累计1000小时的测试中,暂时还没有团队找到通用的越狱方法。不过,官方也坦言完全防止越狱基本是不可能的。他们的核心目标是:**让越狱过程变得足够缓慢且成本高昂,从而确保Anthropic能在其大规模扩散前监测到并阻止这些行为。**
**在生物学和化学任务中**,Anthropic此前已经会阻止与生化武器相关的任务。但随着模型能力的提升,他们发现一些通用类的生物学和化学研究也有可能被用于危险用途。因此,目前Fable 5在这些领域的大部分请求都会被路由到Opus 4.8上。
**此外,Anthropic还对所谓的“蒸馏”行为进行了限制**——当用户的请求被标记为蒸馏行为时,也会被路由到Opus 4.8处理。所谓蒸馏,简单来说就是试图用小模型复制大模型能力的操作,Anthropic显然不希望自己的顶级能力被轻易“抄走”。
最后,Anthropic还要求企业客户将Mythos级模型的数据保存30天。这些数据不会被用于训练模型,但会用于防范网络安全攻击和减少误报。