2025年最新顶级AI模型排行榜权威更新:Claude Mythos 5与Fable 5发布刷新性能基准记录
两款模型均基于该公司今年4月发布的 Claude Mythos Preview 算法。该预览版因能精准识别高度复杂的网络安全漏洞而备受关注,如今 Mythos 5 和 Fable 5 在原有基础上实现了显著性能跃升。
Fable 5 已面向公众开放,但对涉及高风险场景的请求(例如可能用于挖掘网络安全漏洞的指令)设置了自动屏蔽机制。相比之下,Mythos 5 的使用限制更为宽松,但仅限极少数特定组织访问——Anthropic 与美国政府合作共同管理该模型的权限。
Mythos 5 是 Claude 系列中首个能够“持续生成新颖且有说服力的科学假说”的模型。Anthropic 让其解释分子生物学中若干尚未完全厘清的现象,结果多项建议被研究人员认定为极具探索价值,并已启动实验验证。其中一条关于大肠杆菌某种蛋白质组成的新假说已在实验室获得证实。
在另一项内部测试中,Mythos 5 识别出 14 个可用于药物研发的蛋白质靶点,其中 9 个被团队评为“药物设计的强力候选”。同时,该模型将相关任务的蛋白质发现流程提速了 10 倍。
Fable 5 的处理机制不同:它会自动将涉及网络安全、生物学和化学领域的请求转交给 Claude Opus 4.8——这是 Anthropic 今年 5 月发布的性能相对基础的模型。
编程能力方面,Fable 5 与 Mythos 5 在 SWE-Bench Pro 基准测试中均取得 80.3% 的得分,刷新了纪录。支付平台 Stripe 作为 Fable 5 的早期用户,利用它对一个拥有 5000 万行代码的内部软件仓库进行了现代化改造,原本需要两个月完成的工作被压缩至一天之内。
非技术场景下,这两款模型同样表现突出。与 Opus 4.8 相比,它们在涵盖文档审阅任务的 GDP.pdf 基准测试中高出 7.3 个百分点;在另一项衡量大语言模型法律任务自动化能力的测试中也再次创下新高。
定价方面,Mythos 5 和 Fable 5 统一为每百万输入 Token 10 美元、每百万输出 Token 50 美元,不到 Mythos Preview 定价的一半。此外,新模型完成任务所需的提示词数量更少,实际使用成本比账面数字更低。
**Q:Claude Mythos 5 和 Fable 5 的核心区别是什么?**
A:核心区别在于开放程度与使用限制。Fable 5 面向公众开放,但对网络安全、生物学、化学等高风险请求进行自动屏蔽,相关请求会被转交至 Claude Opus 4.8 处理。Mythos 5 的限制更宽松,支持科学假说生成等高级功能,但仅限少数特定组织使用,且由 Anthropic 联合美国政府共同管控访问权限。
**Q:Claude Mythos 5 在科学研究领域有哪些实质能力?**
A:它是 Claude 系列中首个能持续生成原创科学假说的模型。在分子生物学领域,其提出的多项假说已被列为实验验证目标,其中关于大肠杆菌蛋白质组成的一个新假说已在实验室里得到证实。此外,它识别出 14 个药物研发候选蛋白质靶点,其中 9 个被评为“药物设计的强力候选”,并将相关任务的执行速度提升了 10 倍。
**Q:Claude Fable 5 和 Mythos 5 的定价是多少?**
A:两款模型统一定价为每百万输入 Token 10 美元、每百万输出 Token 50 美元,价格不到上一代 Mythos Preview 的一半。同时,新模型完成任务所需的提示词数量更少,进一步降低了用户的实际使用成本。