Anthropic Mythos系列新模型深度评测:代码与科研视觉突破
Anthropic正式推出全新“神话级”(Mythos-class)模型系列的首款产品——Claude Fable 5。官方定位为面向安全通用任务而设计的模型,在能力与可控性之间取得平衡。几项关键性能指标足以说明其突破性:
全面超越,拉开代差
根据Anthropic最新文档,Claude页面已向付费用户开放Fable 5入口。新闻稿直言不讳:Fable 5性能超越公司此前所有公开发布模型,在几乎全部AI基准测试中位居榜首。无论是软件工程、知识工作、视觉处理,还是前沿科学研究,其表现均十分亮眼。
更关键的是,Anthropic强调:任务越长越复杂,Fable 5相对于其他模型的优势就越显著——这不是线性提升,而是随复杂度放大。Stripe早期测试显示,Fable 5将原本需要数月的工程量压缩至数天内完成。
更惊人的案例是:在一个拥有5000万行代码的Ruby代码库中,Fable 5仅用一天时间就完成了整库迁移。相比之下,若交给人工团队操作,至少需要两个多月。这种效率差距已远非“提升”所能概括。
在令牌效率上,Fable 5同样呈现碾压式优势。Cognition的FrontierCode评估中,即便在中等工作量条件下,它也在所有前沿模型中取得了最高分。
视觉能力:从辅助设备到纯视觉通关
Fable 5的视觉能力同样值得深究。Anthropic称其为目前最先进的视觉任务模型。验证方式颇具趣味:它仅凭纯视觉便可通关《宝可梦:火红》——而早期Claude机器人则需要配备一整套复杂的辅助设备才能玩同一款游戏。技术迭代之剧烈,不言自明。
硬币的另一面:能力越强,责任越大
当然,模型能力越强,潜在风险也越大。数月前,Anthropic已警告过:Mythos系列模型具备发现并利用关键软件漏洞的能力。本次新闻稿中,官方坦率承认:“发布如此强大的模型伴随风险。”“若无安全措施,Fable 5在网络安全等领域的强大功能可能被滥用,从而造成严重损害。”
因此,Fable 5发布时即内置安全防护措施。具体而言,当用户查询涉及特定敏感主题时,系统将切换至次强的Claude Opus 4.8模型来响应,以此降低安全风险。这不是削弱能力,而是负责任的部署策略。
但Anthropic也在探索另一条路径。面向一小批网络安全防御机构及关键基础设施提供商,他们推出了Claude Mythos 5——与Fable 5共用底层模型,但在某些场景下取消了安全限制。这显然是一种防御性举措:让“矛”更锋利,用以对抗真实的网络攻击。
那么,如此强大的能力如何转化正向价值?Fable 5与Mythos 5具备造福世界的潜力:帮助网络安全防御机构保护关键软件,在生命科学研究中提出全新假设,加速新疗法研发。根据新闻稿数据,借助Mythos 5,公司内部的蛋白质设计专家将药物设计流程中某些环节的效率提升了约十倍。在一周多的时间内,Mythos 5几乎可以完全自主开展基因组学研究。
开源与未来的权衡
Anthropic研究与实验室项目管理负责人Dianne Penn的表述值得关注:“对于不涉及网络安全的应用场景,我们希望尽快、安全地推出Fable。因此,我们决定先发布这一部分能力,同时继续推进更广泛的网络安全应用开发。”这本质上是一种分阶段策略:先让大众享受模型强大能力,待安全版本成熟后再落地。
近几个月来,Mythos已成为Anthropic最受关注的产品线之一,尤其在公司推进IPO的大背景下。Penn明确表示,未来将继续扩大Glasswing计划覆盖范围,让更多机构获得具备网络安全能力的Mythos版本。
显然,Anthropic不仅要打造性能最强的AI,更在小心翼翼地权衡“能力释放”与“安全管控”的天平。这场博弈刚刚拉开序幕。
