权威榜单:第五代Claude编程夺冠、科学突破

2026-06-12阅读 0热度 0
Anthropic
AI巨头Anthropic今日正式发布了其第五代Claude系列两款全新模型:面向通用市场的Claude Fable5,以及专注于特定专业领域的Claude Mythos5(已结束预览阶段)。两款模型基于同一基础模型,但在安全配置和应用场景上各有侧重。

编程与通用知识:Fable5的碾压级表现

作为通用模型,Claude Fable5几乎在所有主流测试基准中都拿下了最高分,特别是在长时间、复杂任务处理上,优势相当明显。
  • 软件工程突破: 在评估无助状态下解决真实GitHub任务的SWE-Bench Pro测试中,Fable5拿下80.3%的高分,远超Claude Opus4.8(69.2%)和GPT5.5(58.6%)。在更严苛的生产级编码基准FrontierCode上,以29.3%的得分将GPT5.5(5.7%)远远甩在身后。

  • 惊人的实战效率: 支付巨头Stripe表示,Fable5将原本需要5个月的工程工作缩短至几天;在一个拥有5000万行Ruby代码的代码库中,仅用一天就完成了整个团队原本需要两个多月才能完成的迁移工作。

  • 知识工作与视觉飞跃: Fable5在金融分析(Hebbia基准测试)和图表解读上大获全胜,IMC交易集团表示该模型几乎全面通过了其交易分析评估。视觉方面,它能精准提取复杂的科学插图数据,甚至仅凭游戏截图就独立通关了《精灵宝可梦 火红》,完全摆脱了前代模型所需的辅助框架。

QQ20260610-085002.jpg

科学假设与网络安全:Mythos5的自主化研究

与安全防护保守的Fable5不同,Claude Mythos5解除了网络安全等领域的限制,专门面向特定合作伙伴及美国政府(通过Project Glasswing项目)开放。
  • 药物设计速度提升10倍: 在无需人工干预的盲测中,Mythos5能够自行选择结合位点、运行生物信息学工具并自我修复错误。在14个蛋白质靶点中,有9个成功产出了有效候选药物。

  • 首个提出科学假设的LLM: 盲法对比显示,约80%的情况下,科学家更倾向于Mythos5提出的分子生物学假设——例如大肠杆菌蛋白的新机制已被独立研究证实。

  • 自主基因组学研究: Mythos5在无人工干预下连续工作超过一周,编译了138种动物、数百万个细胞的单细胞数据,并训练出自身的机器学习模型,表现超越了《科学》杂志近期发表的模型,且体积缩小了100倍。

  • 捍卫网络安全: 在ExploitBench基准测试中,Mythos5的得分从预览版的69%飙升至78%(Opus4.8仅为40%),被称为“全球最强网络安全模型”。

双刃剑:高昂的价格与极端的安全防护

强大性能的背后,是成本的急剧攀升。Fable5和Mythos5的定价为每百万输入代币10美元、每百万输出代币50美元,几乎是Claude Opus4.8的两倍。在Claude.ai的网页订阅计划中,新模型按2倍使用量计费。 为控制Mythos级别模型可能带来的网络攻击或生物武器风险,Anthropic在Fable5中内置了一套创新的分类器降级机制:
  • 只要检测到涉及网络安全、生物、化学或“提炼(模型能力提取)”的危险提示词,系统自动将请求路由到较弱的Claude Opus4.8模型上(影响约不到5%的会话),并在界面上通知用户。

  • 针对旨在构建前沿大模型的提示词(如预训练流程、分布式训练设计),系统不会直接拦截,而是隐蔽地通过提示修改、引导向量或PEFT(参数高效微调)来“限制”输出效果。

  • 在超过1000小时的外部测试中,测试人员未能找到通用的越狱方法,Fable5攻击任务的成功率为零。为此,Anthropic还增加了30天的数据保留期以检测新型攻击。

推出时间表

目前,Claude Fable5已通过Claude API和企业按量付费计划推出。在Claude.ai的订阅计划(Pro、Max、Team等)中正在逐步部署:即日起至6月22日,订阅用户可免费体验Fable5;自6月23日起,使用该模型将需要消耗使用点数(Credits)。官方承诺,一旦未来算力容量充足,会重新将其纳入常规订阅套餐中。
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策