Claude Fable 5省钱攻略:Low档比Opus更划算

2026-06-12阅读 0热度 0
Claude

用更低的预算获得更高的产出,这一点在AI模型的选择上同样成立。

当开发者们还在为Claude Fable 5的token单价比Opus 4.8高出一倍而犹豫时,实际测试结果却出人意料——将Fable 5的努力程度(effort)调至最低的low档,模型性能并未下降,反而表现出更强的能力,同时token消耗显著降低。

即便在最低档位,Fable 5在SWE-bench Pro上的得分(75.0)依然碾压Opus 4.8开启最强xhigh档的成绩(68.6)。

注:上述数据来自Mythos 5配置。Fable 5作为搭载安全分类器的公开版本,与内部版本权重一致,编码任务几乎不会触发分类器拦截。

然而,低档位节省成本只是冰山一角。过去24小时内,多位开发者发现,Fable 5的省钱优势并不完全依赖低effort设置。在部分实际任务中,它不仅效果更优、速度更快,最终账单反而更低。

以GameBench测试为例,在相同的蜘蛛吃虫子小游戏任务中,Fable 5不仅生成速度更快、效果更佳,且最终成本低于Opus 4.8。

(左侧为Fable 5,右侧为Opus 4.8)

结果令人意外。原本担忧Fable 5单价翻倍的开发者,如今发现它不仅性能更强,多数场景下甚至更省钱。贵在每token单价,省在总账单——Fable 5 low档启动即可。

为什么定价更高的模型反而能省钱?Fable 5每百万输入token 10美元、输出50美元,恰好是上一代旗舰Opus 4.8(5美元/25美元)的两倍。

对于这一现象,Claude Code创始人Boris Cherny在Threads上给出了解释:Fable 5每token单价虽为Opus的两倍,但完成相同任务所需的平均token数更少,得益于其更强的理解与生成效率。在复杂任务中,Fable 5的实际花费反而低于Opus。

评论区多位用户也印证了这一观点:实际使用中,单任务token消耗更少,纠错迭代次数减少,无效token大幅降低。

换言之,过去不够智能的Agent往往在反复纠错、重跑中消耗大量token。模型能力越弱,错误越多,用户就需要为每一轮失败付费。Fable 5削减的正是这部分隐性开支。

例如,在Shortcut的电子表格任务测试中,Fable 5在所有effort档位均优于Opus 4.8,回合数更少,整体完成速度快25%~30%。

再看物理研究案例。署名Matthew Pines(CEO)的研究人员反馈,Fable 5是他们测试过最强大的前沿物理模型,仅消耗三分之一的推理token,在36小时内达到了GPT-5.5需要四天才能接近的水平。

当然,Fable 5并非在所有场景下都比Opus更省更好。Reddit上有用户指出,针对某些特定任务,Fable 5的token消耗确实更高,但远没有外界传言的夸张,主要取决于上下文长度和任务复杂度。对于简单任务,其他effort档位甚至其他模型完全胜任。

事实上,官方公告也隐晦地提到了这一点。

Anthropic在发布文章中强调,Fable 5较以往Claude模型具有更高的token效率。证据来自Cognition的FrontierCode评测——该测试衡量模型在达到生产级代码标准下完成高难度任务的能力。Fable 5仅在medium档位便位居所有前沿模型之首。

因此,定价策略的正确解读或许不是每token单价,而是每完成一个任务的总成本。按单价算,Fable 5确实贵一倍;按任务成本算,在足够复杂的场景下,它甚至比Opus更经济。

如果说任务成本优化还带有主观色彩,那么过去一天多里各评测榜单的结果则直截了当:Fable 5几乎横扫所有第一。

首先看综合能力。Artificial Analysis最新智能指数显示,Fable 5以64.9分位居榜首,领先GPT-5.5约5分,前两名均由Anthropic包揽。

在Humanity’s Last Exam(人类最后的测试)中,Fable 5取得53%的正确率,领先第二名超过7个百分点。

再看Agent能力。arena.ai的Agent榜单上,Fable 5同样占据首位。

文本处理、网页开发等细分场景均保持领先地位。

FrontierCode榜单同样第一。

SimpleBench上的成绩已逼近人类基线。

编程能力或许是争议最小的领域。除Anthropic自身数据外,第三方评测机构TrueFoundry的结果显示,Fable 5在SWE-Bench Pro上以80.3%的成绩夺得所有受测模型最高分,GPT-5.5落后超过21个百分点。

Every的评测文章提供了一个更直观的对比:在其最难的Senior Engineer基准测试中,Fable 5获得91分(满分100分),接近人类资深工程师的水平;作为参照,Opus 4.8得63分,GPT-5.5得62分。

不过,在将Fable 5默认设置为low档之前,有两项要点需要留意。

第一,Fable 5搭载了安全分类器。当涉及网络安全、生物化学、模型蒸馏等敏感请求时,系统自动切换至Opus 4.8进行回复,并按Opus价格计费。Anthropic称,此类触发率低于5%的会话。这意味着部分安全相关Benchmark的成绩,公开版本可能无法完全复现。

第二,当前免费使用窗口为限时活动。6月22日前,Pro、Max、Team及按席位计费的企业版用户可直接使用Fable 5;6月23日起将消耗用量积分。Anthropic表示,待算力容量充足后,会重新纳入订阅权益。此外,使用Fable 5需开启30天数据保留,以满足安全监控要求。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策