国产模型对比：打平Claude Fable 5，同步上线OpenRouter

2026-06-16阅读 0热度 0

OpenRouter

OpenRouter 最近上线了一个叫 Fusion 的新功能，玩法挺有意思：把同一个问题扔给一组模型，再请一个裁判模型把大家的答案融合成一份。结果是，几个价格便宜的国产开源模型组起团来，竟然能直接打平 Claude Fable 5，而成本只有后者的一半。就在昨天，Anthropic 的最新旗舰 Claude Fable 5 刚刚上线就被全球禁用，OpenRouter 立刻就把 Fusion 功能推了出来。效果相当震撼——让几个高性价比的国产模型协作，智能水平就能逼近 Fable 5，价格连它的一半都不到。这下子，性价比这件事的权重被彻底碘伏了——价格即智能。单一模型不计成本地堆智能上限依然重要，但它再也不是唯一重要的指标了。高性价比的国产开源模型，可能要迎来第二春。

## 高性价比模型组团打赢了不计成本的单个前沿模型测试用的是 Perplexity 出的 DRACO 基准，专门考核模型做深度研究的真功夫，覆盖学术、金融、法律、医疗等10个领域。每道题有大约39条带权重的评分标准，答错还会扣负分，靠堆字数糊弄根本拿不到分。在这个标准下，OpenRouter 跑出了三个关键发现。第一，组团成绩稳定胜过单跑。融合配置在榜单上整体高于单个模型。第二，顶配组团能“超出前沿”——Fable 5 加 GPT-5.5 的 69.0% 就是天花板，比任何一个单模型都高。第三点最有意思：预算组（Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Pro 三个模型组团）拿到了 64.7%，干掉了单跑的 GPT-5.5（60.0%）和 Opus 4.8（58.8%），距离 Fable 5 只差不到一个百分点，成本却只有前沿组团的一半。

这里还藏着一个诚实交代出来的细节。Fable 5 单跑那 65.3% 的成绩，其实只算了93道题，剩下7道被它自己的内容过滤器拦下了，没跑成。OpenRouter 并没有拿 Opus 4.8 去补这7道，所以这个分数是 Fable 真实能力的体现，但也说明它跟跑满100道的模型比，本身就占了一点便宜。把这个事实和预算组的成绩摆在一起，革命性才真正显现出来。最强的那个单模型，恰恰也是最会拒绝你、最容易卡壳的那个。过去用单模型，用户被一个模型的脾气、过滤器和盲区绑死，它罢工你就没辙。Fusion 把这件事拆开了——一组模型里某一个掉链子，还有别人顶上，而且这组人可以是清一色高性价比模型，照样把活干到接近前沿的水准。 ## 如何用上 Fusion 最简单的方式：在 API 调用里把模型名直接填成 `openrouter/fusion`，并行分发、裁判融合全在服务端跑完，一次调用就能拿到结果。想让模型自己判断什么时候该组团，也可以把 Fusion 挂进 tools 列表，由模型决定是否调用。想自己挑选队员的，可以在调用中指定参团的模型清单和负责融合的裁判模型——比如让一组国产模型参团，用一个更强的模型坐镇做裁判。完全不想碰代码的，直接打开 openrouter.ai/fusion 的网页版，选一个预设套餐或者自己搭一个 panel 就能试。

裁判模型干的活儿比简单的投票选优复杂得多。它会通读所有回答，产出一份结构化分析：列出哪些是共识、哪些互相矛盾、谁有独到的见解、大家共同的盲区在哪里。最后，由作答模型基于这份分析重新写出成稿。

## 真正变天的是性价比这件事很多最复杂、最困难的任务，模型智能是一道硬门槛，针对这类任务再贵也得用最强的。但 Fusion 把这个排序撬动了。预算组那个 64.7% 说明了什么？几个高性价比模型组起团来，智能水平能逼近单个最强的前沿模型，价钱却砍掉一半。当低价能换来几乎一样高的智能，“单模型最强”这个指标的分量就被稀释了，性价比从次要变量挪到了主角位置。这对开源模型是实打实的利好。预算组里的 Kimi K2.6 和 DeepSeek V4 Pro，都是国产开源路线的代表。它们单拎出来未必跑得过闭源前沿，可一组起团，差距就被补上了大半。对走开源、性价比路线的国内模型公司来说，Fusion 这类融合机制等于开辟了一条新赛道——不必在“单模型刷榜”上和闭源巨头硬碰，靠组合也能交付接近前沿的结果。开源模型可能要迎来第二春了。 ## AGI 格局被搅动 Fusion 还顺手验证了一个反直觉的发现。OpenRouter 让 Opus 4.8 和自己组队，同一道题跑两遍再融合，分数从单跑的 58.8% 涨到了 65.5%，足足多了 6.7 分。

同一个模型跑两遍，会走出不同的推理路径、调用不同的工具、选取不同的资料——光是把这些差异融合起来，提升就已经很可观。可见 Fusion 的增益有相当一部分来自“融合”这个动作本身。顺着这个逻辑往大了想：过去几年，行业默认的路是把单个模型堆到尽可能强——参数更大、训练更久、能力更前沿，仿佛通往 AGI 就是一条单模型不断变强的直线。Fusion 给出了另一种可能：把多个视角各异的模型组织起来协作，产出的结果可以超过其中任何一个，就像一支多样化的人类团队能解决任何单个天才都搞不定的问题。通往 AGI 甚至 ASI 的关键，有一部分藏在 Harness 里。竞争的焦点会跟着挪位：谁能把一群参差不齐的模型调度好、融合好，可能和谁能训出最强的单个模型变得同样重要。

国产模型对比：打平Claude Fable 5，同步上线OpenRouter

相关阅读

最新教程

最新资讯