国产模型对比:打平Claude Fable 5,同步上线OpenRouter
## 高性价比模型组团打赢了不计成本的单个前沿模型
测试用的是 Perplexity 出的 DRACO 基准,专门考核模型做深度研究的真功夫,覆盖学术、金融、法律、医疗等10个领域。每道题有大约39条带权重的评分标准,答错还会扣负分,靠堆字数糊弄根本拿不到分。
在这个标准下,OpenRouter 跑出了三个关键发现。
第一,组团成绩稳定胜过单跑。融合配置在榜单上整体高于单个模型。第二,顶配组团能“超出前沿”——Fable 5 加 GPT-5.5 的 69.0% 就是天花板,比任何一个单模型都高。第三点最有意思:预算组(Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Pro 三个模型组团)拿到了 64.7%,干掉了单跑的 GPT-5.5(60.0%)和 Opus 4.8(58.8%),距离 Fable 5 只差不到一个百分点,成本却只有前沿组团的一半。
这里还藏着一个诚实交代出来的细节。Fable 5 单跑那 65.3% 的成绩,其实只算了93道题,剩下7道被它自己的内容过滤器拦下了,没跑成。OpenRouter 并没有拿 Opus 4.8 去补这7道,所以这个分数是 Fable 真实能力的体现,但也说明它跟跑满100道的模型比,本身就占了一点便宜。
把这个事实和预算组的成绩摆在一起,革命性才真正显现出来。
最强的那个单模型,恰恰也是最会拒绝你、最容易卡壳的那个。过去用单模型,用户被一个模型的脾气、过滤器和盲区绑死,它罢工你就没辙。Fusion 把这件事拆开了——一组模型里某一个掉链子,还有别人顶上,而且这组人可以是清一色高性价比模型,照样把活干到接近前沿的水准。
## 如何用上 Fusion
最简单的方式:在 API 调用里把模型名直接填成 `openrouter/fusion`,并行分发、裁判融合全在服务端跑完,一次调用就能拿到结果。
想让模型自己判断什么时候该组团,也可以把 Fusion 挂进 tools 列表,由模型决定是否调用。想自己挑选队员的,可以在调用中指定参团的模型清单和负责融合的裁判模型——比如让一组国产模型参团,用一个更强的模型坐镇做裁判。完全不想碰代码的,直接打开 openrouter.ai/fusion 的网页版,选一个预设套餐或者自己搭一个 panel 就能试。
裁判模型干的活儿比简单的投票选优复杂得多。它会通读所有回答,产出一份结构化分析:列出哪些是共识、哪些互相矛盾、谁有独到的见解、大家共同的盲区在哪里。最后,由作答模型基于这份分析重新写出成稿。
## 真正变天的是性价比这件事
很多最复杂、最困难的任务,模型智能是一道硬门槛,针对这类任务再贵也得用最强的。但 Fusion 把这个排序撬动了。
预算组那个 64.7% 说明了什么?几个高性价比模型组起团来,智能水平能逼近单个最强的前沿模型,价钱却砍掉一半。当低价能换来几乎一样高的智能,“单模型最强”这个指标的分量就被稀释了,性价比从次要变量挪到了主角位置。
这对开源模型是实打实的利好。预算组里的 Kimi K2.6 和 DeepSeek V4 Pro,都是国产开源路线的代表。它们单拎出来未必跑得过闭源前沿,可一组起团,差距就被补上了大半。对走开源、性价比路线的国内模型公司来说,Fusion 这类融合机制等于开辟了一条新赛道——不必在“单模型刷榜”上和闭源巨头硬碰,靠组合也能交付接近前沿的结果。开源模型可能要迎来第二春了。
## AGI 格局被搅动
Fusion 还顺手验证了一个反直觉的发现。OpenRouter 让 Opus 4.8 和自己组队,同一道题跑两遍再融合,分数从单跑的 58.8% 涨到了 65.5%,足足多了 6.7 分。
同一个模型跑两遍,会走出不同的推理路径、调用不同的工具、选取不同的资料——光是把这些差异融合起来,提升就已经很可观。可见 Fusion 的增益有相当一部分来自“融合”这个动作本身。
顺着这个逻辑往大了想:过去几年,行业默认的路是把单个模型堆到尽可能强——参数更大、训练更久、能力更前沿,仿佛通往 AGI 就是一条单模型不断变强的直线。Fusion 给出了另一种可能:把多个视角各异的模型组织起来协作,产出的结果可以超过其中任何一个,就像一支多样化的人类团队能解决任何单个天才都搞不定的问题。
通往 AGI 甚至 ASI 的关键,有一部分藏在 Harness 里。竞争的焦点会跟着挪位:谁能把一群参差不齐的模型调度好、融合好,可能和谁能训出最强的单个模型变得同样重要。