大模型发布：性能对标Fable 5与Mythos

2026-06-23阅读 0热度 0

大模型

6月22日，日本AI独角兽Sakana AI正式发布了Sakana Fugu系列编排器模型，包括Fugu Ultra和Fugu两款。其中Fugu Ultra在工程、科学和推理基准测试中，表现已经逼近甚至超越了Fable 5和Mythos Preview这类顶尖模型。

和传统大语言模型不同，Sakana Fugu并不直接回答问题——它更像一个“总指挥”，根据任务从全球模型中挑选最合适的来执行。Fugu在日文中是河豚的意思，官方动画里，多条“小鱼”汇聚成一只“大河豚”，寓意就是把多个模型的能力整合成一道美味。

Sakana AI成立于2023年，由Transformer论文第五作者Llion Jones联合创办，此前就以“进化”式小模型组合思路闻名。这次，他们在Sakana Fugu的技术报告中提出一个新方向：训练一个模型来调度多个模型，把不同特长的大模型组织起来，形成一种“集体智能”。

在博客中，Sakana AI明确提出，编排模型将超越传统大模型，成为新的前沿方向。过去几年AI的进步靠的是暴力堆算力和数据，但现实中的复杂任务，专业知识往往超出单一模型的能力边界。要想充分发挥模型的最佳性能，需要知道何时用哪个模型、如何委派、怎样组合——这本身就是一种智慧。

值得注意的是，这种编排不仅是技术演进，也是地缘整治的产物。近期Anthropic模型被施加出口管制，Sakana AI从中吸取教训：绑定单一供应商，访问权限可能一夜之间消失。而Fugu的底层模型池完全可替换，一家断供就换另一家——Sakana AI称之为“AI主权的现实蓝图”。

Fugu本身是一个专门用于理解何时委派任务、Agent之间如何通信、以及如何整合最终答案的语言模型。这套技术路线建立在团队此前关于学习模型编排的研究之上，包括在ICLR 2026上发表的论文Trinity和Conductor。

技术报告地址：https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf
体验地址：https://sakana.ai/fugu

超越Mythos Preview和Fable 5，调度最强模型完成任务

技术报告列出了Fugu系列在编程、推理、科学、Agent能力四个维度的八个基准测试表现，结果显示Fugu系列已经达到或接近尖端模型水平。

仅通过智能调度，Fugu就在三项基准测试中超越了Mythos Preview和Fable 5。

跨领域适应性方面，在Terminal Bench测试中，Fugu和Fugu Ultra调用的模型峰值都集中在表现顶尖的GPT-5.5上。而在GPQADiamond测试中，Gemini-3.1-Pro领先，两款Fugu模型都将调度核心围绕Gemini展开。

Fugu拿高分的方式与传统模型完全不同——它没有训练一个更强的基座去解题，而是判断该把这道题派给哪个模型、怎么拆解任务、如何校验，最终综合得到的答案质量超过多个单一模型独立作答的结果。这正是技术报告反复强调的核心：Fugu的技术价值不在于替代GPT、Claude、Gemini，而在于把它们的能力组合起来。现在的大模型中，有的擅长数学推理、有的擅长代码工程、有的擅长安全分析，编排能力本身正在成为一种独立的竞争力。

四大机制让Fugu指挥模型军团

报告解读了Fugu的四个基础机制：

第一，识别问题类型。判断用户问题是代码、数学、推理、信息检索、科学分析还是多模态任务——这一步决定了后续整个派活逻辑的起点。

第二，选择合适的worker模型。不同模型在不同任务上的表现差异很大。Fugu被训练的目标之一就是学会在什么问题上该调用什么模型。报告提到，即使在同一类任务内部，比如竞赛编程，不同模型也可能分别擅长直接实现、制定计划或组合多种算法思路，Fugu需要把这些细微差异也纳入决策。

第三，设计Agent工作流。对复杂问题，Fugu Ultra会生成完整的agentic workflow，包括任务拆分、子任务分配、上下文共享策略以及最终答案合成——全部在模型内部以自然语言完成。

第四，根据反馈优化。Fugu的训练不止监督微调，还包括进化算法和强化学习，用真实任务结果反向优化编排策略，让模型学会怎么让合适的模型去做合适的事。

Sakana Fugu有两个版本：Fugu和Fugu-Ultra。Fugu强调日常使用，侧重性能与延迟平衡，保证较高质量的同时快速响应，因此不会每次都进行复杂的多Agent协作，而是通过轻量选择机制快速判断哪个worker模型更适合当前任务。

Fugu-Ultra则更偏向质量优先。它会使用更复杂的编排方式，把任务拆成多个子任务，安排不同Agent去处理，随后进行综合。响应时间可能更长，但更适合高难度问题，如复杂代码、数学推理、科学问题、多步骤规划等。

两者的共同点是完全模块化、与模型无关。Sakana Fugu不需要访问worker模型的权重，甚至不需要它们开源。新模型发布后可以直接加入worker模型池，用户可以根据成本、隐私、合规等需求定制可用模型列表。

解魔方、下盲棋，没被洗车问题难倒

技术报告附录中有几个有趣的实验：

第一个是“一次性魔方求解器”。模型需要一次性写出一个Python标准库实现的魔方求解程序，并在300个乱序魔方上测试。报告称Fugu和Fugu-Ultra都成功解出全部魔方，其中Fugu-Ultra平均步数更短，Fugu运行速度更快。

第二个是“盲棋测试”。模型看不到棋盘、没有合法走法列表、没有FEN，只根据历史走法继续下棋。这主要测试模型是否能长期维护内部状态。报告展示的几盘对局中，Fugu战胜了多个基线模型和限制强度的Stockfish。

第三个是“在线股票交易”实验。模型只能看到过去和当前匿名市场数据，不能偷看未来价格，需要逐周做买入、持有或卖出决策。报告称Fugu-Ultra在五次运行中取得了更高平均收益。

这些实验未必直接代表模型实际能力，但它们展示了Fugu想证明的一件事：编排模型可以处理好需要长期运行、策略调整以及多步骤执行的任务。

有网友用Fugu-Ultra去处理那些让很多模型崩溃的问题——比如strawberry（草莓）中有几个“r”、5.11比5.1大吗，以及经典洗车问题——结果全部正确，直呼“把Fable找回来了”。

Sakana Fugu技术报告中最值得关注的，是它提出了一种模型研究的新路径。过去我们常问哪个模型最强，而Sakana Fugu提出的新问题是：如何让多个尖端模型协同起来更强。

这会带来几个变化：第一，模型能力将更加模块化。新模型发布后可直接加入worker池，成为某类任务的专家。第二，用户控制权更强。企业或个人可以根据隐私、合规、成本、延迟、供应商偏好来配置模型池。第三，AI竞争可能从“单一模型能力”扩展到“系统组织能力”。谁更会调度模型、使用工具、设计工作流、整合反馈，谁就会拥有更强大的能力。

当然，技术报告中的测试结果来自厂商，实际能力还要看真实开发者的使用体验。此外，多模型编排会带来更高成本和更高延迟，尤其是Fugu-Ultra这类深度协作模式。同时，多模型系统的错误归因会更复杂，一旦最终答案出错，很难分清是路由、worker模型还是综合过程的问题。而且编排器模型本身也可能出现偏差，如果它错误判断任务类型或过度依赖某个模型，就可能削弱整体表现。因此，Sakana Fugu的路线虽然很有潜力，但真正落地仍需大量工程验证。

结语：入局大模型训练的新方式

Sakana Fugu系列模型的发布表明，AI的下一阶段，可能不只是更大更强的单一模型，还有更会协作的模型系统。如果说过去的大模型竞争是在培养“超级智能”，那么Sakana Fugu的方向就是在训练“超级指挥”——让模型专门去学习如何分工、协调、验证以及综合。在大模型领域被少数顶尖模型厂商统治的当下，这种只调度不执行的模型训练方式，或许是入局大模型训练的新方式。

大模型发布：性能对标Fable 5与Mythos

超越Mythos Preview和Fable 5，调度最强模型完成任务

四大机制让Fugu指挥模型军团

解魔方、下盲棋，没被洗车问题难倒

结语：入局大模型训练的新方式

相关阅读

最新教程

最新资讯