大模型发布:性能对标Fable 5与Mythos

2026-06-23阅读 0热度 0
大模型

6月22日,日本AI独角兽Sakana AI正式发布了Sakana Fugu系列编排器模型,包括Fugu Ultra和Fugu两款。其中Fugu Ultra在工程、科学和推理基准测试中,表现已经逼近甚至超越了Fable 5和Mythos Preview这类顶尖模型。

和传统大语言模型不同,Sakana Fugu并不直接回答问题——它更像一个“总指挥”,根据任务从全球模型中挑选最合适的来执行。Fugu在日文中是河豚的意思,官方动画里,多条“小鱼”汇聚成一只“大河豚”,寓意就是把多个模型的能力整合成一道美味。

Sakana AI成立于2023年,由Transformer论文第五作者Llion Jones联合创办,此前就以“进化”式小模型组合思路闻名。这次,他们在Sakana Fugu的技术报告中提出一个新方向:训练一个模型来调度多个模型,把不同特长的大模型组织起来,形成一种“集体智能”

在博客中,Sakana AI明确提出,编排模型将超越传统大模型,成为新的前沿方向。过去几年AI的进步靠的是暴力堆算力和数据,但现实中的复杂任务,专业知识往往超出单一模型的能力边界。要想充分发挥模型的最佳性能,需要知道何时用哪个模型、如何委派、怎样组合——这本身就是一种智慧。

值得注意的是,这种编排不仅是技术演进,也是地缘整治的产物。近期Anthropic模型被施加出口管制,Sakana AI从中吸取教训:绑定单一供应商,访问权限可能一夜之间消失。而Fugu的底层模型池完全可替换,一家断供就换另一家——Sakana AI称之为“AI主权的现实蓝图”

Fugu本身是一个专门用于理解何时委派任务、Agent之间如何通信、以及如何整合最终答案的语言模型。这套技术路线建立在团队此前关于学习模型编排的研究之上,包括在ICLR 2026上发表的论文Trinity和Conductor。

技术报告地址:https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf
体验地址:https://sakana.ai/fugu

超越Mythos Preview和Fable 5,调度最强模型完成任务

技术报告列出了Fugu系列在编程、推理、科学、Agent能力四个维度的八个基准测试表现,结果显示Fugu系列已经达到或接近尖端模型水平

仅通过智能调度,Fugu就在三项基准测试中超越了Mythos Preview和Fable 5

跨领域适应性方面,在Terminal Bench测试中,Fugu和Fugu Ultra调用的模型峰值都集中在表现顶尖的GPT-5.5上。而在GPQADiamond测试中,Gemini-3.1-Pro领先,两款Fugu模型都将调度核心围绕Gemini展开。

Fugu拿高分的方式与传统模型完全不同——它没有训练一个更强的基座去解题,而是判断该把这道题派给哪个模型、怎么拆解任务、如何校验,最终综合得到的答案质量超过多个单一模型独立作答的结果。这正是技术报告反复强调的核心:Fugu的技术价值不在于替代GPT、Claude、Gemini,而在于把它们的能力组合起来。现在的大模型中,有的擅长数学推理、有的擅长代码工程、有的擅长安全分析,编排能力本身正在成为一种独立的竞争力

四大机制让Fugu指挥模型军团

报告解读了Fugu的四个基础机制:

第一,识别问题类型。判断用户问题是代码、数学、推理、信息检索、科学分析还是多模态任务——这一步决定了后续整个派活逻辑的起点。

第二,选择合适的worker模型。不同模型在不同任务上的表现差异很大。Fugu被训练的目标之一就是学会在什么问题上该调用什么模型。报告提到,即使在同一类任务内部,比如竞赛编程,不同模型也可能分别擅长直接实现、制定计划或组合多种算法思路,Fugu需要把这些细微差异也纳入决策。

第三,设计Agent工作流。对复杂问题,Fugu Ultra会生成完整的agentic workflow,包括任务拆分、子任务分配、上下文共享策略以及最终答案合成——全部在模型内部以自然语言完成。

第四,根据反馈优化。Fugu的训练不止监督微调,还包括进化算法和强化学习,用真实任务结果反向优化编排策略,让模型学会怎么让合适的模型去做合适的事。

Sakana Fugu有两个版本:Fugu和Fugu-Ultra。Fugu强调日常使用,侧重性能与延迟平衡,保证较高质量的同时快速响应,因此不会每次都进行复杂的多Agent协作,而是通过轻量选择机制快速判断哪个worker模型更适合当前任务。

Fugu-Ultra则更偏向质量优先。它会使用更复杂的编排方式,把任务拆成多个子任务,安排不同Agent去处理,随后进行综合。响应时间可能更长,但更适合高难度问题,如复杂代码、数学推理、科学问题、多步骤规划等。

两者的共同点是完全模块化、与模型无关。Sakana Fugu不需要访问worker模型的权重,甚至不需要它们开源。新模型发布后可以直接加入worker模型池,用户可以根据成本、隐私、合规等需求定制可用模型列表

解魔方、下盲棋,没被洗车问题难倒

技术报告附录中有几个有趣的实验:

第一个是“一次性魔方求解器”。模型需要一次性写出一个Python标准库实现的魔方求解程序,并在300个乱序魔方上测试。报告称Fugu和Fugu-Ultra都成功解出全部魔方,其中Fugu-Ultra平均步数更短,Fugu运行速度更快。

第二个是“盲棋测试”。模型看不到棋盘、没有合法走法列表、没有FEN,只根据历史走法继续下棋。这主要测试模型是否能长期维护内部状态。报告展示的几盘对局中,Fugu战胜了多个基线模型和限制强度的Stockfish。

第三个是“在线股票交易”实验。模型只能看到过去和当前匿名市场数据,不能偷看未来价格,需要逐周做买入、持有或卖出决策。报告称Fugu-Ultra在五次运行中取得了更高平均收益。

这些实验未必直接代表模型实际能力,但它们展示了Fugu想证明的一件事:编排模型可以处理好需要长期运行、策略调整以及多步骤执行的任务。

有网友用Fugu-Ultra去处理那些让很多模型崩溃的问题——比如strawberry(草莓)中有几个“r”、5.11比5.1大吗,以及经典洗车问题——结果全部正确,直呼“把Fable找回来了”。

Sakana Fugu技术报告中最值得关注的,是它提出了一种模型研究的新路径。过去我们常问哪个模型最强,而Sakana Fugu提出的新问题是:如何让多个尖端模型协同起来更强。

这会带来几个变化:第一,模型能力将更加模块化。新模型发布后可直接加入worker池,成为某类任务的专家。第二,用户控制权更强。企业或个人可以根据隐私、合规、成本、延迟、供应商偏好来配置模型池。第三,AI竞争可能从“单一模型能力”扩展到“系统组织能力”。谁更会调度模型、使用工具、设计工作流、整合反馈,谁就会拥有更强大的能力。

当然,技术报告中的测试结果来自厂商,实际能力还要看真实开发者的使用体验。此外,多模型编排会带来更高成本和更高延迟,尤其是Fugu-Ultra这类深度协作模式。同时,多模型系统的错误归因会更复杂,一旦最终答案出错,很难分清是路由、worker模型还是综合过程的问题。而且编排器模型本身也可能出现偏差,如果它错误判断任务类型或过度依赖某个模型,就可能削弱整体表现。因此,Sakana Fugu的路线虽然很有潜力,但真正落地仍需大量工程验证。

结语:入局大模型训练的新方式

Sakana Fugu系列模型的发布表明,AI的下一阶段,可能不只是更大更强的单一模型,还有更会协作的模型系统。如果说过去的大模型竞争是在培养“超级智能”,那么Sakana Fugu的方向就是在训练“超级指挥”——让模型专门去学习如何分工、协调、验证以及综合。在大模型领域被少数顶尖模型厂商统治的当下,这种只调度不执行的模型训练方式,或许是入局大模型训练的新方式

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策