年度小模型指挥顶级AI：科学难题攻克新策略

2026-06-23阅读 0热度 0

由帝国理工学院、牛津大学、香港中文大学、上海交通大学及上海人工智能实验室等机构联合开展的研究，已于2026年6月以预印本形式发布，论文编号arXiv:2606.15872。读者可通过此编号直接获取完整论文内容。

一、前沿AI模型的集体局限

科学研究长期被视为人类智力的终极试炼场。当我们将天文望远镜拍摄的深空图像或扫描电镜下的材料微观结构交由AI分析，并期望其像资深科学家一样进行深度剖析并得出有效结论——这一目标的实现难度远超预期。

当前最顶尖的商业AI模型交出的答卷令人警醒。以谷歌Gemini-3-Pro为例，这款被公认为“最强综合选手”的模型，在名为“SGI-Reasoning”的前沿多模态科学推理测试集中，准确率仅为42%。这意味着，面对覆盖天文学、化学、地球科学、能源科学、信息科学、生命科学、材料科学、神经科学及物理学九大学科的高难度题目，即便最强AI，每两道题中也有一道会答错。

但若细致观察各模型的答题表现，会发现一个值得玩味的现象：它们并非全面溃败，而是各有所长。Gemini-3-Pro在生命科学领域拔得头筹，Claude-Sonnet-4在天文学题目上大幅领先，o4-mini则在地球科学和物理学方面表现突出。更关键的是，若将三款最优模型（Gemini-3-Pro、Gemini-2.5-Pro和GPT-4o）的正确答案合并——即任一模型答对即算通过——整个测试集的覆盖率瞬间跃升至74%，几乎是最强单模型准确率的两倍。若再将所有参与评测模型的正确答案全部合并，该数字进一步攀升至89%。

这一结果清晰表明，真正的突破口不在于将单一AI模型训练成万能选手，而在于如何高效叠加多个模型的优势能力。

二、三种多模型协作方案及其固有缺陷

面对单个AI能力不足的困境，研究者并非没有尝试“协同作战”，但现有方法均存在明显硬伤。

第一类方法是“自洽性投票”：让同一个AI对同一道题重复回答多次，然后通过投票选出频次最高的答案。这好比同一道数学题反复计算五遍，选取出现三次以上的结果。问题在于，同一AI重复作答，携带的是完全相同的知识盲区——让一个不懂天文学的学生反复做同一道天文题，他依然不会。

第二类是“多智能体辩论”：让多个AI互相交换答案并修正自身回答，经过数轮交流后达成共识。但每轮交流均消耗大量计算资源，且无论题目难易、学科特点如何，流程固定不变，既不灵活，成本也呈线性增长。

第三类是“路由方法”：通过一个小模型判断某道题最适合哪个大模型，然后直接交由该模型处理。此法虽比前两种聪明，但只能做一次性静态判断，无法根据解题进程动态调整策略，更无法将复杂的综合题拆解开，分别交给最擅长的模型处理不同部分。

三、SciOrch：一套动态多模型调度系统

研究团队提出的解决方案名为SciOrch，其核心思路可通过一个生活场景来理解。

假设你是一名经验丰富的团队组长，手下有几位各具专长的专家：一位精于图像分析，一位擅长数值计算，另一位知识广博。你不会把整道题丢给其中一人，而是先拆解问题：图像部分交给读图专家，计算部分交给计算专家，最终的综合判断则由你亲自完成。这正是SciOrch的工作逻辑。

SciOrch由一个相对轻量的8B参数视觉语言模型（基于Qwen3-VL-8B）担任“总指挥”。它的任务并非直接回答科学问题，而是负责将问题分解、调度，并最终综合各路答案得出最终结论。可供其调用的“专家团队”是一个包含16个商业API接口的模型池，涵盖OpenAI的GPT系列（包括GPT-5.4、GPT-5、GPT-4o、o3等九个版本）、Anthropic的Claude系列（Sonnet-4.5、Sonnet-4、Haiku-4.5三个版本）以及谷歌的Gemini系列（Gemini-3-Pro、Gemini-3-Flash、Gemini-2.5-Pro、Gemini-2.5-Flash四个版本）。该池子特意混合了旗舰级与轻量级模型，目的是让总指挥学会在精度与成本之间做出权衡。

在解题过程中，总指挥每一步都面临两个选择：要么将当前待解决的子问题，连同指定调用哪个模型的指令打包发出（称为“委托”动作）；要么宣布已收集足够信息，提交最终答案（称为“提交”动作）。每次委托都会收到一个来自外部API的回复，该回复会被记录，成为下一步决策的参考依据。整个过程如同侦探逐步收集线索，每一条线索都在缩小嫌疑范围，直到证据充分才宣布结案。

委托动作还包含一个任务类型标签，总指挥需声明该子问题属于“计算类”、“科学推理类”还是“视觉解析类”，以便系统根据类型将任务路由到最合适的模型。

四、训练总指挥的核心挑战：每次迭代都需要真实API调用成本

设计出SciOrch的框架只是第一步，真正让总指挥变得智能是更大的挑战。

常规做法是使用“强化学习”来训练此类决策系统——让AI反复试错、从错误中学习，就像训练下棋机器人的策略网络一样。但SciOrch面临一个现实问题：它的每一次“尝试”都需要调用真实的商业API，每调用一次就会产生实际费用，并伴随网络延迟。若按传统强化学习思路，需要生成大量样本，API开销和等待时间将失控至无法承受。

研究团队采用蒙特卡洛树搜索（MCTS）来解决此问题。简而言之，MCTS是一种“探索路径”的方法，它将解题过程想象成一棵不断分叉的树——从根节点出发，每一步可走不同路径，最终到达一片叶子即获得一个答案。

传统强化学习是让AI沿某条路径走到底并获取反馈，再走另一条路，如此反复。MCTS的聪明之处在于，它让多条路径共享公共路段——从根到某个分叉点的路段只需探索一次，从该分叉点出发的多条支路可并行探索，从而大量减少重复的API调用。一棵树可产生数十条训练样本，无需每条样本都从头到尾走一遍完整流程。

研究团队将MCTS的执行分为三个阶段。第一阶段叫“多样化滚出”，目的是在树的初始建立阶段就让不同分支尽可能走不同的路。具体做法是：在每个决策节点，用两种不同的模型池配置各生成若干候选动作，然后从中挑出“差异最大”的两个作为左右分支。这里的差异通过语义相似度来衡量——两个委托动作在语义上越不相似，越可能代表两种截然不同的解题策略，因而也更具价值。

第二阶段叫“信号驱动扩展”，目的是将有限的探索预算集中在最具训练意义的节点上。一个节点是否值得深入探索，取决于其子节点之间的“收益差距”——如果在该节点选择不同动作，最终得到正确答案的概率差异很大，则该节点就具有很高的训练价值，应优先扩展。同时，系统引入一个深度惩罚项，避免树变成一条细长的单链而缺乏横向多样性。

第三阶段叫“剪枝”，用于去除无效分支。当某个节点的子节点过多时，只保留平均期望回报最高的子集，其余删除。这既控制了树的规模，也去掉了那些“全对”或“全错”的无效节点——因为这两种节点对模型学习毫无帮助，它们无法告诉模型哪个动作更优。

五、从搜索树到模型参数：如何提炼训练信号

收集到一棵包含大量节点的搜索树之后，如何用它来更新总指挥的参数，是另一个技术关键。

研究团队没有采用“把整条路径作为一个训练样本”的直觉做法，而是为树上每一个非叶子节点单独构造一个训练样本。原因在于，路径级别的训练信号容易自相矛盾——同一个早期动作，可能因后续路径不同而出现在正确答案的轨迹里，也出现在错误答案的轨迹里，导致模型收到互相冲突的信号，训练不稳定。

节点级别的训练方式如下：对于树上每个节点，计算它选择当前动作之后的子节点的平均期望回报，再减去该节点所有探索过的子节点的平均期望回报，得到一个相对优势分数。该分数代表“当前这个选择，相比同一情境下的其他可能选择，到底好多少或差多少”。正分意味着该选择优于平均水平，应被强化；负分意味着差于平均水平，应被抑制。

在此基础之上，研究团队还加入了KL散度惩罚项，确保模型在学习过程中不会偏离初始状态太远。然后使用类似PPO（近端策略优化）的方法对梯度进行裁剪，防止单次更新幅度过大导致训练崩溃。这整套方法在论文中被称为REINFORCE++风格的训练，是对经典强化学习算法的改良版本。

整个训练过程是迭代进行的：用当前版本的总指挥跑一批MCTS，收集节点级别的训练样本，更新模型参数，再用新版本的总指挥跑下一轮MCTS，如此循环。梯度更新完全在离线状态下进行，不占用API调用的时间窗口，有效缓解了延迟问题。

六、数据集的构建：如何为实验搭建高质量考场

为验证SciOrch的有效性，研究团队构建了一个包含240道题的测试集，同时使用176道题进行训练。

训练和测试数据来自两个来源。第一个是SGI-Reasoning数据集，包含291道题，涉及九个科学学科，每道题都需要解读真实的科学实验图像。团队按学科比例将其拆分为145道训练题和146道测试题。第二个来源是Scientists' First Exam（简称SFE），这是一个覆盖天文学、化学、地球科学、生命科学和材料科学五个领域的双语视觉问答数据集，原始包含830道题。

从SFE中筛选题目经过了严格流程。研究团队首先仅保留英文的多项选择题，筛出281道候选题；然后对每道候选题用五个顶级模型（GPT-5.4、GPT-4o、Gemini-3-Pro、Gemini-2.5-Pro和Claude-Sonnet-4.5）分别作答，只保留至少一个模型能答对的题目——那些所有模型都答错的题，通常是标注有误或题目本身存在歧义，而非真正意义上的超难题。最终从SFE中选出125道可用题，分为31道训练题和94道测试题。

七、实验结果：数据背后的关键发现

最终结果呈现在一张详尽的对比表格中。

先看独立模型的直接表现。Qwen3-VL-8B这个开源模型在直接作答模式下平均准确率仅为27.52%，即使通过监督微调（SFT）提升到31.24%，或通过GRPO方法提升到29.10%，也依然远落后于任何商业模型。这表明，在此难度级别的科学推理任务上，仅靠强化训练一个8B规模的开源模型，无法弥合与顶级商业模型之间的差距。

三个商业模型的直接作答成绩分别为：GPT-5.4平均50.83%，Gemini-3-Pro平均52.92%，Claude-Sonnet-4.5仅38.33%。自洽性投票和多智能体辩论对这些模型的提升都非常有限——GPT-5.4使用自洽性投票仅提升了0.42个百分点，多智能体辩论甚至使其下降了2.08个百分点，而API花费却膨胀了5倍。基于提示词特征进行路由的P2L方法表现更差，平均仅为37.70%，连任何一个商业模型的直接作答都比不过。

SciOrch的成绩是：SGI子集49.30%，SFE子集68.10%，加权平均56.66%。这比最强单一商业模型Gemini-3-Pro高出3.74个百分点，比最强的多智能体基线高出3.33个百分点，同时在两个子集上都实现了最高准确率——这意味着SciOrch并非只在某个领域偏科，而是真正形成了跨学科的综合优势。

成本方面的数据同样值得关注。SciOrch在整个240题测试集上的API总花费为10.42美元。相比之下，GPT-5.4的自洽性投票方法花费24.73美元，Gemini-3-Pro的自洽性方法花费14.36美元。SciOrch不仅在精度上领先，在成本上也低于主要竞争基线的一半。

八、细节剖析：提示词工程与系统设计

研究团队在附录中完整公开了SciOrch的提示词模板，这些设计细节揭示了系统有效运转的内在逻辑。

总指挥的提示词明确要求它担任“路由决策者”而非“直接解题者”，并规定了严格的“提交门槛”——在宣布最终答案之前，必须满足三个条件：第一，决定性的关键事实必须有至少一个委托步骤的回复作为支撑，而不能仅凭总指挥自己的推断；第二，如果某次委托的回复置信度在0.9以上，要么需要有独立的交叉验证（如用不同方式重新推导该关键值，或读取图像的不同区域），要么必须说明为何不需要验证；第三，不能存在任何尚未核实的、可能推翻当前结论的反例。这套机制有效遏制了AI系统常见的“过度自信”问题。

路由规则也相当具体：视觉解析类任务优先送往擅长图像理解的视觉模型池；高难度计算或科学推理任务送往旗舰级模型；中等难度任务分配给强通用模型；简单查阅或一步算术任务则交给轻量级模型。这种分层路由让系统在控制成本的同时，最大化了每次调用的价值。

专家模型的提示词则要求被委托的模型只回答总指挥提出的那个子问题，不做整道题的综合判断，并且要给出自己对子问题答案的局部置信度，同时要求其独立于总指挥的当前推断方向进行推理，避免被总指挥的错误方向带偏。

说到底，SciOrch讲述的其实是一个关于分工与协作的故事。在那些最难的科学推理题目上，没有任何一个AI是全能的——就像没有任何一位科学家是全才一样。真正的进步不是把一个模型训练得无所不能，而是学会识别每个模型的擅长领域，然后在正确的时间把正确的问题交给正确的专家。

一个只有8B参数的“小模型”，通过学习如何聪明地调度那些比它大得多的模型，最终取得了超越所有成员单打独斗的成绩，而成本却更低。这一结果对整个AI行业的启示在于：系统设计本身就是一种可以被学习的能力，协调智慧可以在一定程度上弥补个体能力的不足。

当然，这项研究也存在清晰的局限。测试集只有240道题，跨越九个学科，每个学科的题目数量相对有限，难以对单个学科得出可靠的统计结论。此外，整个系统目前只适用于多项选择题格式，因为只有这种格式才能提供明确的对错信号用于训练——现实中的科学研究往往需要开放式的推导和论证，如何将SciOrch扩展到自由格式的科学推理，仍然是一个待解决的开放问题。

对SciOrch体系感兴趣的读者，可通过arXiv编号2606.15872查阅完整论文，代码也已在GitHub上开源。

Q&A

Q1：SciOrch与传统多智能体辩论方法相比，核心差异在哪里？

A：传统多智能体辩论是让同类模型互相交换答案、达成共识，流程固定，成本随轮数线性增长，且多个相同模型依然共享相同的知识盲区。SciOrch的差异在于，它会主动将一道题拆解为若干子问题，按子问题的类型选择最合适的模型来回答，决策是动态的，可根据已有回复随时调整方向，整体成本也低于自洽性投票和辩论方法。

Q2：为什么使用蒙特卡洛树搜索训练SciOrch，而不是普通的强化学习？

A：普通的在线强化学习每产生一条训练样本就需要调用一次完整的商业API流程，费用和延迟都会失控。MCTS通过树状结构让多条路径共享公共前缀，一棵树可以产生数十条节点级别的训练样本，同时梯度更新在离线状态下进行，不占用API调用时间窗口，大幅降低了训练成本。

Q3：SciOrch的8B总指挥模型最终是否学会了真正的“路由策略”，还是仅仅在随机调用模型？

A：从实验结果来看，SciOrch确实学到了有意义的路由策略。它在SGI和SFE两个测试子集上同时取得最高准确率，而非偏科优秀，说明它能够根据题目的学科特点和子问题类型做出有针对性的委托决策，而不是随机分配。此外，其API花费仅为10.42美元，低于盲目多次调用所产生的成本，也侧面印证了其路由决策的有效性。