普林斯顿AI调度员：大模型多任务学习的新突破

2026-06-17阅读 0热度 0

大模型

当AI追求“全能”时，为何反而效率低下？

这项由上海交通大学与普林斯顿大学联合完成的研究，于2026年6月以预印本形式发布，编号为arXiv:2606.11182，感兴趣的读者可通过该编号查阅完整论文。

当AI助手试图同时掌握所有技能时，会发生什么？

设想一个场景：你雇佣了一位私人助理，第一天让他学习法律文书，第二天钻研股票分析，第三天编写代码，第四天还要掌握医学诊断。不久你会发现，他的学习效率急剧下降——掌握新技能时，旧知识被快速遗忘；不同领域的经验相互干扰，导致各种离谱判断。这一令人头疼的现象，在人工智能领域同样普遍存在，且是目前AI商业化落地中最棘手的障碍之一。

这篇论文提出的Eevee框架（读作“依依”，灵感源于经典的多形态精灵宝可梦），专门旨在解决这一难题。名字颇有深意——正如宝可梦可进化成多种形态，Eevee也能根据不同任务“变形”，灵活应对各领域挑战。研究团队来自上海交通大学和普林斯顿大学，核心贡献者在普林斯顿AI实验室完成了这项工作。

一、问题根源：单个提示词无法应对所有任务

在介绍Eevee之前，需先理解其解决的问题。现代大语言模型——例如常见的AI对话助手——部署后，研究人员可通过调整“提示词”（即给AI的说明书或使用指南）持续优化其表现。此过程无需重新训练模型，仅在每次提问前附加一段精心设计的说明，指导AI用何种思路思考、输出何种格式的答案。这种技术被称为“测试时提示词学习”，好比在不更换引擎的情况下，升级汽车的操作手册。

这种技术针对单一任务时效果显著。比如专门教AI解数学题，或专门训练AI写代码，通过不断优化提示词均能获得明显提升。然而现实中的AI助手无法仅处理单一任务。用户时而询问医学问题，时而要求编写程序，时而需要分析金融数据。这意味着同一套提示词必须同时适应多个截然不同的任务领域。

问题恰在于此。当AI同时接收来自不同领域的训练信号时，为适应某个领域所做的调整，往往会干扰甚至破坏对另一领域的适应。研究团队将此称为“跨数据集干扰”——这就像那位什么都想学的私人助理，学习新技能的代价是遗忘旧知识。

论文中的一组对比数据直观揭示了这一现象。研究团队设计了一个渐进式实验：先让AI学习第一个任务（高中到研究生级别的科学问答），然后加入第二个任务（金融公式计算），再加第三个任务（定理解题），最后加第四个任务（编程）。随着任务增加，主流方法GEPA和ACE的整体表现分数急剧下滑——加入两个任务后，GEPA的综合改善值降至-31.6分，意味着不仅未进步，反而比不学习时更差；到四个任务时，GEPA和ACE均深陷负分区间，分别停留在-15.36和-18.58。与此同时，Eevee在整个过程中始终保持正向增长，最终以+41.53分收尾。这一差距说明Eevee在应对多任务场景时具有压倒性优势。

二、核心思路：调度员加多位专才

Eevee的设计思路一句话可概括：与其培养一个样样通但样样松的全能选手，不如打造一群各有专长的专才，再配备一个聪明的调度员。

具体而言，Eevee维护着一组专用提示词（论文中称为“提示词池”），每个提示词擅长处理某一类任务。同时系统中包含一个“路由器”，负责判断每道输入问题所属类型，然后将其分配给最合适的提示词处理。

这一设计的精妙之处在于：当AI学习代码题时积累的经验，只会影响专门负责代码的提示词，而不会污染负责科学问答或金融计算的提示词。各司其职，互不干扰。

打个比方：这就像一家大型律师事务所的运作模式。有专门处理刑事案件的律师，有专门处理商业合同的律师，有专门处理知识产权的律师。当客户走进大门，前台接待（即“路由器”）先判断客户需求，然后将其带到最合适的律师处。这样每位律师可专注深耕自身领域，无需样样精通。

然而，设计这个调度员本身是一项挑战。一个过于僵化的调度员，面对边界模糊的问题会束手无策；一个不稳定的调度员，则会导致专才的训练过程混乱不堪。更棘手的是，调度员和专才之间存在“先有鸡还是先有蛋”的相互依赖关系：调度员的优劣取决于专才的水平（只有专才间的能力差异足够明显，调度员才能做出有意义分配），而专才的训练质量又取决于调度员（只有分配到正确任务的训练样本，专才才能朝正确方向进步）。这一相互依赖的难题，正是Eevee最核心的技术贡献所在。

三、协同进化：调度员与专才共同成长

Eevee解决“先有鸡还是先有蛋”问题的方案，称为“路由器-提示词共同进化”。与其先训练调度员再训练专才，或先培训专才再设计调度员，Eevee让两者在交替迭代中相互促进、共同成长。

整个训练过程分为两类交替进行的阶段：调度员进化阶段和专才进化阶段。在调度员进化阶段，各专才保持不变，系统专注于优化调度员的分类判断能力；在专才进化阶段，调度员保持不变，每位专才在被分配的训练数据上磨练自身专业能力。如此循环往复，每一轮结束后调度员变得更聪明，专才变得更专业，两者进步相辅相成。

在调度员进化阶段，系统不会随机挑选训练题目来评估调度员的表现。它只选择那些“至少有一位专才能答对”的题目——因为只有这样，如果某位专才答错了，才能合理归因于调度员的分配失误，而非题目本身难度过高。这一细节设计避免了将专才能力不足错误归咎于调度员。

评估候选调度员的好坏，Eevee综合考察三个维度：一是下游准确率，即被分配到各专才手中的题目最终答对的比例；二是一致性，衡量调度员的分类是否将相似题目归为一类、将不同类型题目区分开；三是均衡性，确保每位专才有足够的任务可做，避免某位专才被闲置。随着训练推进，评估中准确率的权重逐渐上升，而一致性和均衡性的权重慢慢降低——这背后的逻辑是：早期需要保持多样性以探索更广的可能性空间，后期则需锁定在真正有效的方案上。

每当系统产生一个候选调度员，还会触发一轮“反思”：系统分析那些“被分配的专才答错但换一位专才能答对”的案例，尝试总结出更好的分类规则。这就像律师事务所的前台接待在每次分配失误后，认真复盘并更新判断标准。

在专才进化阶段，机制类似但更加简洁。每位专才的提示词也会经历“变异”（产生新的候选提示词）和“反思”（从答错的案例中总结改进方向）两个步骤。优秀的新提示词才能被保留——判定标准是其在验证集上的表现必须超过“空白提示词”（即不给AI任何额外指示时的表现），且必须进入帕累托前沿池（即与已有的优秀提示词相比各有千秋，能在不同类型的题目上互补覆盖）。帕累托前沿概念源自经济学，简单说就是：只有当一个方案“在至少某些方面比其他方案更好，且没有方面更差”时，才有资格留下。这一机制确保了保留的提示词集合既多样又高效。

四、三阶段培训：从基础到成熟的成长路径

理解了协同进化的机制后，还需了解系统如何从零开始启动。Eevee的训练分为三个明确的阶段，就像培训一批新员工的完整流程。

第一阶段称为“初始化”。此阶段的任务是，在没有调度员的情况下，先用所有混合任务的训练数据，为每位候选专才积累一批提示词，从中筛选出覆盖不同题型的K个优质提示词，构成初始专才团队。筛选方法采用贪心覆盖算法：依次挑选每次能覆盖最多“之前方案未覆盖到的题目”的提示词，直到选满K个为止。这样选出的专才团队，能在不同类型的题目上各显神通，为后续调度员的学习提供有意义的区分依据。

第二阶段称为“探索”。此时系统进入调度员和专才的交替进化，但每个阶段的训练预算较轻量。频繁切换而非深度优化是此阶段的设计逻辑——因为调度员尚不稳定时，为某个调度员深度优化专才是资源浪费；而用不成熟的专才深度优化调度员，容易让调度员陷入局部最优。轻量级的反复交替，是在不确定性中高效探索的最佳策略。

第三阶段称为“收敛”。当探索阶段的交替迭代使调度员趋于稳定后，系统将调度员固定下来，为每位专才分配更大的训练预算，让他们在稳定的分工格局下精益求精。这就像公司组织架构稳定后，每个部门终于可心无旁骛地专注提升自身业务能力。

五、实验数据：成绩单上的显著数字

研究团队在四个来自不同领域的基准测试上验证了Eevee的效果，包括GPQA Diamond（涵盖生物、物理、化学等研究生级别的科学问答）、Formula（基于金融公式的计算题）、TheoremQA（涉及数学定理的推理题）和HumanEval（编程题）。实验使用了两个主流大语言模型：Qwen3-4B-Instruct和DeepSeek-V3.2。

以Qwen3-4B-Instruct为基础模型，在无任何提示词优化的情况下，四个测试的平均分为41.37分。引入GEPA方法后，平均分下滑至37.73分；ACE方法下降更多，仅34.92分。而Eevee将平均分提升至51.75分，比基线高出10.38分。具体来看，编程题的分数从49.46分飞跃至72.63分，金融公式题从45.22提升至54.55，定理推理题从14.79提升至25.27。唯一有小幅下滑的是科学问答题，从56.00降至54.55——这一下滑是有原因的，后文将详细解释。

换成更大的DeepSeek-V3.2模型，效果更加显著。基线平均分39.75，Eevee提升至64.07，增幅高达24.32分。其中编程题从42.82飞升至92.82，接近满分；金融公式题从30.00提升至60.55，实现翻倍；定理推理题从21.21提升至39.84。

三次独立运行的结果稳定性也相当好。Qwen3-4B-Instruct下，Eevee的平均分标准差仅为1.62分；DeepSeek-V3.2下更低，只有1.08分。相比之下，GEPA在DeepSeek-V3.2上的标准差高达4.48分，波动明显更大。

六、为什么科学问答反而下降——一个耐人寻味的发现

研究团队专门做了一组诊断性实验，深入分析了提示词学习究竟“学到了什么”。他们比较了在六次完整实验前后，模型在测试题上的答题变化情况，统计了题目答对变错（简称“R→W”翻转）和答错变对（简称“W→R”翻转）的次数。

结论非常清晰地呈现出一种与任务性质高度相关的规律。编程题（HumanEval）共有193道题从错变对，仅16道从对变错；金融公式题（Formula）从错变对268道，从对变错21道；定理推理题（TheoremQA）从错变对632道，从对变错166道。而科学问答题（GPQA Diamond）却是一个例外：从对变错有89道，从错变对仅55道，得不偿失。

这一反差揭示了一个深刻的规律：提示词学习在“有章可循”的任务上大放异彩，在“需要独特知识积累”的任务上却可能帮倒忙。对于编程题，可总结出通用规则，如“不要输出多余注释”、“确保函数体完整可执行”；对于金融公式题，可总结出“注意单位换算”、“只输出数字不加符号”等规则。这些规则一旦提炼出来，就像操作手册一样稳定提升答题质量。

然而，科学问答题的本质是“你是否知道这一事实”。提示词学习可使AI的推理过程更系统化，但它无法凭空给AI注入原本未知的物理常数或生物分类知识。更糟糕的是，学来的推理模板有时会干扰正确的直觉判断。论文中举了一个具体例子：一道关于系外行星密度的题目，目标是选出密度最大的类地行星。无额外提示词时，模型凭借“大质量岩石行星因重力自压缩会更致密”这一天天体物理直觉，正确选出了答案。但加入强化系统化推理的提示词后，模型用“密度等于质量除以体积”开始逐步计算，并错误假设“相同成分意味着相同密度”，最终选错了答案——推理更周密了，结果却错了，因为用于推理的前提本身就不正确。

这一发现对AI应用具有实际指导意义：提示词学习是磨炼解题程序的利器，但它无法填补知识空白。

七、消融实验：每个组件都不可或缺

为验证Eevee各个核心组件的必要性，研究团队做了一组拆解实验，逐一移除不同关键设计，观察成绩变化。

完整版Eevee在Qwen3-4B-Instruct上的平均分为51.75分。如果将“可学习的调度员”替换为简单的默认路由（不做分类，随机或按固定规则分配），分数降至43.58分，下降8.17分。如果将调度员替换为一次性用GPT-5.4写好、然后固定不变的手写调度员（不再学习更新），分数更低，仅37.18分，甚至低于什么都不学的基线41.37分——这说明一个设计不当的固定分类方案，不仅无帮助，反而是一种拖累。如果移除协同进化，改为先独立训练完调度员、再独立训练专才的两阶段串行方案，分数为42.88分，也远低于完整版的51.75分。这些数据清楚表明：可学习的调度员、以及调度员与专才之间的协同进化，缺一不可，共同构成了Eevee效果的基石。

八、单一任务与多任务：灵活切换的调度员不会拖累专才

一个合理的疑虑是：引入调度员和多专才架构，会不会在只需做一件事时，反而比原本的单一提示词学习更慢、更差？

实验给出了令人放心的答案。在只针对单个基准测试的学习场景下，Eevee的表现与GEPA和ACE基本持平，在编程题和金融公式题上还略有领先。这说明额外的调度架构并未带来显著额外负担。在单任务场景下，调度员会将几乎所有题目分配给同一组提示词，退化为接近单专才的工作模式，因此不会有明显损耗。

随着任务种类增加，两者的差距才开始凸显。正如前文提到的，在四个任务全部加入后，Eevee的综合保留改善值稳定在+41.53，而竞争方法已沦陷于深度负分区间。多任务场景正是Eevee的主战场，也是它被设计的核心动机所在。

九、跨模型与跨任务迁移：学到的经验是否普适？

研究团队还测试了一个更大胆的问题：用一个模型学出来的提示词，能否直接用在另一个完全不同的模型上？答案是肯定的，且效果相当好。

将Qwen3-4B-Instruct上学出的提示词直接搬到DeepSeek-V3.2上使用，DeepSeek的平均分从39.75提升至54.10，增幅14.35分。其中编程题提升34.22分，金融公式题提升12.28分，定理推理题提升11.68分。虽然这一成绩略低于DeepSeek直接自己学习的64.07分，但考虑到完全未针对DeepSeek做任何专项训练，这一迁移效果已相当可观。这意味着提示词中学到的任务规则具有一定普适性，不完全依赖于特定模型的内部机制。

跨任务迁移方面，研究团队将在四个核心基准上学到的提示词，用于测试两个从未出现过的任务：MBPP（另一个编程测试）和MMLU-Pro（覆盖更广泛知识领域的综合问答）。在MBPP上，Eevee将分数从69.29提升至70.42，而GEPA和ACE分别降至68.20和67.47。在MMLU-Pro上，三种方法均有小幅下滑，Eevee下降1.82分，略多于ACE的1.42分但少于GEPA的1.89分。这一结果与前面发现的规律吻合：对于与训练任务性质相似的编程类题目，经验可迁移；对于知识密集型的宽泛问答，提示词迁移的帮助有限，甚至可能带来轻微干扰。

十、成本对比：用最少资源，办最多事情

实际部署AI系统时，每次调用模型都需要消耗计算资源（以“token使用量”衡量，可理解为AI思考和回答所消耗的字数）。研究团队统计了测试阶段每道题平均需消耗的token数。

Eevee每道题平均用4320个token，其中输入3000个、输出1320个。GEPA每道题平均用3470个token，比Eevee少，因为它没有调度分类的额外步骤。而ACE每道题平均高达21300个token，是Eevee的近五倍。ACE的高消耗源于其设计方式——它将积累的经验以追加条目的形式写入越来越长的“操作手册”，随着任务增多手册越来越长，每次调用都要将整本手册塞入输入。Eevee仅需在每道题前加上对应专才的提示词（通常较短）以及调度员的分类判断，额外开销非常有限。

换句话说，Eevee在取得最佳综合成绩的同时，花费大约只有ACE的五分之一，与GEPA处于同一数量级。这种高性价比特性，对于真实商业部署至关重要。

十一、超参数稳定性：结果非调参所得

学术界有一个常见质疑：一个方法的好成绩，是否是通过精心调整超参数“调”出来的，换参数就会崩溃？为回应这一疑虑，研究团队测试了八种不同的超参数配置，涵盖了调度员评分的退火策略、一致性与均衡性的权重比例、提示词搜索的预算与批次大小等多个维度。

八种配置下的平均分分布在45.05到50.97之间，跨度5.92分，样本标准差1.73分。更重要的是，所有八种配置均在最终平均分上超越了什么都不学的基线，没有任何一种配置出现“崩塌”情况。这表明Eevee的整体框架具有稳健性，其优势不依赖某一组特定的超参数设置。

说到底，Eevee解决了一个AI部署领域长期存在的现实痛点：当需AI同时处理多种不同类型任务时，如何防止“学了新的忘了旧的”这一恶性循环。它的答案是用一个智能调度员搭配一群专业专才，且调度员和专才必须共同成长，而非先后分开培养。这一思路看似简单，但在工程实现中蕴含着诸多值得借鉴的细节。

当然，这项研究也诚实指出了自身局限：由于搜索过程带有随机性，每次运行得到的调度员和提示词文本可能不完全一样，无法保证逐字复现；整个系统仍依赖真实答案标签提供学习信号，尚无法在无正确答案场景下自主运转；若训练样本数据噪声较大或与实际应用场景存在明显差异，学出的提示词也可能适得其反。这些局限划定了Eevee当前阶段的适用边界，也指明了后续研究值得继续深入的方向。

归根结底，这篇论文带给我们一个有趣的思考：也许通向“样样精通”的路，不是让一个人（或一个AI）死命学习所有东西，而是建立一套高效的分工协作机制，让各有专长的成员在一个聪明调度者的统筹下各司其职，共同应对多样化的挑战。有兴趣深入研究细节的读者，可通过arXiv编号2606.11182获取完整论文。

Q&A

Q1：Eevee框架中的“路由器”是什么，有什么用？

A：路由器相当于一个智能调度员，负责判断每道输入问题所属类型，然后将其分配给最合适的专用提示词处理。例如，编程题分配给擅长代码的提示词，金融计算题分配给擅长数字运算的提示词。这样做的优势是，不同任务的学习互不干扰，避免了“学了新知识忘了旧知识”的问题。路由器本身也会不断学习优化，通过分析分配失误的案例来改进分类判断能力。

Q2：Eevee在科学问答题上为什么会下降？

A：科学问答题（GPQA Diamond）的核心是“你是否掌握特定专业知识”，而提示词学习擅长总结通用规则和解题程序，无法凭空给模型补充它原本不知道的物理常数或生物事实。更棘手的是，学来的强化推理模板有时会干扰正确的直觉判断，让模型用错误的前提做出看似严谨却答错的推断。这说明提示词学习对“知识密集型”任务的帮助有限。

Q3：Eevee和GEPA、ACE相比，在token消耗方面有什么区别？

A：Eevee每道题平均消耗约4320个token，与GEPA的3470个token相近。而ACE每道题高达21300个token，是Eevee的近五倍。ACE消耗高的原因是它将经验以追加条目的方式写入越来越长的操作手册，随任务增多手册越来越长，每次调用需将整本手册输入。Eevee仅需加上简短的专用提示词和调度分类，额外开销很小，在取得最佳综合成绩的同时，成本与GEPA处于同一水平。