EvolveRouter论文测评：路由与提示协同进化深度解析

2026-06-15阅读 0热度 0

人工智能

论文标题：EvolveRouter: Co-Evolving Routing and Prompt for Multi-Agent Question Answering

先点明几个核心判断。近年来，大语言模型（LLM）在推理、语义理解与生成任务上的突破有目共睹，由此催生出强力的范式——基于LLM的智能体。这些智能体能自主规划、调用工具，甚至在极少人工介入下执行多步任务。但现实远比理想复杂：整个生态面临一个根本性的系统挑战——面对具体下游任务时，从业者必须在模型骨干、提示策略和交互协议的设计空间里做选择，而最优配置在事前往往完全未知。

值得关注的是，现有研究已经揭示，不同智能体通常表现出互补的、任务专属的优势。实际部署中，中等规模模型或更简单的智能体配置，有时反而能匹配甚至超越复杂方案。与此同时，一股脑儿组合全部可用智能体，效率极为低下。统一集成常常把算力浪费在无关参与者上，而选择不当的多智能体协作，反倒可能拖累最终性能。

在此背景下，LLM路由与模型选择成为研究热点。早期方法依赖多数投票、基于一致性的选择等启发式聚合策略；随后自适应路由登场，通过偏好学习、对比学习等方式，学习针对特定查询的智能体分配策略；再往后，研究者开始利用查询与上下文的语义及结构信息，向协作式多智能体投票推进。但问题在于，两个关键局限始终未被有效攻克：第一，多数路由方法视智能体行为为固定不变，只优化“调用哪个智能体”，却不调整“每个智能体如何配置以提升表现”；第二，现有协作范式依赖僵化参与机制，无法根据查询自适应地调整参与智能体的数量。

研究目的

本文目标清晰——解决上述两大核心瓶颈。具体而言：一是现有路由方法仅优化选择策略，不改智能体自身配置质量，导致路由无法充分释放协作收益；二是现有协作方案依靠固定参与数量的聚合机制，不能为每个查询动态确定最合适的协作规模，结果要么遗漏互补的专业能力，要么引入无关或弱势的智能体。

本文要提出的，是一个可训练的联合优化框架，在路由质量与智能体能力两个维度上实现闭环协同进化，最终达成更强大、更高效的多智能体推理。

本文核心贡献

贡献一：路由与智能体专业化的闭环协同进化

针对智能体行为静态化的局限，本文提出一个融合查询感知路由与定向智能体指令精炼的闭环协同进化框架。框架基于RouterGNN构建知识图谱路由器（KG-based router），在训练过程中逐智能体收集优势及失败模式的细粒度诊断信号，识别持续表现不佳的角色，生成候选指令修订方案，并仅保留能带来可靠改进的方案。精炼后的智能体产出更高质量的输出，进而为后续路由训练提供更清晰的监督信号。通过这种迭代，路由质量与智能体能力实现联合提升——这才是关键所在。

贡献二：基于动态智能体选择的自适应协作机制

针对僵化协作方案的问题，本文引入自适应推理机制。通过路由加权答案一致性，动态确定每个查询的有效协作规模K。该方法不依赖单一智能体路由或固定池聚合，而是按路由器预测的排名顺序依次调用智能体，通过监控加权答案一致性来动态估计所需参与智能体的数量。结果，智能体选择与协作规模实现了联合学习。

贡献三：全面的实验验证与分析

在五个问答基准测试上的广泛实验表明，EvolveRouter在F1和精确匹配（Exact Match）两个指标上，一致性地超越所有SOTA路由基线，验证了协同进化框架的泛化有效性。进一步的消融分析也验证了闭环指令精炼和自适应协作机制各自的有效性，同时揭示了路由质量与智能体能力是如何相互增强的。

研究方法

问题设定与路由目标

智能体池设定：考虑一个智能体池A = {a₁, …, aₙ}，其中每个智能体将骨干LLM与提示角色（如Chain-of-Thought、Debate、ReAct-Reflect等）相结合。在本文设定中，n = 24，对应4种骨干模型 × 6种角色。给定查询q和上下文C，智能体a通过其提示πₐ调用骨干LLM生成答案yₐ(q)。

知识图谱建模：每个问答实例被表示为带类型的知识图谱G = (V, E)。节点集V = V_Q ∪ V_A ∪ V_E，分别包含查询节点、智能体节点和实体节点。边编码了四类关系：查询-实体边和实体-实体边把查询锚定在证据上下文中；智能体-实体边反映每个智能体对上下文的视角；查询-智能体边是可训练连接，承载模型学习预测的路由信号。这样一来，路由转化成了学习图上的评分函数：s(q,a) = f_θ(q,a; G)，并通过softmax得到概率分布p_θ(a|q,G)。

训练信号：对每个训练查询，评估所有智能体的token级F1分数，通过温度缩放的softmax转化为软目标分布p*(a|q)，然后通过KL散度最小化训练路由器。测试时通过加权多数投票组装最终预测。

联合优化目标

提示集Π = {πₐ}_{a∈A}作为可联合优化的变量，同时在推理时让智能体预算K(q)实现查询自适应。由于软目标p*通过智能体性能依赖于提示，改进提示会重塑路由器学习的内容，反之亦然。理想的优化目标是对路由器参数θ和提示Π进行联合优化，最小化期望KL散度。

迭代协同进化算法的步骤很清晰：①训练基于知识图谱的路由器；②收集诊断信号识别弱角色；③生成候选指令修订；④保留有效修订精炼智能体；⑤精炼后的智能体为路由训练提供更清晰监督；⑥返回①迭代执行。

自适应协作推理

在推理阶段，替代固定K值或单智能体选择，方法按路由器排名顺序依次调用智能体，监控累积的路由加权答案一致性，当一致性低于阈值时停止，从而动态确定该查询的有效协作规模K(q)。

数据集

实验在三个多跳问答基准测试上进行：HotpotQA（平均142.1实体/385.1实体间边）、NewsQA（60.3实体/109.4边）和NGQA（25.0实体/26.75边）。智能体池包含4种骨干模型（GPT-4、Claude等）× 6种角色，共24个智能体配置。

研究结果

整体性能提升：在五个QA基准测试上，EvolveRouter在F1和精确匹配（Exact Match）两个指标上，一致性地超越所有SOTA路由基线，验证了协同进化框架的泛化有效性。
闭环协同进化的效果：消融实验表明，闭环指令精炼机制能够显著改进底层智能体的质量，进而提升路由决策的准确性。路由器诊断信号与智能体改进之间形成了正向增强循环。
自适应协作的效果：自适应K(q)推理策略避免了固定池聚合的冗余计算和不相关智能体的干扰，在不同复杂度查询上实现了效率和质量的动态平衡。路由加权答案一致性机制有效识别了有效协作边界。
跨维度洞察：实验揭示了一个关键发现——智能体的质量具有高度上下文依赖性。同一LLM在相同提示下，不同任务表现差异显著；提示选择对各智能体F1的影响因角色而异。这充分说明，多维度的联合优化至关重要。

总结与展望

本文提出的EvolveRouter，是一个通过闭环协同进化联合优化路由与智能体配置的创新框架。它有效解决了多智能体问答中两个核心问题：智能体质量静态化和协作规模僵化。实验结果充分验证了其相对于现有SOTA方法的优越性。

局限性：本文主要在问答任务上验证，框架在开放式生成、复杂推理等其他任务类型上的泛化能力，还有待进一步探索。此外，协同进化过程增加了训练复杂度，在超大规模智能体池上的可扩展性也需要仔细评估。

未来拓展方向：一是将框架拓展至更多任务类型，比如代码生成、科学推理；二是探索更细粒度的智能体诊断信号和指令修订策略；三是研究协同进化过程的收敛保证和效率优化；四是结合模型剪枝或蒸馏技术，进一步降低计算开销。