阿里Pre-Route技术解析：如何根治RAG系统的无效检索难题

2026-05-15阅读 0热度 0

RAG系统

长上下文模型支持超过128K tokens的输入，但这不意味着每个问题都需要完整文档。对于“苹果公司现任CEO是谁？”这类事实查询，检索增强生成（RAG）从文档中提取几个关键片段通常就足够了。

然而，另一些问题则要求全局分析。例如，“这份财报中连续三个季度的净利润趋势如何演变？”这类查询，RAG的检索过程容易割裂跨段落的关键信息，只有完整的长上下文输入才能支持有效的全局推理。

这就引出了核心问题：究竟该由谁、依据什么标准，来决定何时使用RAG，何时又该启用长上下文（LC）？

核心发现：LLM具备潜在的路由判断力

当前主流方案是“自我路由”（Self-Route），其逻辑是：先尝试RAG，若模型输出“无法回答”，再回退到长上下文处理。这个思路看似合理，却存在几个固有缺陷：

首先，它本质是被动的。每次都必须先完整执行RAG流程（包括嵌入、向量检索和重排序），即便最终判断需要长上下文，这部分计算开销也已产生。

其次，它过度依赖模型的自我评估。模型可能过于保守，轻易放弃回答；也可能过于自信，在该使用长上下文时，强行用RAG检索的碎片拼凑答案。

最后，决策过程缺乏透明度。选择RAG或回退的原因没有清晰依据。

《Pre-Route》这篇论文提出了一条新路径：先决策，再执行。其关键发现并非新算法，而是一个实验结论：大型语言模型内部已经具备了在RAG与长上下文之间进行路由判断的能力，只是标准的推理流程未能将其有效激活。

如何验证？研究团队进行了“最佳N采样”（Best-of-N）实验。将路由视为二分类任务（选择RAG或LC），让模型在不同提示策略下决策，并增加采样次数N。

结果显示，在“直接回答”提示下，N=1时路由准确率仅为0.53，但当N增加到8时，准确率跃升至0.87。这表明模型拥有相关知识，但输出不稳定——有时决策正确，有时会出错，多采样几次就能捕捉到正确判断。

更值得注意的是，当使用论文提出的“结构化推理链”（Pre-Route）提示时，仅单次采样（N=1）的准确率就达到了0.70，N=4时即达到0.83并趋于稳定。这说明结构化提示并未注入新知识，而是有效地激活并稳定了模型内在的路由能力，让单次决策就能逼近多次采样的性能上限。

线性探针的验证更具说服力：在模型的隐藏表示上训练一个简单的线性分类器来预测“最优路由标签”。结果发现，配备了Pre-Route提示的Qwen3-1.7B小模型，其探针准确率（0.625）甚至超过了使用直接提示的Qwen3-8B大模型（0.549）。这再次证明，关键不在于模型规模，而在于提示结构是否能够有效引导。

Pre-Route的实现路径

Pre-Route的核心流程清晰分为三步。

Step 1：构建结构化提示

这一步的输入仅需轻量的元信息，包括：用户查询、任务类型、文档标题/类型、文档长度、回答模型名称、文档开头片段以及RAG配置。整个过程无需调用实际的检索器，也无需运行最终的回答模型，因此元信息获取的成本极低。

Step 2：六步结构化推理

模型将依据提示，按顺序进行六步结构化思考：

任务与文档特征：分析问题本质和文档结构。
信息分布判断：判断所需信息是集中在一处还是分散在各处。
上下文窗口可行性：评估文档长度是否超出处理窗口，问题是否对位置敏感。
检索可行性：判断RAG能否可靠地检索到所有关键段落。
模型能力考量：思考当前指定的回答模型更擅长处理哪种输入形式。
效率权衡：在效果相当的前提下，优先选择成本更低的RAG方案。

Step 3：输出路由决策与理由

最终，模型不仅输出选择RAG还是LC的决策，还会附带做出该选择的解释以及回退机制的考量。这使得整个决策过程变得可解释、可调试。消融实验证明，上述推理步骤中的任何一步被移除，都会导致路由准确率下降或长上下文使用率不合理地上升。

1.7B模型的训练路径

像235B这样的大模型在零样本设置下就能做出不错的路由决策，但其规划开销本身就不低。Pre-Route通过两阶段知识蒸馏，将这种能力高效地迁移到了1.7B的小模型上。

阶段一：拒绝采样

使用235B的教师模型生成推理链和路由决策，但只保留那些决策结果与“理想标签”一致的样本。这里的“理想标签”定义直观：仅当长上下文处理的效果明确优于RAG时，才选择LC；当两者效果相当时，默认选择更经济的RAG。

阶段二：路径监督微调

小模型在此阶段学习的不仅仅是“选什么”的最终答案标签，更是“为什么这么选”的完整推理链。这种学习完整决策路径的方式，比传统蒸馏只学习答案标签的效果更优。

蒸馏结果扎实可靠：蒸馏后的Q1.7B模型在LaRA基准测试上，路由准确率达到0.83，而长上下文选择率仅为3.2%——其决策精准度已接近大模型教师，但路由成本却降至Self-Route方案的约五分之一。

一个关键洞察是，这个小模型如果直接用提示进行路由（而不经蒸馏），表现会很差（推理链不稳定，74.3%的错误都偏向于选择“更安全”的长上下文选项）。蒸馏过程并非在教授一项全新的能力，而是在稳定化模型已有但未被激活的潜在直觉——这与之前Best-of-N实验的发现完全吻合。

实验结果

域内性能（LaRA Benchmark）

在LaRA基准测试中，无论回答模型的规模大小（从1.7B到235B），也无论回答时是否启用思考模式，Pre-Route方案在路由决策上均一致且显著地超越了Self-Route方法。统计检验结果显著。

以性能最强的Qwen-Max模型作为回答后端为例，Pre-Route在取得更高问答分数的同时，显著降低了长上下文的使用率，实现了更优的性价比。

域外泛化（LongBench-v2）

LongBench-v2的任务格式（四选一多项选择题）和评估协议与LaRA完全不同，属于严格的域外测试。Pre-Route方案在此表现依然稳健：

经过蒸馏的1.7B路由模型，在将长上下文调用减少75%以上的同时，问答准确率反而更高。这证明了蒸馏后的小模型具备出人意料的强大跨领域泛化能力。

成本分析

路由决策本身的开销在总成本中占比极小：即使是使用235B模型作为路由器，其成本也低于单次100K长度长上下文调用的4%；而使用蒸馏后的1.7B模型，路由成本占比则低于1%。真正的成本大头在于后续的回答阶段——因此，有效降低长上下文的选择率才是控制总成本的关键。

鲁棒性：元数据不完整也能工作

在实际部署中，文档的元信息可能并不完整。研究团队针对此设计了三种测试场景：完整元信息、仅包含文档长度和开头片段的最简配置、以及使用小模型推理补全缺失元信息。

结果显示，即使是最简配置，其路由效果仍优于Self-Route；而通过小模型补全元信息后，性能可接近完整元信息的水平。这表明Pre-Route并非依赖精细标注的元数据，而是将文档开头片段作为一种“软先验”——模型会综合查询内容和结构信息进行综合判断，不易被具有误导性的开头片段所影响。

总结

Pre-Route的核心论点非常清晰：大型语言模型潜在的路由能力是存在的，并非缺失——关键在于用正确的方式将其激活。

激活的方式就是“先思后行”：在正式生成答案之前，先用一套结构化的推理链引导模型，系统分析任务特征、信息分布、检索可行性等因素，从而做出有理有据的路由决策。这个推理过程仅需几乎零成本的元信息，并且其能力可以被蒸馏到小模型上，实现轻量级部署。

如果你正在构建或优化RAG系统，这个思路值得借鉴：与其在RAG失败后再被动回退到长上下文处理，不如在流程开始之前，就让模型想清楚该走哪条路。

Route Before Retrieve: Activating Latent Routing Abilities of LLMs for RAG vs. Long-Context Selection
https://arxiv.org/abs/2605.10235