RouteRAG：强化学习与特殊Token构建可学习RAG检索

2026-06-15阅读 0热度 0

强化学习

RAG系统的发展已进入新阶段，但大多数现有方案仍依赖预设的检索流水线或静态指令。RouteRAG打破了这一局限——它将多轮RAG重新定义为序列决策过程，核心是一套可学习的策略。

这套策略如何运作？通过推理过程中特殊的Token触发检索动作。每步生成一个动作Token——要么继续内部推理，要么经

...发起检索，要么通过...输出最终答案。在内部，用[passage]、[graph]或两者并列（如[graph][passage]）指定检索模式。

图1贯穿全文理解。早期多轮RAG方法，基于强化学习，将推理与段落检索交替执行，但奖励信号仅来自回答正确与否，未显式优化检索成本与效率。RouteRAG则将检索扩展到段落、图和混合三种模式，训练框架基于GRPO分两个阶段：第一阶段仅优化正确性，第二阶段加入基于总检索时间的效率奖励，鼓励更有选择性的检索行为，同时不牺牲回答质量。

多轮工作流：核心并非编写提示，而是学习何时触发

策略模型πθ在最多B步的预算约束内逐Token生成。一旦输出

...，系统从中解析出子查询q′和检索模式m∈{Passage, Graph, Hybrid}，传递给检索器R。检索器返回证据d，包裹在...标签内回注到上下文，供下一轮推理使用。当模型输出...后，流程终止。

训练时检索预算固定为B=4，每次检索返回k=3个段落。需注意，RRF公式中的k是另一个含义——平滑超参数，符号上应区分。

换言之，模型不再盲目猜测是否检索、检索什么，而是学会三类决策：何时检索、如何拆分子查询、选用哪种检索模式（段落/图/混合）。

三种检索模式：文本快，图谱深，混合居中

段落检索采用DPR风格的稠密检索，将子查询与语料库段落编码到同一嵌入空间，按相似度取top-k。

基于图的检索先从语料库构建知识图谱（使用HippoRAG 2），给定查询后从相关节点出发执行个性化PageRank，沿多跳连接捞取证据。

混合检索用倒数排名融合（Reciprocal Rank Fusion, RRF）合并两路结果。思路直接：一个文档只要在任一列表里排名靠前，就会在合并排名中获得加分。公式如下：

 RRF(d) = Σ over m ∈ {Passage, Graph} of [1 / (k + rank_m(d))]

任一模式给出高排名的文档在融合后都会被提权，互补证据因此更不易遗漏。

两阶段强化学习：先答对，再答快

RouteRAG的训练算法是GRPO（Group Relative Policy Optimization），通过组内轨迹比较稳定学习过程，压低稀疏奖励下的方差。

关键在于奖励设计。

第一阶段只看准确性。答案与标准答案精确匹配得1分，否则0分。目标简单：先学会答对。

第二阶段引入效率维度。只有答对的轨迹才参与效率奖励计算。总检索时间t相对批次均值t_avg做中心化，再除以归一化常数T（确保t和t_avg缩放到[0, 0.5]区间内）：

 R_efficiency = (t_avg - t) / T

含义明确：答对了但比同批次其他样本慢，依然受惩罚。

训练目标结合裁剪策略比率与KL惩罚，并用组相对优势Aᵢ稳定梯度。在GRPO的组内比较和两阶段奖励共同作用下，策略倾向于选择既正确又检索次数更少的轨迹，而非依赖偶然的策略发现。

评估

实验覆盖五个问答数据集：PopQA、Natural Questions (NQ)、HotpotQA、2WikiMultihopQA (2Wiki) 和 MuSiQue。评估指标为Exact Match (EM)和F1，结果按简单问答（PopQA, NQ）和多跳问答（HotpotQA, 2Wiki, MuSiQue）分组报告，附五个基准的总体均值。

主要发现是什么？RouteRAG在多跳问答上带来了明显的性能提升，拉高了总体均分，而骨干模型仅为Qwen2.5-3B-Instruct和Qwen2.5-7B-Instruct。多跳问答成绩接近甚至部分指标超过了基于GPT-4o-mini的图RAG系统——图RAG基线用GPT-4o-mini，文本RAG基线用同规格Qwen2.5——但在简单问答任务上有一定准确率让步。

案例研究

图4展示了训练前后的对比。训练前，模型凭内部知识产生幻觉，例如错误声称Johnny Pemberton在That '70s Show中饰演Bo Thompson，并将该剧归为Steven Molaro的作品。训练后模型不再出现这类错误，能将问题拆解为多个子步骤逐步检索，最终正确识别出Justin Spitzer才是真正的创作者。

总结

RouteRAG将“推理—检索—生成”整个循环收归为单一可学习策略：推理过程中自主决定检索什么内容（段落/图/混合）、在什么时刻输出最终答案（受最大步数预算B约束），并通过基于GRPO的两阶段RL框架优化该策略。即便骨干模型仅有3B和7B参数量，效果提升依然显著。

但RouteRAG最值得关注之处不在于它又给RAG增加了一个新花样。更有意义的是，模型将“何时检索信息”和“何时给出最终答案”纳入了策略学习范畴，而非固化在启发式规则里。一个直观的数字：对比没有效率奖励的变体，检索轮次从2.70降到2.25，F1没有下降。

不过，有两个隐忧可能影响该方法在实际部署中的表现。

泛化能力是第一个。当前实验仅涵盖3B和7B模型，图检索一律用HippoRAG 2构建。路由策略换到更大的模型或不同的图构建流水线上表现如何，目前没有数据。生产环境中图谱的质量、覆盖面随时可能变化，检索规划器的行为也会随之漂移。

第二个是奖励设计本身。RouteRAG以批次级别平均检索时间为锚点来鼓励效率，论文认为这一设计降低了检索时间中的噪声并稳定了训练。但是否会系统性地压制较慢的图检索路径，论文并未直接验证——这是一个合理但尚无实证的风险。对于长尾多跳问题，图推理往往不可或缺。RouteRAG的设计（仅对正确轨迹施加效率奖励+GRPO组相对优势）在机制上鼓励选择性检索且不应牺牲回答质量，但无法保证那些慢却必要的图检索路径总能被优先选中。

RouteRAG：强化学习与特殊Token构建可学习RAG检索

多轮工作流：核心并非编写提示，而是学习何时触发

三种检索模式：文本快，图谱深，混合居中

两阶段强化学习：先答对，再答快

评估

案例研究

总结

相关阅读

最新教程

最新资讯