RouteRAG:强化学习与特殊Token构建可学习RAG检索

2026-06-15阅读 0热度 0
强化学习

RAG系统的发展已进入新阶段,但大多数现有方案仍依赖预设的检索流水线或静态指令。RouteRAG打破了这一局限——它将多轮RAG重新定义为序列决策过程,核心是一套可学习的策略。

这套策略如何运作?通过推理过程中特殊的Token触发检索动作。每步生成一个动作Token——要么继续内部推理,要么经...发起检索,要么通过...输出最终答案。在内部,用[passage][graph]或两者并列(如[graph][passage])指定检索模式。

图1贯穿全文理解。早期多轮RAG方法,基于强化学习,将推理与段落检索交替执行,但奖励信号仅来自回答正确与否,未显式优化检索成本与效率。RouteRAG则将检索扩展到段落、图和混合三种模式,训练框架基于GRPO分两个阶段:第一阶段仅优化正确性,第二阶段加入基于总检索时间的效率奖励,鼓励更有选择性的检索行为,同时不牺牲回答质量。

多轮工作流:核心并非编写提示,而是学习何时触发

策略模型πθ在最多B步的预算约束内逐Token生成。一旦输出...,系统从中解析出子查询q′和检索模式m∈{Passage, Graph, Hybrid},传递给检索器R。检索器返回证据d,包裹在...标签内回注到上下文,供下一轮推理使用。当模型输出...后,流程终止。

训练时检索预算固定为B=4,每次检索返回k=3个段落。需注意,RRF公式中的k是另一个含义——平滑超参数,符号上应区分。

换言之,模型不再盲目猜测是否检索、检索什么,而是学会三类决策:何时检索、如何拆分子查询、选用哪种检索模式(段落/图/混合)。

三种检索模式:文本快,图谱深,混合居中

段落检索采用DPR风格的稠密检索,将子查询与语料库段落编码到同一嵌入空间,按相似度取top-k。

基于图的检索先从语料库构建知识图谱(使用HippoRAG 2),给定查询后从相关节点出发执行个性化PageRank,沿多跳连接捞取证据。

混合检索用倒数排名融合(Reciprocal Rank Fusion, RRF)合并两路结果。思路直接:一个文档只要在任一列表里排名靠前,就会在合并排名中获得加分。公式如下:

 RRF(d) = Σ over m ∈ {Passage, Graph} of [1 / (k + rank_m(d))]

任一模式给出高排名的文档在融合后都会被提权,互补证据因此更不易遗漏。

两阶段强化学习:先答对,再答快

RouteRAG的训练算法是GRPO(Group Relative Policy Optimization),通过组内轨迹比较稳定学习过程,压低稀疏奖励下的方差。

关键在于奖励设计。

第一阶段只看准确性。答案与标准答案精确匹配得1分,否则0分。目标简单:先学会答对。

第二阶段引入效率维度。只有答对的轨迹才参与效率奖励计算。总检索时间t相对批次均值t_avg做中心化,再除以归一化常数T(确保t和t_avg缩放到[0, 0.5]区间内):

 R_efficiency = (t_avg - t) / T

含义明确:答对了但比同批次其他样本慢,依然受惩罚。

训练目标结合裁剪策略比率与KL惩罚,并用组相对优势Aᵢ稳定梯度。在GRPO的组内比较和两阶段奖励共同作用下,策略倾向于选择既正确又检索次数更少的轨迹,而非依赖偶然的策略发现。

评估

实验覆盖五个问答数据集:PopQA、Natural Questions (NQ)、HotpotQA、2WikiMultihopQA (2Wiki) 和 MuSiQue。评估指标为Exact Match (EM)和F1,结果按简单问答(PopQA, NQ)和多跳问答(HotpotQA, 2Wiki, MuSiQue)分组报告,附五个基准的总体均值。

主要发现是什么?RouteRAG在多跳问答上带来了明显的性能提升,拉高了总体均分,而骨干模型仅为Qwen2.5-3B-Instruct和Qwen2.5-7B-Instruct。多跳问答成绩接近甚至部分指标超过了基于GPT-4o-mini的图RAG系统——图RAG基线用GPT-4o-mini,文本RAG基线用同规格Qwen2.5——但在简单问答任务上有一定准确率让步。

案例研究

图4展示了训练前后的对比。训练前,模型凭内部知识产生幻觉,例如错误声称Johnny Pemberton在That '70s Show中饰演Bo Thompson,并将该剧归为Steven Molaro的作品。训练后模型不再出现这类错误,能将问题拆解为多个子步骤逐步检索,最终正确识别出Justin Spitzer才是真正的创作者。

总结

RouteRAG将“推理—检索—生成”整个循环收归为单一可学习策略:推理过程中自主决定检索什么内容(段落/图/混合)、在什么时刻输出最终答案(受最大步数预算B约束),并通过基于GRPO的两阶段RL框架优化该策略。即便骨干模型仅有3B和7B参数量,效果提升依然显著。

但RouteRAG最值得关注之处不在于它又给RAG增加了一个新花样。更有意义的是,模型将“何时检索信息”和“何时给出最终答案”纳入了策略学习范畴,而非固化在启发式规则里。一个直观的数字:对比没有效率奖励的变体,检索轮次从2.70降到2.25,F1没有下降。

不过,有两个隐忧可能影响该方法在实际部署中的表现。

泛化能力是第一个。当前实验仅涵盖3B和7B模型,图检索一律用HippoRAG 2构建。路由策略换到更大的模型或不同的图构建流水线上表现如何,目前没有数据。生产环境中图谱的质量、覆盖面随时可能变化,检索规划器的行为也会随之漂移。

第二个是奖励设计本身。RouteRAG以批次级别平均检索时间为锚点来鼓励效率,论文认为这一设计降低了检索时间中的噪声并稳定了训练。但是否会系统性地压制较慢的图检索路径,论文并未直接验证——这是一个合理但尚无实证的风险。对于长尾多跳问题,图推理往往不可或缺。RouteRAG的设计(仅对正确轨迹施加效率奖励+GRPO组相对优势)在机制上鼓励选择性检索且不应牺牲回答质量,但无法保证那些慢却必要的图检索路径总能被优先选中。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策