LLM增强检索框架：数据不足时的最优解

2026-06-27阅读 0热度 0

ai 人工智能

Meta研究团队近期推出LLM-Augmented Retrieval框架，核心是利用大语言模型多角度增强文档嵌入表示。该方法能显著提升Bi-encoders与late-interaction models等主流检索模型的性能。

LLM增强检索：数据表示与文档嵌入

该框架包含两大核心模块：首先，利用LLM对原始文档进行增值处理——生成对应查询(query)与标题，并根据需要将长文档划分为合理片段。其次，融合多角度表示，构建高质量的文档级嵌入向量(doc-level embedding)。

数据表示增强策略

该模块包含三项关键操作：合成查询(query)、合成标题，以及文档分块。

合成查询（Synthetic Query）对给定文档，由LLM生成对应的合成查询。目的是从多个视角捕捉文档语义，提升与真实用户问题的匹配度。

例如，用户提问“谁是美国的第一任总统？”，答案位于乔治·华盛顿的百科条目中。直接进行语义匹配，得分往往不高。利用LLM从该条目生成高质量合成查询如“谁成为了美国的第一任总统”，可大幅提升与用户问题的相关性得分。

合成标题文档标题对判断与用户查询的相关性及有用性至关重要。若原始文档缺失标题，使用LLM生成标题是理想方案。

分块受检索模型窗口长度限制，需将长文档切分为多个数据块(chunk)。不同模型的最佳块大小各有差异。

需明确：LLM生成的查询、标题以及切分后的数据块，本质均为同一文档的不同语义视角。要构建代表整篇文档的doc-level embedding，必须融合这些多角度信息，而非仅依赖单一表示。

文档级嵌入（Doc-level Embedding）针对不同检索模型架构，融合多角度表示的方式各异。

对于Bi-encoders，用户查询与文档的相关性计算如下：分别计算查询与文档各角度表示（各chunk、合成查询、合成标题）的相关性得分，再通过加权求和得到整体分数。

这里，q为用户查询的句向量，c_i为第i个chunk的句向量，e分别表示合成查询与标题的句向量。若文档生成了多个查询，则分别计算各查询句向量后取均值(mean pooling)获得文档查询向量，w为对应权重。

对Late-interaction模型，相关性计算更为直接：将文档多角度表示文本拼接，获取对应的token embedding，再按特定方式计算最终相关性得分。

实验验证与结果

研究团队在多种检索模型上展开充分测试，包括Contriever (基于Roberta-base，查询与文档共用编码器的Bi-encoder)、DRAGON (同样基于Roberta-base，但查询与文档分别使用独立编码器的Bi-encoder)，以及ColBERTv2 (基于Bert-base的late-interaction模型)。

结果表明，所有检索模型在采用LLM增强的检索与文档嵌入构建后，召回率均有显著提升。其中Bi-encoder的提升尤为突出，可能因其基线性能较低。

消融实验进一步揭示：文档不同角度内容的作用权重各异，且权重设置对检索效果影响显著。各检索模型的最佳参数配置亦不相同。

实践讨论与优化建议

本文提出的LLM-Augmented Retrieval思路清晰：利用LLM多角度丰富数据语义表示，从而增强文档嵌入。整个流程无需额外模型微调即可显著提升召回率，效率与性价比极高。

实际项目中，我遇到过类似挑战。一条与本文一致的优化路径是：借助LLM增强数据表示，缩小查询与文档的语义差距，降低匹配难度。这是高效且收益明显的策略。但实操中需关注几个关键问题。

首先是大模型幻觉问题，需确保LLM增强后的数据真实性，避免引入噪声。其次，数据表示增强的角度应依据具体场景选择，目标是与真实使用场景高度契合。例如检索任务中生成对应查询就是典型应用。最后，尽管提升检索效果的方法众多，但本文思路凭借无需额外训练、仅需精心设计prompt的优点，堪称收效最快的方案之一。

参考文献

1. LLM-Augmented Retrieval: Enhancing Retrieval Models Through Language Models and Doc-Level Embedding. https://arxiv.org/pdf/2404.05825.pdf

LLM增强检索框架：数据不足时的最优解

LLM增强检索：数据表示与文档嵌入

实验验证与结果

实践讨论与优化建议

参考文献

相关阅读

最新教程

最新资讯