LLM增强检索框架:数据不足时的最优解

2026-06-27阅读 0热度 0
ai 人工智能

Meta研究团队近期推出LLM-Augmented Retrieval框架,核心是利用大语言模型多角度增强文档嵌入表示。该方法能显著提升Bi-encoders与late-interaction models等主流检索模型的性能。

LLM增强检索:数据表示与文档嵌入

该框架包含两大核心模块:首先,利用LLM对原始文档进行增值处理——生成对应查询(query)与标题,并根据需要将长文档划分为合理片段。其次,融合多角度表示,构建高质量的文档级嵌入向量(doc-level embedding)。

LLM-Augmented Retrieval框架图

数据表示增强策略

该模块包含三项关键操作:合成查询(query)、合成标题,以及文档分块。

合成查询(Synthetic Query)对给定文档,由LLM生成对应的合成查询。目的是从多个视角捕捉文档语义,提升与真实用户问题的匹配度。

例如,用户提问“谁是美国的第一任总统?”,答案位于乔治·华盛顿的百科条目中。直接进行语义匹配,得分往往不高。利用LLM从该条目生成高质量合成查询如“谁成为了美国的第一任总统”,可大幅提升与用户问题的相关性得分。

合成query示意图

合成标题文档标题对判断与用户查询的相关性及有用性至关重要。若原始文档缺失标题,使用LLM生成标题是理想方案。

分块受检索模型窗口长度限制,需将长文档切分为多个数据块(chunk)。不同模型的最佳块大小各有差异。

需明确:LLM生成的查询、标题以及切分后的数据块,本质均为同一文档的不同语义视角。要构建代表整篇文档的doc-level embedding,必须融合这些多角度信息,而非仅依赖单一表示。

文档级嵌入(Doc-level Embedding)针对不同检索模型架构,融合多角度表示的方式各异。

对于Bi-encoders,用户查询与文档的相关性计算如下:分别计算查询与文档各角度表示(各chunk、合成查询、合成标题)的相关性得分,再通过加权求和得到整体分数。

这里,q为用户查询的句向量,ci为第i个chunk的句向量,e分别表示合成查询与标题的句向量。若文档生成了多个查询,则分别计算各查询句向量后取均值(mean pooling)获得文档查询向量,w为对应权重。

对Late-interaction模型,相关性计算更为直接:将文档多角度表示文本拼接,获取对应的token embedding,再按特定方式计算最终相关性得分。

实验验证与结果

研究团队在多种检索模型上展开充分测试,包括Contriever (基于Roberta-base,查询与文档共用编码器的Bi-encoder)、DRAGON (同样基于Roberta-base,但查询与文档分别使用独立编码器的Bi-encoder),以及ColBERTv2 (基于Bert-base的late-interaction模型)。

实验效果对比

结果表明,所有检索模型在采用LLM增强的检索与文档嵌入构建后,召回率均有显著提升。其中Bi-encoder的提升尤为突出,可能因其基线性能较低。

消融实验进一步揭示:文档不同角度内容的作用权重各异,且权重设置对检索效果影响显著。各检索模型的最佳参数配置亦不相同。

实践讨论与优化建议

本文提出的LLM-Augmented Retrieval思路清晰:利用LLM多角度丰富数据语义表示,从而增强文档嵌入。整个流程无需额外模型微调即可显著提升召回率,效率与性价比极高。

实际项目中,我遇到过类似挑战。一条与本文一致的优化路径是:借助LLM增强数据表示,缩小查询与文档的语义差距,降低匹配难度。这是高效且收益明显的策略。但实操中需关注几个关键问题。

首先是大模型幻觉问题,需确保LLM增强后的数据真实性,避免引入噪声。其次,数据表示增强的角度应依据具体场景选择,目标是与真实使用场景高度契合。例如检索任务中生成对应查询就是典型应用。最后,尽管提升检索效果的方法众多,但本文思路凭借无需额外训练、仅需精心设计prompt的优点,堪称收效最快的方案之一。

参考文献

1. LLM-Augmented Retrieval: Enhancing Retrieval Models Through Language Models and Doc-Level Embedding. https://arxiv.org/pdf/2404.05825.pdf

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策