RAG忠实度测评：量化LLM先验与检索的拉锯

2026-06-22阅读 0热度 0

ai 人工智能

检索增强生成（RAG）通常被视为对抗大模型知识幻觉的有效手段，既能注入实时信息，也能为生成提供外部依据。但一个核心矛盾在于：当大模型已能正确回答问题时，额外注入的检索信息是否会干扰其判断？反之，若检索内容本身存在偏差，模型能否保持内部知识的一致性，还是会完全采纳错误材料？

斯坦福大学研究团队针对这一张力进行了系统性评估，核心聚焦于LLM内部固化知识（即其先验概率分布）与检索上下文之间的隐性冲突，尤其在两者不一致时模型的决策倾向。实验结果揭示了关键规律，对RAG落地实践具有直接参考价值。

在提供参考文档与不提供参考文档两种条件下，评测了GPT-4及其他大模型的问答性能。结果符合预期：正确的检索上下文能有效纠正模型的大部分错误响应，准确率提升至94%。
然而，当参考文档中逐步引入更多错误信息时，情况变得复杂。若模型对特定问题的先验知识较弱，则易受错误检索影响；反之，若模型先验置信度较高，则抵制错误信息的能力更强。
进一步分析表明，检索信息与模型先验答案之间的偏差幅度越大，模型越倾向于固守自身判断，而非采纳外部上下文。
这些现象归纳出一个核心洞察：模型先验知识与检索上下文之间天然存在对抗关系，在真实部署中，这种张力将直接决定RAG产生正向协同还是反向干扰。

实验方案

研究团队从六个知识领域（药物剂量、体育数据、新闻事件、日期、人名及城市信息）构建问答对。具体流程为：先通过专业网站和维基百科等源站抓取上下文页面，再利用GPT-4基于这些文本自动生成问题与对应答案。

随后，通过对比模型在有无上下文时生成的答案与参考答案的匹配度，量化模型对检索上下文的依从性。

最关键的环节是对检索文档执行系统性扰动。对于数值型数据集，对原始值施加乘数变换；对于分类型数据集，则进行人工编辑。这些修改后的文档作为上下文与问题一同输入大模型，并记录输出令牌的对数概率。

检索文档修改流程概述：首先在不提供参考文档的情况下向LLM提问，记录其先验响应；随后将经过修改的文档作为上下文再次提交，观察模型是采纳修改后的信息，还是保留原始先验答案。

在对比分析阶段，研究人员先以零上下文方式查询LLM，再在提示中加入检索上下文进行二次查询。通过两次输出的一致性对比，判断模型倾向先验知识还是检索信息。RAG偏好率基于所有RAG查询结果的平均值计算。下图展示了三个数据集的样本，红色标记错误响应，绿色标记正确响应。

此外，还评估了三种提示策略的影响：标准、严格与宽松，用以调节模型对检索上下文的依赖程度。

图1：各数据集GPT响应与参考值的一致性对比。“先验”表示GPT-4无上下文时的表现，“w/ RAG”表示提供相关上下文时的表现。图中标注了先验概率与RAG偏好率之间的回归斜率。例如，平均斜率-0.23意味着先验令牌概率每上升10%，模型采纳RAG的概率下降2.3%。

图2：GPT-4在六个QA数据集上的表现。左图展示先验概率（十等分区间）与RAG偏好率的关系，右图展示检索信息与先验偏差程度与RAG偏好率的关系。右图还标出了上下半百分位数，清晰显示先验概率低的响应其RAG偏好率同样系统性偏低。

图3：提示策略对RAG偏好率与先验概率的影响。严格提示强调字面遵循，宽松提示鼓励合理判断。宽松提示下RAG依从性不仅更低，且下降斜率更陡，凸显提示措辞在调节RAG依从性中的关键作用。

图4：GPT-3.5与Mistral-7B的一致性及斜率对比。详细描述参见图1的表格说明。

图5：三个模型（GPT-4蓝线、GPT-3.5橙线、Mistral-7B绿线）在RAG偏好率与先验概率及偏差上的对比。注意，部分模型在某些数据集中因拒绝回答或生成无效响应而未能产生有效先验结果，导致对应分析点缺失。

归根结底，RAG并非对抗幻觉的万能银弹。其实际效果取决于模型内部先验置信度、检索信息与先验的偏差幅度，以及提示语设计。在构建与部署RAG系统时，核心挑战并非“是否使用RAG”，而是“如何在模型先验与检索信息之间实现精细博弈并取得平衡”。