谢淼团队X-lab实验室:RAG算法最新科研进展深度解析
中国农业大学信息与电气工程学院谢淼研究员团队的研究成果《Structure Guided Retrieval-Augmented Generation for Factual Queries》被ACL 2026主会接收。作为计算语言学领域的顶级会议,ACL本届投稿量逾1.2万篇,主会录用率仅为19%,竞争极为激烈。这项研究究竟攻克了哪些技术瓶颈?
攻克大模型幻觉:复杂事实查询的精准度挑战
大语言模型在专业问答场景中潜力巨大,但其固有的“幻觉”问题——即生成内容事实性错误——仍是关键障碍。在农业、医疗等专业领域,用户查询通常包含多个精确的限定条件,这对答案的准确性提出了更高要求。
现有检索增强生成方法主要依赖语义相似度进行知识检索,容易受到语义噪声干扰,难以确保检索结果同时、完整地覆盖查询中的所有约束条件,导致生成的答案出现关键信息遗漏或事实偏差。
SG-RAG:以结构化查询实现精准知识检索
针对“精确检索”这一核心问题,谢淼团队提出了“结构引导的检索增强生成方法”。
SG-RAG的核心创新在于将自然语言问题中的多重约束,自动解析为结构化的查询图。随后,检索过程被转化为“基于嵌入的子图匹配”任务。系统直接在知识图谱中寻找与查询图结构高度吻合的候选子图,而非仅进行模糊的文本语义匹配。
这种结构化的引导机制,相当于为检索环节增设了精准的过滤器,从源头上保障了检索信息的完整性与相关性,从而为大模型生成高事实性答案提供了可靠依据。
ERQA基准验证:性能实现显著突破
为系统评估该方法在复杂事实查询上的效能,研究团队构建并开源了大规模基准数据集ERQA。该数据集包含12万条涵盖20个领域的事实问答对,专门用于评测多约束条件下的问答系统性能。
实验结果表明,SG-RAG方法优势明显。
在ERQA数据集上,SG-RAG在多项核心指标上全面超越了主流基线模型,取得了20.68至50.88个百分点的绝对性能提升,相对提升幅度最高达450%。这些突破性成果是在可控的计算开销下实现的,证明了该方法兼具高效性与实用性。
研究团队与项目支持
本论文的第一作者为中国农业大学信息与电气工程学院谢淼研究员,学生第一作者为学院2024级博士研究生张潇。通讯作者由谢淼研究员与吕春利教授共同担任。合作者包括新加坡南洋理工大学博士研究生Li Yi。论文第一完成单位为中国农业大学。
此项工作获得了中国农业大学“青年研究员”启动基金及国家留学基金管理委员会访问学者项目的资助。
论文详细内容可访问:https://arxiv.org/abs/2604.22843

