大模型生成式图谱分析最新综述推荐
图(graph)是一种核数据模型,广泛用于描述社会与自然中的各类实体及其复杂关系——社交网络、交通网络、金融网络、生物医学系统均属此类。大型语言模型(LLMs)凭借其强大的泛化能力,在应对这些图任务时展现出显著优势:无需专门训练图学习模型,也大幅降低了人工标注成本。那么,将LLM与图数据结合,究竟能产生哪些突破性成果?
本综述系统梳理了现有研究,将基于LLM的生成式图分析(LLM-GGA)归纳为三大核心组件:
图1: LLM-GGA领域概览:涵盖基于LLM的图查询处理(LLM-GQP),核心是将图分析技术与LLM提示机制融合以处理查询;基于LLM的图推理与学习(LLM-GIL),专注于图上的学习与推理;以及基于图的LLM应用,即利用图-LLM框架解决非图任务,例如推荐系统。
进一步地,这三大组件可细分为六个具体研究方向:
- 图结构理解:LLMs能否真正理解图结构?例如识别节点、判断连通性、求解最大流问题等。
- 图学习:结合图结构与节点属性进行学习,例如节点分类、图分类、生成图查询语言(GQL)。
- 图形式推理:借助图结构模拟人类推理过程,处理更复杂的算法、逻辑甚至数学问题。
- 图表示:如何通过LLMs增强图的表示能力,尤其针对文本属性图(TAGs)。
- 知识图谱增强检索:LLMs与知识图谱(KGs)的交互,以及如何利用KGs弥补LLM在事实知识处理上的不足。
- 基于图+LLM的应用:将图-LLM框架应用于推荐系统、对话理解、响应预测等非图任务。
一、图结构理解
该方向的核心问题直截了当:LLM能否真正理解图结构?从邻居节点、最短路径、连通性等基础查询,到最大流问题、拓扑排序等复杂任务,研究者设计了21种不同的图结构理解任务来评估LLM能力,包括图大小检测、节点度数检测、边检测、图密度计算、节点偏心率计算等。
图2:21种图结构理解任务汇总
目前主要有两条技术路线:
- 提示方法:通过精心设计提示词,引导LLM更好地理解图结构与任务目标,从而提升性能。
- 监督微调:在特定图数据集上微调LLM,直接增强其结构理解能力。
提示本身又可细分为三类:手动提示(研究者手写)、自提示(LLM自身迭代优化初始提示)、以及API调用提示(让LLM学会调用外部工具解决复杂图任务)。
图3:图结构理解任务中的prompt方法:手动提示、自提示与API调用提示
图4:图结构理解任务的提示示例,其中 [graph] 为数据输入
图5:使用GPT 3.5的二分图匹配任务实例——图结构理解任务
在监督微调路线中,GraphLLM是一个代表性工作。它试图打破LLM在图推理上的瓶颈,引入混合模型——既能继承图学习模型优越的表达能力,又能让LLM熟练地解读和推理图数据。
图6:图结构理解任务中的监督微调(SFT)方法。上图展示前缀调整:在前缀调整中,将图结构与文本信息结合作为前缀,并附带指令(如GraphLLM)输入LLM。也可使用指令调整。
二、图学习任务
图学习任务的覆盖面广泛:节点分类、图分类、边分类、节点生成、知识图谱问答(KGQA)、图查询语言(GQL)生成、节点特征解释等。现有LLM-GIL研究基本归为三大类:
- LLMs作为增强器:利用LLM对文本语义的深度理解与推理能力,通过将图信息编码为嵌入、生成伪标签、提供外部知识等方式,增强GNN性能。
- LLMs作为预测器:直接将LLM作为独立预测器使用。关键在于设计一个同时包含文本属性与图结构的提示,让LLM有效理解图结构,提升预测准确率。
- 图提示:通过提示方法统一预训练与下游任务,借助提示工程针对不同任务进行优化。
三、图形式推理
图形式推理目前有两个主要方向:
- think on the graph:将图作为LLM推理过程的中间步骤,通过将LLM的响应添加到图上,构建有向无环图(DAG)来表示推理过程。这样,LLM的思考路径就变成可解释的图形结构。
- verify on the graph:通过验证LLM输出的中间或最终结果是否与图中的信息一致,来提升推理正确性。具体做法是将LLM输出作为图中的节点,验证不同路径的输出是否一致,从而判断推理结果的可靠性。
四、图表示
LLMs强大的文本表示能力,使文本嵌入能够捕捉更深层的语义细微差别,这对增强图表示——特别是文本属性图(TAGs)——意义重大。核心挑战在于:如何将图结构有效整合到LLM生成的文本嵌入中?目前主要有三种策略:
- 图嵌入:将图转换为特定的有序序列,输入LLM,利用其语义捕捉能力学习序列嵌入,进而推导图的嵌入。
- 图增强文本嵌入:核心是将结构嵌入纳入文本嵌入中。结构嵌入捕捉局部结构,文本嵌入捕捉语义含义,如何巧妙结合两者是关键。
- 图编码提示:聚焦于如何描述一个图,让LLM能更高效地理解它。例如在常规图中,可通过假设节点之间的关系为朋友或同事,将整个图置于一个故事背景中去描述。
五、知识图谱增强检索
LLM在处理事实知识时存在诸多短板:幻觉、领域知识不足、知识遗忘、准确性难以保证。而知识图谱(KG)天然提供结构化、可靠的信息来源。两者结合顺理成章:用KG检测LLM的幻觉、增强领域知识、提升知识提取能力,甚至增强推理能力。反过来,LLM也可用于解决知识图谱嵌入、补全、构建、图到文本生成、问答等任务。
六、基于图+LLM的应用
图-LLM框架并不局限于图相关任务,在对话理解、响应预测、多域对话状态跟踪、推荐系统、图神经架构搜索等领域均有广泛应用。常见框架包括:GNN与LLM的结合、图数据与LLM的结合,以及各类利用图结构与语言模型优势解决不同任务的创新方法。
七、评估方法与基准
最后,本综述系统整理了LLM-GGA方法的数据集与代码链接,以及六个细分研究方向各自的数据集。对于新提出的数据集与评价指标,也进行了专门讨论。




