港大联合百度开源通用图大模型GraphGPT:让大语言模型读懂图数据
导读
该模型在众多下游数据集和任务上都展现出了较强的泛化性能力。我们希望 GraphGPT 能激发更多开源社群的开发者参与其中,一同深入探讨图数据挖掘领域的新方向。
论文链接:
代码链接:
概述
构信息与语言空间的对齐: 图数据具有自身的结构和特性,而大型语言模型主要在语言空间中进行训练和表示学习。如何有效地将图的结构信息与语言空间进行对齐,使得模型能够同时理解图的结构和语义信息,是一个重要的问题。 引导大语言模型理解图的结构信息: 为了使大型语言模型能够有效地理解图的结构信息,需要设计适当的指令目标来要求模型理解图数据中的结构信息。 赋予大语言模型图学习下游任务的逐步推理能力: 在图学习的下游任务中,逐步推理是一个重要的能力。这意味着模型需要根据图的结构信息和语义信息,逐步推断出更复杂的关系和属性。
本研究的主要贡献如下:
为了提高图学习的泛化能力,我们将图领域特定的结构知识与大型语言模型的推理能力进行对齐。
我们提出的方法采用了图指令微调的范式,旨在将大型语言模型与图结构数据对齐。这一范式结合了自监督指令微调的方法,增强了大型语言模型对图结构知识的理解和推理能力。此外,我们还引入了具体任务的指令微调,以提高模型在各种图学习任务中的适应性。
我们通过实验评估了 GraphGPT 在有监督和零样本图学习任务上的表现。与最先进的基线方法进行比较,GraphGPT 展现出在各种设置下优越的泛化能力。这表明我们的方法能够有效地结合图结构知识和大型语言模型的能力,提升图学习任务的性能。
方法
这一部分,将阐述 GraphGPT 图指令微调范式的技术细节,其整体框架如图2所示:
接着,通过对比学习进行不同维度的“文本-图”对齐:
3.2 两阶段图指令微调
指令设计
图匹配任务的指令包括三个部分:i)图信息,ii)人类问题,和 iii)GraphGPT 的回应。在这个任务中,将图中的每个节点视为中心节点,并执行 h 跳的随机邻居采样,从而得到一个子图结构。大语言模型的自然语言输入是人类的问题。在图匹配任务的上下文中,指令包括指示符令牌 <graph>
和一个被打乱的节点文本信息列表。
<graph>
为对齐的图结点 token 序列 {<graph_begin>
, <graph_token>1
, ..., <graph_token>n
, <graph_end>
},从而得到了一个大语言模型的输入 token 序列。3.2.2 特定任务指令微调
<graph>
和关于中心节点的特定文本信息。这个指令提示语言模型基于图结构数据和伴随的文本信息来预测中心节点的类别。在图 3 中可以看到不同任务的指令数据的模版。训练的第二阶段使用第一阶段训练得到的结构感知投影器的参数作为初始状态,在训练过程中,保持大语言模型和图编码器的参数不变,仅专注于优化前一阶段的投影器的参数,确保大语言模型进一步与下游任务对齐,增强其理解和解释图结构的能力。
面对各种图数据,语言模型可能会碰到之前未曾接触过的模式和结构。这种数据分布的差异可能会影响模型生成准确且流畅的答案,尤其是当不同图数据中的节点类别数量发生变化时。为了在数据分布发生变化时仍然保持高准确率,赋予 GraphGPT 逐步推断的能力变得尤为关键。受到思维链(Chain-of-Thought)方法的启示,我们提出通过融合思维链方法来增强 GraphGPT 文本生成的连续性和准确性,使其能够按照逻辑顺序进行思考,从而更好地理解和推断给定的图数据。
但是,由于思维链方法的效果与模型的参数大小紧密相关,如何在较小的模型中充分利用思维链方法的优势成了一个关键问题。为了解决这个问题,我们借鉴了先前的研究方法,从一个封闭的、大规模的语言模型(例如 GPT-3.5,参数超过 2000 亿)中提取思维链的推理技巧,使 GraphGPT 能够生成高品质的答案,同时增强其逐步推理的能力,而不增加额外的参数。
Obs.1 总体性能优越性:GraphGPT 在有监督和零样本环境中均稳定地胜过了众多先进的基线模型。值得关注的是,尽管近期研发的基于 GNN 的强大模型,如 NodeFormer、DIFFormer 和 GKD,在有监督的环境中都展现了出色的结构建模能力,但在迁移到未经进一步训练的新数据集时,其性能大幅下滑。与此相对,GraphGPT 不仅在有监督任务中胜过了所有最优方法,而且在零样本图学习中实现了显著的 2-10 倍的准确性增长。
此外,像 Baichuan-7B 和 Vicuna-7B 这样基于大语言模型的方案在各种数据集中都表现稳定,但它们主要基于文本信息进行预测。而 GraphGPT 则有效地融合了图结构信息,为图学习任务提供了更为完善的解决方案。
Obs.2 结构感知的图匹配任务:第一阶段指令微调中的自监督图匹配任务,对于提升 GraphGPT 的零样本迁移能力起到了核心作用。这一阶段的核心在于将携带丰富结构信息的图节点 token 与语言 token 进行匹配。这种匹配方式使得模型能更加深入地掌握图数据的内在结构特点。
如果缺少这一阶段,模型仅在第二阶段进行特定任务的指令微调,那么模型更容易在某一特定数据集上产生过拟合。在这种情况下,模型的表现可能过于依赖于数据集的特定模式和特征,而不是真正的图结构理解,这可能会限制模型对新的、未曾见过的数据集的泛化能力。
Obs.3 思维链蒸馏:“-std” 和 “-cot” 变体表明,采用思维链蒸馏对于更为复杂的图学习任务具有显著的助益。使用标准指令数据集进行微调的模型在迁移到简单任务上,例如只有 3 个类别的 PubMed 数据集时,已经能够获得显著的效果,如 Arxiv-PubMed 的准确率达到 0.7011。
4.2 泛化性能力探索
更多的数据激发更强的迁移能力:首先,本部分探讨了数据量如何影响 GraphGPT 的迁移性能,正如表 1 的 “(Arxiv + PubMed)-Cora” 列所示。在此实验中,我们结合 Arxiv 和 PubMed 数据集来训练模型,并在 Cora 数据集上进行零样本测试。
实验结果表明,仅通过加入规模较小的 PubMed 数据集(约 20,000 条数据),GraphGPT 在 Cora 上的迁移表现得到了明显提升。相反,在 Arxiv 和 PubMed 上迭代训练的基于 GNN 的模型的迁移表现却下滑。
更多的数据但是不遗忘:本部分进一步检验了结合 Arxiv 和 PubMed 指令数据在原始 Arxiv 数据上的效果,如表 1 的 “(Arxiv + PubMed)-Arxiv” 列所示。实验结果显示,大部分传统的基于 GNN 的方法在 Arxiv 和 PubMed 上经过迭代训练后性能大幅下降。但 GraphGPT 的表现却更为出色。
这种情况被认为是由于基于 GNN 的模型在较小的 PubMed 数据集上训练后出现的灾难性遗忘,导致模型的结构建模能力受损。但通过两步的图结构指令微调,此问题得到了有效缓解。这使 GraphGPT 在保持或增强其性能时,能够继续保留通用的图结构模式。
图结构微调的影响:在这部分研究中,我们采用了 “w/o GS” 变体来探索将图结构信息融入大语言模型的优势。在此变体中,我们直接使用大语言模型基座(即Vicuna-7B-v1.5)在三个数据集上执行节点分类,而不考虑图结构信息。实验结果表明,GraphGPT 明显胜过没有结构信息的基础模型。这证明了我们提出的图结构微调方法能使大语言模型更深入地理解图结构信息。
值得注意的是,这种性能提升是在不更改大语言模型原始参数的前提下达到的。相反,这完全是通过一个轻量级的对齐投影器实现的,该投影器通过线性投影操作将图节点 token 与自然语言 token 对齐。
训练效率:我们提出的指令微调方法采用了两阶段策略,其中大语言模型和图编码器的参数都被冻结,只有“图-文”对齐投影器进行了微调。在配备 4 块 40G Nvidia A100 显卡的环境中,我们分别比较了冻结与微调大语言模型参数(分别标记为 “-freeze” 和 “-tune”)时的训练时长、微调参数数量以及 GPU 使用情况(每块 GPU 的 MiB)。
在相同的实验设置下,调整大语言模型参数时,即便批次大小为 1,也会出现 GPU 内存超出(OOM)的问题。但是,采用我们提出的微调方法,即使批次大小为 2,训练也能稳定进行。此外,与全面微调大语言模型相比,我们的微调策略的参数数量减少了超过 50 倍。
推理效率:这部分进一步与 baichuan-7B、vicuna-7B-v1.1 和 vicuna-7B-v1.5 对比,评估了 GraphGPT 在推理速度和精确度上的表现。实验在单块 40G Nvidia A100 上进行,记录了在 Arxiv 和 Cora 思维链指令数据集上的推理时长(每次响应所需的秒数),结果如图 4 展示。
本部分深入探讨了 GraphGPT 在下游图学习任务上的性能,并将其与常规的大语言模型进行了对比,使用了 Arxiv 数据集对 ChatGPT 和 GraphGPT 进行了提示。我们考虑了多种指令类型,包括仅基于节点的文本内容(如标题和摘要)、基于文本的图结构的节点内容,以及本研究特设的图指令。
如图 5 所示的结果明确指出,尽管 ChatGPT 拥有超过 200B 的参数规模,但仅依赖节点的文本信息或结合基于文本的图结构进行精确预测仍然是个挑战。特别是当处理涉及多个学科交叉的论文,例如机器学习与硬件架构交叉的情境。与此相对,GraphGPT 始终能够给出精确的预测并附带有说服力的解释。这得益于 GraphGPT 能够处理包含 103 个节点的子图,从而从相邻节点的引用关系中获取丰富的结构性信息,进而做出准确的预测。
更进一步,该模型展示了出色的泛化性,使其能够应对多个下游数据集和任务,而不受到灾难性遗忘的影响。未来的研究重点将是研究修剪方法,以减少 LLM 中的冗余或不那么关键的参数,从而缩小模型的总体大小,同时确保其性能不受影响。
对图基础模型的思考:近期,基础模型在自然语言处理(NLP)和计算机视觉(CV)领域均取得了显著进展,催生了一系列令人瞩目的应用,如 ChatGPT 和 Segment Anything。但在图学习领域,如何建立这样的基础模型,以及是否真的可以有一个统一的图学习基础模型,这些问题仍然是个未解之谜。
这主要是因为不同的图结构在“语义”上有很大的差异,难以通过一个单一的模型实现跨数据集和多任务的图结构建模。我们的研究借助大语言模型出色的语义建模能力,并通过图指令微调技术赋予其结构化理解,为图基础模型提供了一个可能的发展路径。
对 Data-Centric 图学习的思考:基础模型的崛起凸显了以数据为核心的人工智能(Data-Centric AI)的潜力和优势。但由于不同图结构间的“结构关联”不能像 NLP 中那样转化为统一的 token 表示,或像 CV 中转化为像素表示,因此如何确立和推进 Data-Centric 图学习的概念仍是个开放性问题。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧