导读 随着大语言模型(LLM)的快速发展,Transform 架构在自然语言、视频、音频处理上表现突出,大模型技术正在赋能千行万业。大模型+图模型相遇又会发生什么?大模型时代下图机器学习该如何做?这是我们需要思考的问题。本次分享是由北京邮电大学石川教授团队带来的图基础模型初探。文章将深入探讨图基础模型(Graph Foundation Model 简称 GFM)的概念、特点、发展历程。
主要内容包括以下几大部分:1. 图基础模型
2. 相关工作进展
3. 我们团队的工作
4. 总结和展望
5. 问答环节
分享嘉宾|石川 北京邮电大学 教授
编辑整理|张俊光
内容校对|李瑶
出品社区|DataFun
图基础模型
1. 基础模型概念
基础模型是一种在广泛的数据上训练且可以被应用于多种下游任务的模型。这一概念最初在 21 年由斯坦福大学提出。基础模型已在语言、视觉、语音等领域展现出强大的实力,并逐渐成为这些领域的核心力量。基础模型通过在大规模数据集上进行预训练,积累了丰富的知识和能力,从而能够轻松应对各种下游任务。在语言领域,大语言模型已成为主导,传统的语言处理任务几乎已被其全面取代。同样,在视觉和语音领域,基础模型也发挥着举足轻重的作用。它们不仅提升了任务处理的效率和准确性,更为我们打开了通往更广阔应用前景的大门。基础模型的崛起,标志着人工智能领域正迎来一个全新的发展时代。2. 基础模型特点
首先,涌现是指随着基础模型规模的扩大,参数量不断增加,模型的能力有可能出现质的飞跃,自发地展现出一些新颖的功能。这种能力的突变使得模型在处理任务时更加高效和灵活。其次,同质化则体现在模型的多功能性上。基础模型能够广泛部署于各种应用场景中,一个模型就能解决多种问题。尤其在语言模型领域,这种同质化特点表现得尤为突出。过去,自然语言处理领域需要针对二三十种甚至更多的不同任务设计相应的模型,而现在,一个大语言模型就能轻松应对翻译、抽取、生成、问答等各种任务。这种变化是机器学习领域前所未有的,也充分展示了基础模型同质化的强大优势。3. 大语言模型(LLM)
大语言模型,无疑是基础模型中的璀璨明星。它拥有令人瞩目的庞大参数量,从昔日的 ELMO 百万参数模型,一路疾驰,发展到如今 GPT4 的万亿参数规模,展现出了强大的预训练语言处理能力。这种模型不仅具备理解、生成文本的基础功能,更拥有出色的逻辑推断和记忆能力,可谓是人工智能领域的全能选手。大语言模型在通用人工智能领域展现出了巨大的潜力和广阔的应用前景。它不仅能够智能涌现出各种答案,还能巧妙运用同义词进行表达,使得语言处理更加自然流畅。无论是回答复杂问题、创作文学作品,还是进行逻辑推理、记忆检索,大语言模型都能游刃有余地应对,成为通用人工智能的有效实现方式。4. 图的基本概念
图或网络,作为一种通用语言,用于描述和建模复杂系统。在系统中,点和边代表各种交互关系。无论是社交网络、金融网络还是生物医药网络,只要存在点与边之间的交互,我们都可以运用图进行建模。简言之,图是一种强大的工具,能够帮助我们理解和分析复杂系统中各元素之间的相互作用。5. 图(机器学习)发展历史
图,这个古老而深邃的概念,其实早在很久之前就被提出。对于图上各种任务的研究也早已开始。回溯到 1736 年,欧拉提出的格里斯堡七桥问题,被认为是图论研究的起点。自此,图论一直是数学领域的研究重点。随着计算机的兴起,图算法的研究也掀起了一股热潮。相信许多学习计算机的朋友们都熟悉迪杰斯特拉算法,这种解决最短路径问题的算法是上世纪五六十年代的研究热点之一。进入 21 世纪,随着网络科学的蓬勃发展,复杂网络与现实网络特性的研究成为了新的热点。而到了 2013 年左右,图信号处理的研究开始兴起,信号处理领域的学者们纷纷投身其中,形成了一股新的研究热潮。近年来,图嵌入和网络表示学习更是成为研究的焦点。其核心思想是将网络的结构特征用低维、紧致的向量进行表示,经历了从浅层模型到深层模型的发展历程。典型的浅层模型代表为 DeepWork,而深层模型的代表则是图神经网络 GCN。6. 网络表示学习
网络表示学习是一个重要的研究方向。其核心思想是将网络中的每个节点嵌入到低维的向量空间中,从而实现对节点特征的降维。过去,我们通常使用关联矩阵来表示网络中节点的关系,但这种表示方法往往会产生高维且稀疏的向量,不利于后续的处理和分析。而现在,通过低维向量的表示,我们可以更有效地捕捉节点的内在特征,并且这种表示方式更易于进行并行化处理。学习得到的节点表示具有广泛的应用价值。它们可以被直接用于各种经典的机器学习问题,如节点分类、链接预测和社群发现等。通过使用这些低维特征表示,我们可以更加高效和准确地进行这些任务的处理,从而推动图机器学习在实际应用中的进一步发展7. 图机器学习的发展与分类
浅层模型方面,具有代表性的是基于矩阵分解的方法。这种方法在矩阵论中属于经典的研究问题,它为我们提供了一种有效的手段来处理和解析复杂的数据结构。通过矩阵分解,我们能够更深入地理解数据的内在规律和特性,为后续的机器学习任务提供有力的支持。
近年来,基于随机游走的方法在图网络表示学习中备受关注。这些方法实际上借鉴了自然语言处理中的 Word2Vec 等表示学习模型。它们的核心思想是,通过模拟图中的随机游走过程,认为在游走序列中相邻的节点应该具有相近的表示。这类方法可以有效地捕捉图中节点的上下文信息,从而生成低维且富含语义信息的节点向量表示。这种表示方式不仅有助于提升节点分类、链接预测等任务的性能,还为我们提供了一种深入理解图结构的新视角。
基于自动编码机的方法,通过编码-解码的过程,实现了对网络结构的复原。具体来说,它首先通过编码器将网络节点映射到低维向量空间,然后通过解码器尝试恢复原始的网络结构。在这个过程中,中间结果即编码后的向量表示,可以视为节点的特征表达。这种方法不仅能够有效地捕捉节点的内在特征,还能够保持网络的拓扑结构信息,为后续的机器学习任务提供了有力的支持。
基于图神经网络(GNN)的方法在网络表示学习中具有重要地位。它认为一个节点的表示应当与其邻居节点的表示接近,因此采用聚合机制来生成网络表示。这种机制通过聚合邻居节点的信息,使得节点的表示能够充分反映其局部网络结构,进而提升网络表示的质量和准确性。这种方法不仅有助于我们更深入地理解网络数据的内在规律和特性,还为后续的机器学习任务提供了强大的支持。8. 当图模型遇到大模型
首先,大模型难以建模图结构语义。大模型主要用于处理序列结构的数据,而图是一种非欧结构,不存在序列,一个节点可以连接任意多个邻居,是动态变化的。所以从模型本质来看,大模型无法胜任图任务。
图模型也不具备大模型的能力。图模型表达能力有限,还存在过平滑、过压缩的问题,无法做成深层模型,并且也不具备涌现能力、难以支持多任务。9. 图基础模型
大模型和图模型无法解决彼此的问题,因此提出了图基础模型。图基础模型(Graph
Foundation Model 简称 GFM)是一个在广泛的图数据上预训练的模型,适用于不同的下游图任务。
10. 图基础模型的关键技术
图基础模型的关键技术包括两个方面:预训练技术和适配技术。
- 预训练技术:神经网络以一种自监督的方式在大规模图数据上训练,代表性方法有生成式预训练、对比式预训练等。
- 适配技术:用于将预训练完成的模型适配到特定下游任务或领域来提高性能,代表性方法为基于 Fine-tuning(微调)的方法和基于 Prompting(提示词)的方法。
11. 图基础模型与语言基础模型比较
相关工作进展
目前没有关于设计和实现图基础模型的明确解决方案,但已有相关探索。基于对图神经网络(GNNs)和大型语言模型(LLMs)的依赖,现有探索可以分为三类:基于 GNN 的模型、基于 LLM 的模型和基于 GNN+LLM 的模型。旨在通过对 GNN 的模型架构、预训练和适配方面的创新来增强现有的图学习能力。主要方向包括:- 改进骨干架构:Graph Transformer。代表性工作:Graph-BERT、GROVER 等。
- 改进预训练:Graph Pretraining。代表性工作:GCC、GraphCL、PT-HGNN 等。
- 改进适配:Graph Prompt。代表性工作:GraphPrompt、All In One 等。
以 LLM 为基础,将图转化为文本(Text)或标记(Token)的方式,探索将 LLM 用作图基础模型的可行性。- Graph-to-Token:把图转成标记,再输入到 LLM。代表性工作:InstructGLM。
- Graph-to-Text:把图转成文本,再输入到 LLM。代表性工作:NLGraph、LLM4Mol。
结合 GNN 和 LLM,探索二者之间协同作用的方式,增强图学习的能力。- 以 GNN 为中心的架构:将 LLM 的输出作为 GNN 的增强特征。代表性工作: SimTeG、TAPE 等。
- 对称架构:将 GNN 和 LLM 的输出对齐。代表性工作:ConGrat、G2P2 等。
- 以 LLM 为中心的架构:利用 GNN 提升 LLM 的表现。代表性工作:Graph-Toolformer 等。
我们团队的工作
该工作是利用同尺度对比学习(Same-Scale CL)和 Vanilla Fine-Tuning(Vanilla FT)策略作为自适应方法,来提高异构图神经网络的表达能力。
PT-HGNN 的动机在于如何对异质图进行预训练,以保留其结构和语义特性,用于对大规模图数据的处理。异质图是包含不同类型节点和边的图结构,能够更精准地刻画复杂交互系统。网络模式(network schema)是对图中节点间交互模式的一种描述。元路径(meta
path)是指连接两个节点的关系序列,揭示了节点间是通过何种路径在图中进行连接的。在异质图领域,我们已开展了大量工作,并在工业界取得了良好的应用效果。如果对这部分内容感兴趣,可以查阅相关材料。
从以上数据可以看到,相比其他预训练模型,PT-HGNN 的性能有着显著提升。
我们还验证了其知识迁移能力,即在一个领域做训练,在另一个领域做预测。从上图中可以看到,计算机与材料、工程、化学的相关性是比较强的,但与艺术领域的关联性是很弱的,是负关联。通过知识迁移实验发现,结构相关的情况下知识迁移会表现较好。结构越相关,知识迁移能力的提升越明显。这也说明了结构知识的迁移是一件很困难的事情。2. Specformer (ICLR 2023)
图神经网络可以分为两大类:空域(spatial)和谱域(spectral)。Spatial
GNNs:在图神经网络的上下文中,空间域通常指的是图的几何结构或拓扑结构,即节点的连接方式。Graph Transformers 通过考虑节点的邻居信息来工作,这本质上是在图的结构空间上进行操作。Spectral
GNNs:谱域指的是利用图谱的特性,如拉普拉斯矩阵的特征值和特征向量,来分析和处理图数据。
Graph Transformer 已经应用于空域中,还未用于谱域。目前的谱域 GNN 仅使用图谱中的特征值,忽略了特征值的集合信息,但集合信息也是很重要的。因此我们希望能够利用 Transformer 中的全连接注意力来捕获集合信息。
Specformer 的基本思想是利用 Transofrmer 刻画特征值之间的依赖,学习一个表达能力强的图滤波器,用于图卷积。图神经网络通常利用图的拉普拉斯矩阵的特征值和特征向量来捕获图的全局结构信息,而 Transformer 通过自注意力机制能够处理长距离依赖关系。特征值编码:Specformer 通过特征值编码(Eigenvalue Encoding)来捕捉图的谱信息。这一步骤将图的拉普拉斯矩阵的特征值转换成相对信息,为后续的 Transformer 编码器提供输入。Transformer 编码器:利用 Transformer 编码器来处理经过编码的谱信息。Transformer 编码器能够处理排列不变的特性,并且可以通过自注意力机制捕捉不同特征值之间的依赖关系。通道级解码器:Specformer 引入了一个通道级解码器(Channel-wise Decoder),它不仅学习新的特征值,而且构建新的图滤波器(Graph
Filters)。这些图滤波器能够用于图卷积操作,增强模型对图结构的捕捉能力。图卷积的改进:通过学习到的图滤波器,Specformer 能够执行更复杂的图卷积操作,这可能提高图神经网络在各种图任务上的性能。端到端学习:Specformer 支持端到端的学习,即模型可以从原始图数据中自动学习到有用的特征表示,而不需要手动设计特征。
编码部分,将特征值编码与 Transformer 结合起来,意味着在图神经网络中使用 Transformer 架构来处理经过特征值编码的节点表示。这样的结合可能旨在利用 Transformer 的强大能力来捕捉图结构中的复杂关系,同时保持对图的谱特性的敏感性。
解码部分,Channel-wise Processing:Decoder 可以为每个通道(Channel)独立地学习新的特征值,这意味着它可以为图的每个特征通道生成定制的滤波器。Learning New Eigenvalues:通过自注意力机制,Decoder 能够捕捉不同特征值之间的关系,并学习新的特征值集合。Constructing New Graph Filters:利用学习到的特征值,Decoder 构建新的图滤波器,这些滤波器能够更有效地捕捉图数据的谱域特性。
合成数据(节点回归)实验结果显示 Specformer 具有很好的性能。
真实数据上,Specformer 也比现有模型效果更优。
Specformer 通过其 Transformer 架构的自注意力机制:- 能够识别出哪些特征值对图的表示学习更为重要,以及这些特征值是如何相互作用的。这样的学习过程可以帮助模型更好地理解和处理图数据,从而在图分类、节点分类、链接预测等图机器学习任务中取得更好的性能。同时,这种对谱特性的深入理解也为研究人员提供了一种方式,使得他们能够解释模型的行为,而不是仅仅将其视为一个“黑箱”。
- 能够捕捉图数据中节点间的复杂关系,并通过学习到的图滤波函数来改善图任务的性能。这使得 Specformer 在处理图数据时更加灵活和强大,尤其是在面对具有复杂拓扑结构和信号特性的图时。
3. GraphTranslator (WWW 2024)
下面介绍的 GraphTranslator 属于图基础模型三种技术中的第三类,即图模型与大语言模型相结合。这一工作的动机为:- LLM 展示了在基于指令的开放式任务中令人印象深刻的涌现能力;
- 图模型 (GM) 在各种预定义的图任务上实现了最先进的性能;
- 我们能否构建一个既能解决预定义又能解决开放式问题的模型?
我们提出了一个新的框架来使图模型与 LLM 保持一致,称为 Graph Translator。- Translator:旨在通过将嵌入的学习节点转换为令牌表示来对齐 GM 和 LLM。
- Producer:我们使用 LLM 来构建具有思维链(COT)的高质量描述文本。
- 第一阶段,可以利用图转换器来处理图数据,其中图转换器采用了 Transformer 架构,将图视为完全连接的结构,从而考虑和衡量图中每对节点之间的相似性。相比之下,消息传递机制在图的邻接矩阵约束下运作,只在显式连接的节点之间传播信息。这种方法使得图转换器能够具有长距离建模能力和强大的表达能力,特别在分子预测任务中表现出了有效的结果。
- 第二阶段,通常会进一步优化和改进图转换器的性能,包括引入更复杂的模型结构、调整超参数、增加训练数据量等方法。这些改进旨在提高图翻译器在处理图数据时的准确性、泛化能力和效率,从而更好地应对现实世界中复杂的图数据任务。这一阶段的工作通常需要深入的实验和分析,以确保所做的改进能够有效地提升图翻译器的性能。
在淘宝和 ArXiv 数据集上进行了零样本场景下的实验,可以看到 GraphTranslor 有着显著的提升。
还在淘宝数据集中进行了 QA 实验。GraphTranslator 能够更好地捕捉用户及其朋友的偏好,从而给出更准确、更丰富的回答。总结与展望
我们在图机器学习方面做了非常多的工作,对学习机制、不同类型数据、如何增强鲁棒性、可信性等方面进行了深入研究和大量探索,并尝试将图神经网络应用到安全和推荐等领域,在很多实际业务中取得了很好的效果。关于图基础模型,我们发表了一篇文章,欢迎大家阅读。
目前,图基础模型还是一个比较新的概念,未来仍有广泛的探索空间。主要的一些研究方向包括:1. 提升数据量与数据质量
提升数据的量与质量,用于图增强、特征增强、标签增强,以及为基于 LLM 的模型设计增强方案。2. 改进骨干架构和训练策略
改进骨干架构和训练策略,提高性能和可解释性,利用知识蒸馏和模型编辑等方法。
3. 模型评估和杀手级应用
模型评估,寻找杀手级应用,包括人工评估、元评估,使模型能够在药物发现、城市计算等领域发挥不可替代的作用。问答环节
A1:提升模型的可解释性,特别图神经网络的可解释性,是一个很重要的问题,但是目前做得并不是太好,因为可解释性是一个很主观的东西。我认为提升可解释性主要包括几个方面:- 一是从理论的角度能够解释图神经网络为什么有效,又存在哪些不足,可以从理论上做一些分析,我们在这方面也做了一些工作,用统一优化框架来解释图神经网络。
- 二是有一些技术方法具有一些可解释性和语义性,例如 PT-HGNN 神经网络,它的特征值和特征向量实际上都是有物理意义的,可以提供一定程度的可解释性。
- 三是意志图沉浸网络。意志图沉浸网络是一种基于 HGT(Heterogeneous
Graph Transformer)的 GNN 模型,它采用了同尺度的对比学习(Same-Scale CL)和 Vanilla Fine-Tuning(Vanilla FT)策略作为自适应方法,有较好的结构语义信息,因为它的节点和边都是有语义的,可以增强其语义解释。
Q2:未来图大模型也会是一个像自然语言一样的同质的统一的模型,还是一个需要接不同分类器的模型?A2:目前图大模型或者图基础模型还有没有一个明确的方案,还处于探索中。但图基础模型的实现,相对语言基础模型来说会更复杂。目前没有统一的框架,因为结构知识的迁移往往是更困难的。而且很多知识可能就不具备迁移性。某一领域相关的数据图,是可以设计一个通用模型,能够比较好地解决这一个领域的大部分问题,这是当前的状态。A3:鲁棒图神经网络涉及图神经网络的安全性,这里可以做的东西很多,比如模型的盗取、模型的攻击、各种攻击形式、模型可靠性等等。AI 安全实际上也是 AI 的一个很重要的研究方向,我们都可以借鉴过来做 GNN 的安全。Q4:现在 LLM 加 GNN 的工作是否都是 a 加 b 式的工作?A4:不能简单地理解为 a 加 b 式的工作。要借鉴大模型里面的一些技术和方法,但LLM 和图模型有一些本质性的区别,虽然可以借鉴一些思想,但肯定要针对图模型做一些全新的设计,这还是很有挑战性的,所以不是简单的 a 加 b 式的工作。Q5:未来的图大模型是基于 GNN 的形式还是基于大模型的形式。A5:目前没有定论,GNN、LLM、GNN+LLM 这三种技术手段都有可能,且各有利弊,适用于不同的场景和任务。这三类都值得探索,未来到底是不是有可能会出现像大语言模型一样一统天下的一个模型,现在还不可知。Q6:进行训练的图数据与进行测试的图任务,其载体除了 Graph 形式还有文本形式吗?如果有以文本形式为载体的图结构,是否可以使用一些自然语言处理的思想去研究它?A6:我认为是可以的,文本图也是研究很多的一种数据。既有文本信息,又有结构信息,可以很自然地把语言模型和图模型进行结合,这也是目前的一个研究热点。Q7:图机器学习的结构是否具备迁移性?图的结构迁移性问题还有哪些值得探索的?比如图 OD 问题。A7:图的结构知识迁移性是一个很重要的问题,图结构特性能否定量描述,能不能说图的结构支持多大程度迁移,什么情况下能进行迁移,同领域图数据多大程度能迁移,跨领域的能不能迁移等等,有很多问题是值得深入研究的,目前在这方面的工作都不太多。图机器学习的结构具备迁移性,但在面对不同领域的图数据时,其迁移性可能会受到限制,尤其是当遇到与训练数据结构或特征差异显著的图结构时,其性能可能会显著下降。图的 OD 问题,也是很重要的一个问题,图基础模型也是解决 OD 问题的一个可行的技术手段。A8:目前多模态模型基本上很少考虑图结构,其实文本图结构跟其他模态结合,这就是一个多模态的模型,文本图结构+文本+视频,实际上是都可以做的。从图的角度来做的话,我们也是希望图的结构能够在各种模态中占据一个重要的位置,能真正对性能有所提升。Q9:您的团队是否对超图神经网络进行过探索?有哪些值得关注的方向?A9:超图神经网络也是一个很重要的研究方向。像清华大学的高月老师在这方面做了很多很好的工作。我们也在一些应用中用到了超图建模,其对于构建高阶结构关系是很有用的。这也是超图建模的一个很重要的方法,是值得深入探索的。Q10:训练的图结构和测试的图结构不同,应该如何处理?A10:这涉及到图的 OD 和图结构知识迁移的问题。这是一个比较难的问题,要更好地形式化,让它在某种程度上是能解决的,能够实现一些结构知识的迁移,能够改善一下它的性能。最主要的还是把问题定义清楚,使其成为一个有意义的问题。Q11:区别于其他领域,图模型最突出特有的思想是什么?A11:图结构的非欧特性跟文本的序列结构和图的网格结构,本质上是不一样的,因此也产生了它独特的分析方法,不是自然语言或 CV(机器视觉)的方法能够直接解决的。这也体现了图机器学习社区存在的价值。目前的大语言模型(LLM)基本上摧毁了 NLP,也让 CV 领域受到了极大的冲击。相对来说对图机器学习对图模型虽然有一些影响,但影响还没那么大,这也给我们留下了更大的发展空间。
分享嘉宾
INTRODUCTION
石川
北京邮电大学
教授
石川,北京邮电大学计算机学院教授、博士研究生导师、智能通信软件与多媒体北京市重点实验室副主任。主要研究方向: 数据挖掘、机器学习、人工智能和大数据分析。近 5 年以第一作者或通讯作者在 CCF A 类期刊和会议发表论文 60 余篇,中英文专著五部,谷歌学术引用过万,连续入选爱思唯尔高被引学者;授权发明专利 30 余项,相关研究成果应用于阿里、蚂蚁、腾讯、华为、美团等公司。研究成果获得中国电子学会科技进步一等奖和北京市科学技术奖自然科学二等奖等奖励。
点个在看你最好看
SPRING HAS ARRIVED