查看原文
其他

通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

于星橦 PaperWeekly
2024-08-22

©PaperWeekly 原创 · 作者 | 于星橦
单位 | 中国科学技术大学博士生
研究方向 | 图神经网络


论文题目:
MultiGPrompt for Multi-Task Pre-Training and Prompting on Graphs

论文链接:

https://arxiv.org/pdf/2312.03731.pdf

代码链接:

https://github.com/Nashchou/MultiGPrompt

论文录用:

The  WebConference 2024 Main Conference

作者主页:

https://xingtongyu.netlify.app/



摘要

图可模拟网络中对象间的关系,从而促进一系列网络应用的发展,如网络分析和内容推荐。最近,图神经网络(GNNs)已成为图表示学习的主流技术。然而,它们在端到端监督框架内的有效性显著地与特定任务的有标签数据量相关。
为了减轻标注成本并在少样本学习中增强鲁棒性,基于自监督任务的预训练成为了一种有前景的方法,同时提示学习(prompting)被提出用于缩小预训练任务和下游任务之间的目标差距。
尽管现有工作已经对基于提示的图学习进行了一些初步探索,但它们主要利用单一预训练任务,导致从预训练数据中学习的通用知识有限。因此,在本文中,我们提出了 MultiGPrompt,一种新型的多任务预训练和提示学习框架,用于利用多个预训练任务以获得更全面的预训练知识。

首先,在预训练中,我们设计了一系列预训练标记(pretext token)以使多个预训练任务协同合作。其次,我们提出了一个由组合提示(composed prompt)和开放提示(open prompt)组成的双重提示机制,以利用特定预训练任务和全局预训练知识,从而指导少样本场景中的下游任务。最后,我们在六个公共数据集上进行了广泛的实验以评估和分析 MultiGPrompt。



方法

2.1 多任务预训练
本章中,我们讨论了多任务预训练的第一阶段。任何基于图的预训练任务都可以在我们的框架中使用。为了不失一般性,在我们的实验中,我们利用了三个著名的预训练任务,即 DGI 、GraphCL 和链接预测 。我们的目标是在预训练标记(pretext token)的指导下,以协同的方式聚合多个预训练任务的损失。

2.2 预训练标记 Pretext Token

不同的预训练任务往往关注图上的不同特性,其损失函数也侧重于反应不同的方面。因此直接将多个预训练任务的损失函数直接聚合会由于不同任务间的互相干扰,导致结果不佳。
为了避免任务间干扰,我们利用了预训练标记(pretext token)。在图的上下文中,图编码器的不同层会反应图的不同特征,因此对不同的预训练任务具有不同的重要性。我们为每个预训练任务引入了一系列预训练标记,以修改图编码器的输入层、隐藏层和输出层。
具体来说,考虑一个图 ,一个总共有 层的编码器,和 个前置任务。如图 2(a) 所示,我们提出了 组预训练标记,表示 每个 表示第 个前置任务的 个预训练标记,每层(包括输入层)一个预训练标记:
其中, 是一个可学习的向量,代表修改图编码器第 层的第 个预训练任务的预训练标记,对于 。这总共给出了 个前置标记,我们在图 3 中展示了它们如何应用于修改一个预训练任务的不同层。
接下来,给定任意预训练标记 ,让 表示在将前置标记 应用到图编码器的其中一层后得到的输出,如下所示。

示其其中一层已被 修改。更具体地说,一个预训练标记 将通过元素对位相乘修改图编码器的第 层为 ,其中我们将前置标记 的每一行逐元素相乘。随后,当 l<L 时,下一层将被生成为

最后,对于第 个预训练任务,我们生成一个特征矩阵 来计算任务损失。我们进一步聚合 L+1 个嵌入矩阵,以获得第 k 个任务的整体嵌入矩阵:

2.2.1 预训练损失函数

为每个预训练任务设计了特定预训练标记后,我们的多任务预训练可以协同获取与每个预训练任务相关的特定信息。在获得第 个预训练任务的特征矩阵后,我们可以计算相应的任务损 其中 表示图编码器的模型权重。然后,我们将所有 个预训练任务的损失聚合在一起,形成多任务预训练阶段的总体损失函数:


2.3 下游提示学习

为了不仅利用特定任务的预训练知识,而且还利用整个预训练模型中的全局跨任务知识,我们提出了一个双重提示机制,包括一组组合提示 和一组开放提示 。组合提示旨在通过可学习混合的预训练标记将与训练任务任务特定知识转移到下游任务。同时,开放提示促进全局跨任务知识的转移。组合提示和开放提示以与预训练标记相同的方式应用于预训练图编码器的不同层,如图3所示。

2.3.1 组合提示

组合提示 修改了预训练图编码器的第 层。然而, 并非直接可学习,而是由同一层中的  K 个预训练前置标记的可学习组合构成,如下所示。

其中 是一个将 个预训练标记“组合”在一起的函数,例如线性组合或神经网络,而 表示该函数的可学习参数。因此,组合提示旨在学习特定任务的预训练知识的精确混合。
2.3.2 开放提示
类似于组合提示,一个开放提示 修改了预训练图编码器的第 层。然而,与组合提示不同, 是直接学习的,而不是由预训练标记组成。通过这种方式,开放提示不会提取任何特定预训练任务的预训练知识,而是全面地关注全局预训练模型。


实验

我们在六个基准数据集上进行了全面的实验,以评估所提出的 在少样本节点分类和图分类任务上的有效性。

3.1 少样本学习表现

我们展示了 1-shot 节点分类和 5-shot 图分类的结果。

3.1.1 1-shot节点分类

结果呈现在表 2 中。我们观察到以下结果:

首先 所有四个数据集上都超越了所有基准,表明其在多任务预训练整体策略中的优势。我们后续进行了一系列消融实验,以评估特定设计的重要性。
其次,预训练方法(DGI/InfoGraph, GraphCL)通常优于监督学习方法(GCN, GAT),因为前者组利用了预训练模型。这些结果突显了从无标签图中获得通用知识的重要性。
最后,“预训练,提示”方法,如 GraphPrompt 和我们 可以进一步胜过没有提示的预训练方法,证明了基于提示的学习尤其在少样本设置中的优势。

3.1.2 5-shot节点分类

我们进一步进行图分类实验,并在表 2 中展示结果。图分类的趋势与节点分类结果中观察到的趋势大致一致,这支持了 (以及更广泛的基于提示的学习范式)在节点和图层级任务上的通用性。

3.2 消融实验

为了全面了 每个部分的影响,我们进行了两项消融实验分析。第一项分析研究了多个预训练任务的效果,第二项分析则 使用不同提示的变体进行对比。
我们首先从三个只使用单个预训练任务的基本变体开始:只使用 DGI/InfoGraph(DGI)、GraphCL 和链接预测(LP)。这三个基本变体在下游微调期间只简单地使用分类器,不使用任何提示。
我们进一步比较了三个更高级的变体,即 DGI+、GraphCL+ 和 LP+,它们具有 全相同的框架和双重提示设计,但只使用一个预训练任务。
参考图 5,我们观察 终优于使用单个预训练任务的所有变体,无论是否使用提示。这一发现强调了利用多个预训练任务的价值。

接下来,对于多任务预训练,我们通过移除我们双重提示中的关键设计来分析  的几个变体,包括使用预训练标记、组合提示和开放提示。这些变体及其相应结果在表 3 中列出。
结果证实了每个独立设计的作用,如下分析结果。
首先,采用预训练标记和组合提示是有益的。值得注意的是,变体 5 通常优于不使用复合提示的变体 1 和 3。然而,仅使用预训练标记,如变体 3 与变体 1 相比并没有稳定的改善,这意味着前置标记与复合提示结合使用效果最佳。(注意复合提示是建立在前置标记之上的,没有后者就无法单独工作。)
其次,省略开放提示会导致性能下降,这在变体 2 和 4 相对于变体 1 和 3 的更高准确率中显而易见。这表明通过开放提示利用全局跨任务知识的重要性。
最后,包括组合提示和开放提示的双重提示设计证明是有益的,帮 到最优性能。



总结与展望

在这篇论文中,我们探索了图上的多任务预训练和提示,旨在涵盖来自多种前置任务的全面知识范围。我们提出的方 计了一系列预训练标记,以协同方式利用多个预训练任务。
此外,我们引入了一个包括组合提示和开放提示的双重提示机制,以利用特定预训练任务的知识和全局跨任务知识。最后,我们在六个公共数据集上进行了广泛的实验,并证 著优于各种最先进的基准。
而本文提出的多任务预训练与提示学习框架也或许为图上大模型的实现提供了一条实现路径。在大语言模型中,往往使用单词掩码这一通用的预训练任务,并通过提示将预训练知识迁移到下游任务。

但由于图数据的复杂拓扑结构,使得单一的预训练任务往往不能充分反映图中的信息,而本文的多任务预训练通过结合多种预训练任务学习图的各方面知识,从而可被视为一个通用的图预训练范式,而下游的双重提示也为知识迁移带来了优秀的表现,从而与大语言模型的形式更加接近,或许会成为通往图大模型的路径。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

继续滑动看下一个
PaperWeekly
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存