KDD 2024 | 如何在图A上预训练,在图B上直接推理?大模型帮助图领域的零样本学习挑战
人类面对新问题时,往往会将其与已知的知识联系起来。这一观念同样适用于机器学习(ML)。传统的 ML 方法多关注在训练过程中已见过的类别。然而,现实应用往往要求对未曾见过的类别进行分类,这就需要模型利用已有的知识进行推理和解决问题。例如,一个训练于动物图像的模型虽然未曾见过“斑马”,但通过理解“条纹”与“马”的概念,它仍能成功识别斑马。
在 AI 领域,特别是随着大型语言模型(LLMs)如 GPT-4 和 LLaMA 的出现,零样本学习能力(zero-shot ability)已取得显著进展。零样本学习是指模型在训练阶段未接触目标类别的情况下,依然能够进行分类的学习范式。
在自然语言处理(NLP)中,这种学习通常基于生成范式(generative paradigm),模型依靠对广泛语料库的预训练来处理新数据。而在计算机视觉(CV)领域,零样本学习则依赖检索范式(retrieval paradigm),如 CLIP 模型通过将图像与文本映射到一个共享空间,利用 embedding 相似性来识别新图像。
图学习作为多学科的交叉领域 [1],虽广泛应用,但面临两大挑战:1)新图的出现,这使得在每个单独的图上训练图模型如图神经网络(GNNs)变得不切实际;2)由于图结构数据的复杂性和多样性,人类标记变得困难。
因此,探索图学习中的零样本学习显得尤为重要,这不仅能让图模型对未见过的图进行推广和推理,对于实现图基础模型(graph foundation model)的目标也是至关重要的,这些模型能够适应不同数据而无需额外的微调 [2]。
在论文中,我们我们首次系统性探讨了图领域零样本迁移学习的挑战与现有尝试。我们提出了一个新模型 ZeroG,其能够跨不同图数据集实现强大的零样本迁移学习能力。ZeroG 在不同领域的图数据集上展现出优秀的性能,在某些数据集上效果甚至可与半监督方法相媲美。
收录会议:
论文链接:
代码链接:
问题描述 & 与现有任务对比
目前大多数关于节点分类的研究仅关注在单一图数据集上使用标注的节点通过半监督学习进行模型训练,以预测同一标签空间的未标注节点,这种方法我们称之为“图内半监督学习”(in-dataset semi-supervised learning)。然而,这些研究往往忽略了模型在图间的泛化能力 [3]。
近年来,关于 GNN 的迁移性,开始有研究聚焦于两个流行场景:无监督图域适应(UGDA, unsupervised graph domain adaptation)和图内零样本学习(in-dataset zero-shot transfer)。
如下图所示,UGDA 旨在上游的图上学习分类模型,然后在下游图上进行分类,在 UGDA 中上下游图具有相同的标签空间。而图内零样本学习则关注在单一图内的泛化能力,其目标是基于部分可见类别的标注节点进行训练后,将未标注节点分类到目标标签空间中的未见类别。
跨图零样本学习(cross-dataset transfer)是近期涌现在大量模型中(尤其是大模型)展示跨数据集转移能力的一个场景,主要出现在自然语言处理(NLP)和计算机视觉(CV)领域。
在本工作中,我们专注于跨图零样本节点分类任务。我们的目标是在数个完全标注的上游图上对模型进行预训练,并在一个完全不同的下游图上进行分类,注意此时下游图具有与上游图完全不同的标签空间。
跨图零样本学习与 UGDA 和图内零样本学习的不同之处主要在于:UGDA 需要上下游图具有一致的标签空间,这使得其无法在未知类别的下游图进行推理;图内零样本学习只能在单一图内进行零样本学习,遇到全新的图时则无法处理。而跨数据集零样本是一个非常实用的场景,但目前的工作还鲜有深入研究。
面临的主要挑战
ZeroG
为了解决以上挑战,在本论文中,我们提出了一个名为 ZeroG 的模型,通过在上游数据集中对语言模型进行微调,ZeroG 能够在下游目标数据集上展示出显著的零样本学习能力。
3.1 统一图表征模块
实验分析
我们在不同领域的 7 个图数据集上进行实验。为了公平比较,我们参照 OFA [6] 模型的处理方式,为 Cora、Pubmed、ogbn-arxiv 和 Wiki-CS 的节点和类别提供了文本信息。而对于 CiteSeer、P-Home 和 P-Tech,我们采用了 Chen et al. [10] 的原始文本处理方法。
我们在域内进行了零样本泛化实验。结果显示,ZeroG 在所有目标数据集上相比基线模型都实现了显著的性能提升,尤其是在 Pubmed 数据集上达到了 78.02% 的准确率,这与两种半监督学习方法相当。相比仅依赖结构的图自监督学习方法和完全基于文本相似性的语义相似性方法,我们的模型综合利用结构和语义信息,有效促进了零样本迁移。
未来与展望
跨图零样本学习作为一个新兴的任务,自 OFA [6] 首次提出该概念后,相关的研究工作还比较少。要想实现图基础模型的最终目标,提升图模型泛化性,尤其是零样本学习场景的泛化性是非常重要的。因为新图在源源不断地产生,图基础模型应当有能力来理解,分析从未见过的图(unseen graph),从而进一步执行下游任务。
在我们最新的 benchmark 工作 GLBench [11] 中,我们也对目前有zero-shot能力的模型进行了评测,评测结果表明现有模型在零样本学习场景下还有很大的提升空间。我们认为使用 GNN 或者 LLM 作为 backbone 都是很好的思路,希望更多的工作在该任务上被探索,走向真正的图基础模型。
参考文献
参考文献
[1] Li et al. GSLB: the graph structure learning benchmark. NeurIPS 2023.
[2] Mao et al. Position: Graph Foundation Models Are Already Here. ICML 2024.
[3] Li et al. A Survey of Graph Meets Large Language Model: Progress and Future Directions IJCAI 2024.
[4] Jin et al. Self-supervised learning on graphs: Deep insights and new direction. Arxiv 2020.
[5] Sun et al. All in One: Multi-Task Prompting for Graph Neural Networks. SIGKDD 2023.
[6] Liu et al. One for All: Towards Training One Graph Model for All Classification Tasks. ICLR 2024.
[7] Liu et al. GraphPrompt: Unifying Pre-Training and Downstream Tasks for Graph Neural Networks. WWW 2023.
[8] Sun et al. GPPT: Graph Pre-training and Prompt Tuning to Generalize Graph Neural Networks. SIGKDD 2022.
[9] Hu et al. LoRA: Low-Rank Adaptation of Large Language Models. ICLR 2022.
[10] Chen et al. Exploring the Potential of Large Language Models (LLMs)in Learning on Graphs. SIGKDD Explorations Newsletter 2024.
[11] Li et al. GLBench: A Comprehensive Benchmark for Graph with Large Language Models. Arxiv 2024.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧