性能超越图神经网络，将标签传递和简单模型结合实现SOTA

AI科技大本营 2020-12-18

译者 | 刘畅

出品 | AI科技大本营

头图 | CSDN付费下载自视觉中国

图神经网络（GNNs）是图学习中一种主流的技术。然而，对于GNN为什么在实际使用中很成功以及它们是否是优异性能所必需的技术，了解相对较少。

本文展示了许多标准的传导节点网络的分类基准结果，作者通过将忽略图结构的浅层模型与利用标签结构中相关性的两个简单后处理步骤相结合，可以超越或匹配SOTA的GNN的性能，这里主要有两个相关性（i）将训练数据中的残余误差带到测试数据中，用于矫正错误的“误差相关性”（error correlation），以及（ii）一个“预测相关性”，它可以平滑测试数据上的预测。本文称整个过程为矫正且平滑（Correct and Smooth, C&S），后处理步骤是通过对早期基于图的半监督学习方法的标准标签传导技术的简单修改来实现的。

本文的方法在各种基准测试上超过或接近于SOTA的GNNs的性能，并且它只需要一小部分的参数，运行速度更快。例如，本文方法在OGB产品数据集中以减少137倍的参数和100倍的训练时间超过了最著名的GNN性能。本文方法的性能突出展现了如何直接将标签信息纳入学习算法（如在传统技术中所做的那样），并产生简单而实质性的性能提升，也可以将技术融入大型GNN模型中，提供适度增益。

OGB结果的代码是：

https://github.com/Chillee/correctandsooth。

引言

随着神经网络在计算机视觉和自然语言处理方面的成功，现在有许多的图神经网络（GNN）来对关系性数据进行预测。这些模型已经取得了很大的成功，并且在开放的图基准排行榜上名列前茅。通常，GNN的方法主要是围绕着创建比基本结构更具表现力的体系结构，如图卷积网络（GCN）或GraphSAGE；例子如图注意力网络，图同构网络和各种深层模型。许多新GNN架构的想法都是从语言（例如注意力）或视觉（例如深层CNN）模型中的新架构改编而来的，希望能成功转化为图形。然而，随着这些模型变得越来越复杂，理解它们的性能增益是一个主要的挑战，并且将它们扩展到大型数据集是很困难的。

在本文中，我们将展示，通过组合更简单的模型，我们可以达到多大的程度，重点是了解在图学习中，特别是转化节点分类中，哪里有容易提高性能的机会。本文提出了一个包含三个主要部分的简单管道（pipeline）（图1）：（i）使用忽略图结构的节点特征进行基础预测（例如，MLP或线性模型）；（ii）校正步骤，它将训练数据中的不确定性传播到图中，以校正基础预测；以及（iii）对图上的预测进行平滑处理。步骤（ii）和（iii）只是后处理，使用的是经典的基于图的半监督学习方法，即标签传播。

图1 任意GNN模型，校正和平滑过程整体概述，并附带一个示例。

假设左侧簇属于橙色类，右侧簇属于蓝色类。我们使用mlp进行基础的预测，假设在本例中，图结构对所有节点都给出了相同的预测。然后，通过传递训练数据中的误差来校正基础的预测。最后，通过标签传递对校正后的预测进行平滑处理。

本文方法性能改进的一个主要来源是直接使用标签进行预测。这种想法并不是什么新鲜事，早期的基于扩散的半监督学习算法，如光谱图传感器、高斯随机场模型和标签扩散都使用了这一思想。然而，这些方法的动机是在点云数据上进行半监督学习，因此使用特征来构造图。从那时起，这些技术被用于仅从标签（即无特征）学习关系数据，但在GNNs中基本上被忽略了。

尽管如此，本文发现即使是简单的标签传播（忽略了特征）在许多基准测试中都表现得出奇地好。这就为组合两个预测能力的正交提供了动力，一个来自节点特征（忽略图结构），另一个来自直接在预测中使用已知标签。

最近的研究将GNN与标签传播以及马尔可夫随机场联系起来，并且一些技术在特征中使用了标签信息。然而，这些方法的训练成本仍然很高，而本文是以两种可理解的低成本方式使用标签传播。本文从一个忽略了图结构的模型的“基础预测”开始。之后，使用标签传播进行误差修正，然后平滑最终预测。这些后处理步骤基于这样一个事实，即连接节点上的错误和标签是正相关的。

总的来说，本文的方法表明，结合几个简单的思想，在传导节点分类中，无论是在模型大小还是在训练时间方面，成本都只占一小部分。例如，在OGB产品基准测试中，我们用少于两个数量级的参数和训练时间，超过了目前最著名的GNN方法。

然而，本文的目标并不是说当前的图学习方法很差或不合适。相反，本文的目标是强调在图学习中提高预测性能的更简单的方法，这样可以更好地理解性能增加的缘由。本文的主要发现是在学习算法中更直接地加入标签是非常关键的。通过将我们的想法与现有的GNN相结合，我们也看到了一些提升，尽管这些提升是微不足道的。但作者希望本文的方法能为其他的图学习任务，如归纳节点分类、链接预测和图预测提供一些思路。

方法

我们的方法从一个简单的基于节点特征的基础预测器开始，这个预测器不依赖于图的任何学习。之后，我们执行两种类型的标签传播（LP）：一种是通过建模相关误差来修正基础的预测，另一种是平滑最终的预测结果。我们称这两种方法的组合是校正和平滑（C&S；图1）。LP（Label Propagation, 标签传递）只是一个后处理的步骤，本文的算法pipeline不是一个端到端的训练。此外，该图仅用于这些后处理步骤和增强特征的前处理步骤。而一般的基础预测方式不是这样的。与标准GNN模型相比，这使得训练变得更快且可扩展。此外，我们利用了LP（在没有特性的情况下，它本身的性能往往相当好）和节点特征。我们将看到，将这些补充的信息结合起来会产生很好的预测。

首先，我们使用一个不依赖于图结构的简单的基础预测器。这个预测器可以是线性的模型或者一个浅的多层感知器，接下来，我们通过合并标签来关联修正错误，从而提高基础预测器的精度。为了最终的预测，出于图中的相邻节点可能具有相似标签的考虑，作者进一步平滑了修正后的预测值。回顾整个处理的流程，就是从简单的基础预测Z开始，只使用节点特征，而不是图结构。然后，通过在训练数据上传递已知误差来估计误差，得到误差修正后的预测Z（r）=Z+^E。最后，作者将这些作为未标记节点上的得分向量，通过另一个LP步骤将其与已知标签相结合，得到平滑的最终预测。这就是Correct and Smooth(C&S)方法。

实验

为了证明本文方法的有效性，我们使用了九个数据集（表1）。Arxiv和Products数据集来自开放图基准数据集；Cora、Citeseer和Pubmed是三个经典的引文网络基准数据集；wikiCS是一个网络图。在这些数据集中，类标签是论文、产品或页面的种类，而特征是从文本派生出来的。本文还使用Rice 大学的Facebook社交网络，其中类标签是宿舍，特征是性别、专业和班级年份等属性，以及美国的地理数据集，类标签是2016年选举结果，特征是人口统计。最后，我们使用了一个欧洲研究机构的电子邮件数据集，其中的类标签是部门成员，没有特征。

具体的对比方法和结果如下图所示，其他更详细的实验步骤和对比结果，可以详细阅读论文。

结论

GNN模型正变得越来越有泛化能力，参数也越来越多，训练成本相应的也变得越来越高。本文的研究结果表明，我们应该探索其他提高性能的技术，例如标签传递和特征增强。特别是，标签传递和它的变体是一种可持续发展的想法。直接地将它们结合到图学习模型中就会带来很大的好处，而且本文已经证明这些方法可以使预测结果更好，训练更快。

更多精彩推荐

中美友好合作故事——十万名中国弃婴长大了

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

中共中央批准：作出对高朋逮捕决定

不仅要看已抓谁，还须一直抓到没