图网络真的这么牛吗？现有评价标准堪忧

From: 辛茹月集智俱乐部 2019-09-23

导语

图神经网络（GNN）架构在2018年取得了很多突破，但对其效果的评价准存在一定争议。而arxiv.org上最近的一项研究，揭露了现有图网络效果评价标准的缺陷，并提出了更为合理、全面的评价方案。

图（graph）中的半监督节点分类（Semi-supervised node classification）是图挖掘的一个基本问题，最近提出的图神经网络（GNN）已经在这个任务上取得了无可比拟的成果。由于其巨大的成功，GNN引起了很多关注，并且已经提出了许多新颖的架构。比如，今年6月DeepMind提出能够因果推理的图网络，并提供了开源的图网络库。

但是，近日发表在arxiv.org的一个研究表明：现有的GNN模型评估策略存在严重缺陷，比如：使用相同数据集的相同训练/验证/测试分割，或者在训练过程中进行重大更改（例如，早期停止策略（early stoping criteria）），这样对不同体系架构的比较是不公平的。

论文题目：
Pitfalls of Graph Neural Network Evaluation
论文地址：
https://arxiv.org/abs/1811.05868

因此研究者对四个出色的GNN模型进行了全面的实证评估，并且发现对数据采用不同的分割方式会导致模型的排名显著不同。更重要的是，研究结果表明，如果超参数（hyperparameters）和训练程序适用于所有模型，那么简单的GNN架构能够胜过更复杂的架构。

为什么性能无法评估？

图上的半监督节点分类是图挖掘中的经典问题，其应用范围从电子商务到计算生物学。最近提出的图神经网络架构在这项任务上取得了前所未有的成果，并显着提升了现有技术水平。尽管取得了巨大的成功，但由于实证评估过程的某些问题，我们无法准确判断正在取得的进展。部分原因是现在的评估实验大多是复制早期的标准实验设置。

首先，许多提出的模型都采用了Yang等人的三个数据集（CORA，CiteSeer和PubMed），并且在相同的训练/验证/测试分割上进行的，这样的实验设置其实最利于过拟合，因为这些模型最能克服数据集的分割，找到具有最佳泛化属性的模型。

其次，在评估新模型的性能时，人们经常使用与基准的过程完全不同的训练过程，这使得难以确定改进的性能是来自（a）新模型的优越架构，还是（b）更好地调整了训练过程和/或超参数配置，这对新模型的评估是不利的。

在该研究中，研究者解决了这些问题，并对四个主要GNN架构（GCN、MoNet、GraphSage、GAT）在直推式半监督节点分类任务（transductive semi-supervised node classification task）中的表现进行了全面的实验评估。

在该研究的评估中，主要关注了两个方面：对所有模型使用标准化训练过程和超参数选择。在这种情况下，性能差异可以归因于模型架构的差异，而不是其他因素。其次，该研究在4个著名的引文网络数据集上进行实验，以及另外引入了4个新的数据集。对于每个数据集，使用100次随机训练/验证/测试分割，并且为每个分割执行了20次随机初始化。这样的设置能更准确地评估不同模型的泛化性能，而不是仅仅在一个固定测试集上表现得很好。

对比各种模型

该研究定义的图上的直推式半监督节点分类的问题，和Yang等人的定义相同。在该研究中比较了以下四种流行的图神经网络架构。

（1）图卷积神经网络（GCN）是通过对谱图卷积（spectral graph convolutions）进行线性近似的早期模型之一。

（2）混合模型网络（MoNet）概括了GCN架构，并允许学习合适的卷积滤波器。

（3）Graph Attention Network（GAT）的创建者提出了一种注意机制，允许在整合期间对邻域中的节点进行不同的加权。

（4）GraphSAGE专注于归纳节点分类，但也可以应用于直推式学习。该研究从原始论文中考虑了GraphSAGE模型的3种变体，表示为GS-mean，GS-meanpool和GS-maxpool。

所有上述模型的原始论文和实施都考虑了不同的训练过程，包括不同的早期停止策略、学习率衰减、全批次与小批量训练。这种多样化的实验设置使得：很难凭经验确定改进性能背后的驱动因素。因此，在该研究的实验中，研究者对所有模型使用标准化的训练和超参数调整程序，以更公平地比较。

此外，该研究还考虑了四种基准模型。 Logistic回归（LogReg）和多层感知器（MLP）是基于属性的模型，不考虑图结构。另一方面，标签传播（LabelProp）和归一化拉普拉斯标签传播（LabelProp NL）仅考虑图形结构并忽略节点属性。

如何平衡地比较？

实验中的数据集

该研究使用了四个众所周知的引用网络数据集：PubMed、CiteSeer和CORA以及CORA的扩展版本（CORA-Full）。另外还为节点分类任务引入了四个新数据集：Coauthor CS，Coauthor Physics，Amazon Computers和Amazon Photo。对于所有数据集，都构建成了无向图，仅考虑最大的连通部分。

模型设置

该研究保留了原始论文中的模型体系结构，包括层的类型和顺序、激活函数的选择、dropout的放置以及应用L2正则化的选择。还将GAT的head数量固定为8，将MoNet的高斯内核数量固定为2，如各自的论文所述。所有模型都有2层（输入特征→隐藏层→输出层）。

训练过程

为了更平衡地比较，该研究对所有模型使用相同的训练过程。也就是说，使用相同的优化器（默认参数的Adam），相同的初始化（根据Glorot和Bengio，初始化权重，偏置初始化为零），没有学习率衰减，相同的最大训练迭代次数、早期停止标准、patience和验证频率（显示步骤）。实验中同时优化所有模型参数（GAT的注意力权重，MoNet的内核参数，所有模型的权重矩阵）。在所有情况下，都使用全批量训练（使用每次迭代中使用训练集中的所有节点）。

超参数

最后，该研究对每个模型的超参数选择采用了完全相同的策略。对学习率，隐藏层的大小，L2正则化的强度和丢失概率等都使用广泛的网格搜索来确定。该研究限制随机搜索空间，确保每个模型具有相同给定数量的可训练参数。对于每个模型，选择在Cora和CiteSeer数据集上实现了最好平均准确度的超参数配置（平均超过100次训练/验证/测试分割和20次随机初始化）。所选择的性能最佳的配置用于所有后续实验，并列于表4。在所有情况下，该研究在每一类使用20个标记节点作为训练集，30个节点作为验证集，其余作为测试集。

论文表4

GNN的优越性

表1显示了所有8种模型的平均精度（及其标准差）。数据集平均超过100个分割，每个分割有20个随机初始化。从表中可以观察到，首先，基于GNN的方法（GCN，MoNet，GAT，GraphSAGE）在所有数据集中明显优于所有基准算法（MLP，LogReg，LabelProp，LabelProp NL）。这与人们的直觉相符，并证实了基于GNN的方法的优越性，结合了结构和属性信息，而不是仅考虑属性或仅结构的方法。

论文表1

在GNN方法中，没有明显的赢家在所有数据集中占主导地位。实际上，对于8个数据集中的5个，第2和第3个方法的最佳表现与平均得分相差不到1％。在该研究中，对每个数据集（已经平均了超过20个初始值）采用最佳准确度分数100％。然后，将每个模型的得分除以该数，并将每个模型的结果在所有数据集和分割上平均。另外，该研究还根据其性能对算法进行排名（1 = 最佳性能，10 = 最差性能），并计算每个算法中所有数据集和分组的平均排名。最终得分记录在表2a中。

可以观察到：GCN能够在所有模型中实现最佳性能。虽然这一结果似乎令人惊讶，但其他领域也有类似的发现。如果对所有方法同样仔细地执行超参数调整，那么简单的模型通常优于复杂的模型。在未来的工作中，研究者计划进一步研究导致GNN模型性能差异的图的特定属性。

论文表2a

多重分割评判性能

另一个令人惊讶的发现是GAT在Amazon Computers和 Amazon Photo上得分相对较低，结果差异很大。为了研究这种现象，该研究在附录图2中的Amazon Photo数据集上可视化了不同模型所获得的准确度分数。虽然所有GNN模型的中位数彼此非常接近，但GAT将某些权重初始化为极低的分数（低于40％）。虽然这些异常值很少发生（2000次运行中有138次），但是它们显着降低了GAT的平均得分。

论文附录图2

为了演示不同的训练/验证/测试分割对性能的影响，该研究执行以下简单实验。研究者在Yang的数据集和各自的分割上运行了4个模型。如表2b所示，GAT获得CORA和CiteSeer数据集的最佳分数，GCN获得PubMed的最高分。

但是，如果考虑使用相同训练/验证/测试数据集大小的不同随机分组，则模型的排名完全不同，GCN在CORA和CiteSeer上表现最好，而MoNet在PubMed上获胜。这表明在单个分割中的结果非常脆弱，具有明显的误导性。另外考虑到GNN的预测在小数据扰动下会发生很大的变化，这一点明确证实了基于多重分割的评估策略的必要性。

论文表2b

Take home message

该研究对节点分类任务中的4种最先进的GNN架构进行了实证评估，还引入了4个新的属性图数据集，以及开源的框架，可以对不同的GNN模型进行公平和可重复的比较。该研究的结果强调了：仅考虑数据的单个训练/验证/测试分割的实验设置的脆弱性。另外，该研究还惊奇地发现，如果使用相同的超参数选择和训练过程，简单的GCN模型可以胜过更复杂的GNN架构，并且该结果是多个数据分割中的平均值。希望这些结果可以鼓励未来的工作使用更强大的评估程序。