查看原文
其他

论文回顾 | [ICLR 2018] Graph Attention Networks


本文简要介绍发表于ICLR 2018的论文“Graph Attention Networks”的主要工作。这篇论文的方法(GAT)将Attention机制引入到Graph中,使得Graph的每个节点可以为其邻居节点分配不同的权重,从而根据不同的重要性来获取邻居节点的特征。论文所提出的GAT网络在Transductive和Inductive任务上均取得了Sate-of-the-art的效果。


一、研究背景

基于CNN的方法被广泛使用并取得了巨大的成功,例如:图像分类、目标检测、语义分割等。但是CNN上具有参数共享特性的卷积核只适用于排列整齐的数据(Euclidean Data),包括语音、图像、视频等,在Graph结构的数据上却无能为力。近几年,关于Graph的应用和需求急剧增长,其中包括社交网络、交易网络和知识图谱等,甚至在常见的CV领域,判断目标间的视觉关系往往也和Graph密切相关。所以,越来越多学者将目光投向了图神经网络(Graph Neural Networks,GNN),期待这类方法能更好地帮我们解决图上的问题,而我们所要介绍的Graph Attention Networks(GAT),就是其中一个很优秀的方法。

 
二、GAT原理简述
 

图1. 左图表示文章所用的Attention机制;右图表示节点1和其邻居节点通过Attention的方式作特征聚合。
 

论文的动机旨在引入Attention机制到图上,从而让图上的每个节点能按一定的重要性去注意其周围的邻居节点,通过邻居节点的特征组合获取新的特征表达。其中,最为重要的是Self-attention的操作:

其中,h表示输入节点的特征向量,W是可学习权重。函数a()的实现方式有很多种(点乘、Cosine距离、MLP等),它的作用是计算邻居节点j到中心节点i的重要性(相似性)。在计算出节点间的重要性系数e之后,为了让各个节点的系数可直接比较,还需要作下归一化:

这里,主要是把节点i的邻居节点(通常也包括其自身)的重要性系数e输入到Softmax函数中,从而将它们归一化为0-1间的概率值,从而得到最终的权重。在论文中,计算重要性系数e的函数a()采用了MLP层的实现,所以,完整的Attention公式如下:

上式的即表示一层MLP的权重向量。

在获得这些Attention的权重之后,我们就可以按照这也权重来对邻居节点的特征作加权和,为中心节点i计算一个新的特征表示:

此外,GAT同样借鉴了Transformer[1]里面的Multi-head Attention思想,即进行多次平行的Attention后,将特征Concat在一起,作为最终的特征输出:

这里做了K次Attention,再将各个特征Concat在一起。 

上面所介绍的就是GAT里面的Attention Layer,完成一次这样的Attention,相当于就是一层卷积,在GAT里面,我们可以堆积多个这样的Attention Layer,来搭建一个完整的网络结构。

 
三、主要实验结果 

论文在Transductive和Inductive两类任务上对方法作了实验验证,其中Inductive任务中测试的Graph在模型训练的时候并没有见过。 

 
表1. GAT在论文引用数据集Cora,Citeseer,Pubmed上的表现

可以看到,GAT相较于其他方法在分类精度上有明显的提升,并取得了SOTA的结果。

 
表2. GAT在PPI蛋白质数据集上的表现

在这个实验中,GAT表现非常出色,相比于先前的方法具有非常大幅度的提升(+20%)。可见,GAT无论在Transductive还是Inductive任务上都具有很大的优势和极强的适用性。 

 
四、总结

GAT方法通过引入Attention机制,使得每个节点可以感知其周围邻居的重要性,从而更有目的性地进行特征提取。

GAT网络相比于其他方法具有很多优点:
  1. 计算高效,不需要进行复杂矩阵运算(如矩阵求逆)。

  2. 相比于GCN[2],GAT可以为节点分配不同权重来作特征提取,其模型表达能力更强。

  3. 各节点共享的Attention机制,GAT不需要访问整个Graph,并支持有向图和无向图。

  4. GAT可以同时关注某个节点的所有邻居,不需要对邻居节点排序、采样。

 
五、相关资源 
GAT开源代码:https://github.com/PetarV-/GAT

参考文献

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. In NeurIPS, 2017.

[2] Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. International Conference on Learning Representations, In ICLR, 2017.



原文作者:Petar Velickovic´, Guillem Cucurull, Arantxa Casanova, Adriana Romero,Pietro Lio,Yoshua Bengio

撰稿:谢乐乐

编排:高  学

审校:殷  飞

发布:金连文




免责声明:1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 


往期精彩回顾



征稿启事:本公众号将不定期介绍一些文档图像分析与识别领域为主的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。



(扫描识别如上二维码加关注)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存