ICML 2022 | 基于随机注意力机制的可解释可泛化图学习
©作者 | 谢彪
单位 | 重庆大学
研究方向 | 联邦学习、图神经网络
论文链接:
代码链接:
内容简介
图学习模型广泛应用于科学领域,例如物理学(Bapst et al., 2020)和生物化学(Jumper et al., 2021)。对于科学家来说,相比于建立准确的预测模型,从诱发某些预测的数据中发现模式更为重要。最近,图神经网络(GNN)由于其强大的表达能力几乎成为了主流的图学习模型。然而,它们的表现力通常建立在不规则图特征的高度非线性纠缠之上。因此,从 GNN 用于进行预测的数据中找出模式通常十分具有挑战性。
本文通过提出 Graph Stochastic Attention(GSAT)来迎接上述挑战,GSAT 是一种新颖的注意力机制,用于构建具有内在可解释性和良好泛化性的 GNN。GSAT 的基本原理源于信息瓶颈(IB)的概念(Tishby 等人,2000;Tishby & Zaslavsky,2015)。研究通过将随机性注入到注意力中来将注意力制定为 IB,以约束从输入图到预测的信息流(Shannon,1948)。与标签无关的图组件的这种随机性将在训练期间保持,而与标签相关的图组件的随机性可以自动减少。这种差异最终提供了模型解释。
本文的主要贡献如下:
首先,IB 原则将 GSAT 从先前方法采用的任何潜在的有偏见的假设中解放出来,例如检测图形模式的大小或连接性约束。GSAT 可以实现更好的解释。
其次,从 IB 的角度来看,所有事后解释方法都是次优的。它们基本上在没有任何信息控制的情况下优化模型,然后对信息控制执行单步投影,这会导致最终解释性能对预训练模型敏感。
第三,通过减少输入图中的信息,GSAT 可以证明在某些假设下可以去除训练数据中的虚假相关性,从而实现更好的泛化。
第四,如果提供预训练模型,GSAT 可能会进一步提高其解释和预测准确性。
在多个真实世界的数据集上进行实验,发现本文提出的模型优于现有方法。
相关理论与技术
2.1 注意力机制(Attention Mechanism)
注意机制已广泛用于 NLP 和 CV 任务的可解释神经网络中。然而,具有注意力的 GNN(Veliˇ ckoví c et al., 2018)通常会产生低保真的注意力权重。由于它为每条边学习多个权重,因此将这些权重与不规则图结构相结合来执行与图标签相关的特征选择绝非易事。
2.2 图神经网络(Graph Neural Network)
GNN 是神经网络模型,可将图结构数据编码为节点表示或图表示。它们用其属性来初始化每个节点的特征表示,然后通过聚合来自邻居的表示逐渐更新它。图表示通常通过节点表示的聚合(总和/均值)获得。
2.3 学习解释(L2X)
L2X(Chen et al., 2018)研究了规则特征空间中的特征选择问题,并提出了互信息(MI)最大化规则来选择固定数量的特征。
2.4 方法介绍
GSAT 的架构如图 1 所示。 对输入图 进行编码并学习随机注意力 (来自伯努利分布),随机丢弃边缘并获得扰动图 。 对 进行编码以进行预测。GSAT 不限制 的大小,而是注入随机性来限制信息。具有学习减少随机性的 子图( 的边)提供了解释。GSAT 是一个统一模型,对 和 都只采用一个 GNN。GSAT 既可以从头开始训练,也可以从预先训练的 GNN 预测器 开始。
2.5 通过 GIB 进行图学习解释
对于图结构的不规则性,图学习模型往往要处理各种大小的输入图。关键子图模式也可能具有不同的大小并且非常不规则。受图信息瓶颈(GIB)原理(Wu et al., 2020; Yu et al., 2021)的启发,本文建议使用信息约束来选择标签相关的子图,即求解:
2.6 GIB 的随机注意力机制
GSAT 的目标为:
实验分析
实验的主要目的在于评估本文方法的可解释性和预测性能。将本文提出的方法与最先进的(SOTA)事后解释方法和固有可解释的模型进行比较。除此外还将其与几种不变学习方法进行比较,以证明 GSAT 消除虚假相关的能力。
数据集
Mutag(Debnath et al., 1991):一个分子特性预测数据集。
BA-2Motifs(Luo et al., 2020):一个带有二值图标签的合成数据集。
Spurious-Motif(Wu et al., 2022):一个具有三个图类的合成数据集。每个类别都包含一个特定的主题,可以被视为基本事实的解释。
......
基线
可解释性的基线:将可解释性与事后方法 GNNExplainer、PGExplainer、GraphMas、固有可解释模型 DIR 和 IB 子图进行比较。
预测的基线:将预测性能与主干模型 GIN 和 PNA 以及固有可解释模型 DIR 和 IB-subgraph 进行比较。
不变学习的基线:将消除虚假相关性的能力与不变学习方法 IRM、V-REx 和 DIR 进行了比较。还包括由经验风险最小化(ERM)产生的基线结果。
如表 1 所示,本文的方法平均显着优于基线 9%↑,最高可达 20%↑。如果仅比较固有的可解释模型,则提升更为显着。此外,对于更小的方差,GSAT 还提供了比基线更稳定的解释。GSAT∗ 通过微调预训练模型通常可以进一步提高解释性能。
如表 2 所示,在训练数据中存在虚假相关性的 Spurious-Motif 数据集上,GIN+GSAT 显着优于主干 GIN。对于其他数据集,GIN+GSAT 可以获得可比较的结果,这与本文声称的 GSAT 提供解释而不损害预测的说法相吻合。
如表 4 所示。即使没有使用因果关系分析,GSAT 在去除虚假相关方面也要明显优于所有不变学习方法。
总结
图随机注意(GSAT)是一种新颖的注意力机制,用于构建可解释的图学习模型。GSAT 注入随机性来阻止与标签无关的信息,并利用随机性的减少来选择与标签相关的子图。这是受到信息瓶颈原理的启发。GSAT 具有许多变革性特征。例如,它消除了图学习解释中的稀疏性、连续性或其它可能有偏见的假设,而不会降低性能。它还可以消除虚假相关性,以更好地进行模型泛化。附加的,本文还从信息瓶颈的优化角度揭示了事后解释方法背后的潜在严重问题。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧