因果推理相关的图神经网络研究进展

莫燕虎 PaperWeekly 2023-02-02

©作者 | 莫燕虎

单位 | 北邮GAMMA Lab

来源 | 北邮GAMMA Lab

本文介绍两篇因果推理相关的图神经网络研究工作。

OOD推荐系统下的因果表征学习

本文介绍了什么是推荐系统中的 Out-of-Distribution（OOD）问题，并从因果的角度提出了一种解决 OOD 问题的表示学习方式。

文章链接：

https://dl.acm.org/doi/pdf/10.1145/3485447.3512251

1.1 简介

现代推荐系统的用户表征都是从其历史交互中学习出来的，这就存在着用户表征变化带来的问题，历史交互会将过时的信息注入到与最新的用户特征相冲突的表示中，从而导致不恰当的推荐。

如下图所示，在 IID 环境下，左边这位女士处于未怀孕的状态，此时她在系统中的点击是鞋子或者衣服等商品。但在 OOD 的环境下，这位女士变成了怀孕的状态，此时之前的历史交互所学到的表征不适用于 OOD 环境下的推荐。

在这项工作中，作者考虑了在用户特征发生变化的 Out-Of-Distribution（OOD）环境中的推荐问题，并为表征学习设定了额外的两个目标：强大的 OOD 泛化能力以及快速的 OOD 适应能力。这项工作从因果关系的角度制定和解决了这两个问题。即将用户的特征转移表述为一种干预，而 OOD 推荐则是干预后的交互概率推测。

1.2 符号声明与问题定义

1.2.1 符号声明

图 2 中的表示的可观测到的用户 features，如年龄和收入等，表示不可观测到的用户 features，如爱好等。、表示潜在的用户倾向，其中由用户特征、共同决定，仅由决定。D 表示的是点击或者购买等用户的交互信息。

1.2.2 问题定义

基于 OOD 环境下的推荐系统，文章中定义了两个问题：1. OOD generalization：当干预已知，即已经知道干预后的用户的交互数据不可用时，模型的泛化能力。2. Fast adaptation：我们假设很少一部分干预后的用户交互数据可以从 OOD 环境中收集到，并评估模型对 OOD 环境的适应速度和准确性。

1.3 方法

在推荐系统中，我们希望通过已有数据最大化如下对数似然估计，即利用用户的表征来预测他想购买的商品。但是由于公式 2 中不可知，最大化公式 2 中的对数似然较难。文章中利用变分推断得到公式 2 的证据下界（ELBO），如公式 3 所示。

最大化公式 3 中 ELBO 则可以提高公式 2 的上界，为了计算公式 3 中的 ELBO，文章中采用了 encoder 网络和 decoder 网络去拟合公式 3 中的 and 。

首先利用公式 4 拟合，即给定已知的交互数据 d 和用户表征，得到不可观测的用户表征。

再利用公式 5（decoder network），来拟合公式中的，由于积分计算起来较为复杂，文中采用公式 7 中的蒙特卡洛采样来近似。

在训练阶段，可以利用用户，和历史交互信息 d，以及 target d 来进行训练，从而得到 figure 4 中四个 MLP 的参数。

在 OOD 环境下的测试阶段，因为的采样和历史信息 d 有关，这也会可能将一些 IID 场景下的过时信息传递给下游的。因此，为了避免 IID 数据带来的影响，作者采用对 d 进行干预（图4 (b)），使得生成的下游不受过时信息的影响。由于生成的是在的情况下得到的，对对推断保留了原始的一些有用的信息。最后结合二者得到最终的推荐交互。

1.4 实验

作者在生成数据集和真实数据集下做了如下实验，可以看到作者的方法 COR 虽然在 IID 场景下效果比 baseline 差，但是在 OOD 环境下表现比 baseline 提升较为明显。

当很少一部分干预后的用户交互数据可以从 OOD 环境中收集到时，可以看到作者的方法在 Fast adaptation 评估中也有提升。

学习图上因果不变表征分布外泛化

本文利用了因果不变性的方法来解决图上的 OOD 问题。

文章链接：

https://openreview.net/pdf?id=A6AFK_JwrIW

2.1 简介

目前图神经网络假设训练图和测试图来自相同的分布，然而在现实中经常被违反这一假设，出现训练和测试分布的不匹配的情况，即分布偏移。图神经网络难以在这种分布外（OOD）泛化问题上取得很好的效果。

尽管 OOD 问题在欧几里得数据上的泛化取得了比较大的成功，而这些在欧式数据上的方法大多用的是因果关系的不变性原则，该原则利用了不变的因果机制（ICM）假设。但是由于图上的复杂性，存在着几个新的挑战，禁止直接采用该原则。

首先，图上的分布偏移更加复杂，它包括属性层面和拓扑层面上的分布偏移；其次，每一种偏移与标签的虚假相关形式可能不一样；此外，由于图的抽象性，环境信息更加难以获取。为了解决上述问题，本文提出了“因果启发的不变图学习”（CIGA），具体来说，本文建立了三个结构因果模型（SCM）来描述图上可能发生的分布转移，然后将不变性原则推广到图上，用于 OOD 泛化。

2.2 通过因果的视角看图上的OOD泛化

2.2.1 问题定义

本文聚焦于图分类上的 OOD 问题，举个例子，GNN 需要对图形是否包含“房子”或“五边形环”子图进行分类，其中颜色代表节点特征。然而，训练数据中的分布变化存在于结构层面（从左到右：“房子”大多与六边形同时出现）、属性层面（从上到下：如果图形包含“房子”，节点大多被染成绿色，如果图形包含“五边形环”，则被染成蓝色）和图形大小。ERM 可能会将有六边形或大部分节点为绿色的图预测成 house，而无法捕捉到拓扑结构的不变性。

2.2.2 图生成过程

（1）本文假设一张图的生成过程是由两个部分和三个函数组成（Assumption 2.1），C 表示图上不变的部分、S 表示图上变化的部分。继承了 C 中不受环境 E 影响不变的信息，表示 G 中会随着 E 的变化而变化的部分，其他三个 f 表示数据的生成函数。

（2）遵从以前的工作，本文根据 C 和 S 之间潜在的关系，得到了完全信息不变性的 SCM（FIIF，图2（b））和部分信息不变性的 SCM（PIIF，图2（c）），即 FIIF 表示 C 中包含了所有与标签 Y 有关的信息，PIIF 表示 C 中只包含了标签 Y 的部分信息。

2.3 方法

为了使 GNN 能够学习从 G 中提取关于 C 的信息，本文提出了 CIGA 框架，明确地与假设 2.1 中的两个因果机制和对齐，即优化下面的公式 1：

最大化互信息相当于最小化损失函数，同时让得到的与环境独立等同于通过函数提取出与图上环境无关、不变的部分。

但是由于环境的不可用性，不能直接计算环境与子图之间相互独立，这使得的识别更具挑战性。为了缓解这个问题，我们需要找到并将的其他性质转化为一些可微调的等价目标，以满足独立约束的目标。

假设和是在同一个子图 c 在不同环境下的两个图，和表示两个在不同环境下有很高互信息的两个图，例如。同时假设为与环境相同标签不同的一个图，那么我们需要满足。

例如，假设上面的房子连接六边形环为，房子连接田字型为，五边形环连接田字型为，那么我们尽可能让房子连接六边形环的图与房子连接田字型的图互信息最大化，让房子连接田字型和五边形环连接田字型互信息最小化，根据的性质可以得到如下优化目标：

我们假设所有的子图的大小是相等的，即，这样我们可以强制预测得到的子图节点数少于。在实际中，由于变量 C 时不可知的，由于 C 和 Y 在 FIIF 和 PIIF SCMs 中都存在着因果关系，所以我们可以利用 Y 来代替上述公式中的 C。

并且如果我们最大化和，那么就会自动的被最小化，因为若没有被最小化，则所有的类别会变得不可区分。结合上述分析，我们可以将 3.2 的优化目标转化成下述目标：

由于中需要满足这个限制，我们提出了，该优化目标不需要满足此限制。在中，我们进一步讨论的性质，在 FIIF 和 PIIF SCMs 中，都有可能包含 Y 的信息，当最大化和的过程中，并不会影响该优化过程，但是这样会损失掉中的一些信息，故在中加入了最大化与 Y 的互信息这一项，即

其中表示训练集中与有相同标签的图。

2.4 实验

首先作者在生成数据集不同的偏差下进行实验，对比的 baseline 包括一些 OOD 的方法以及非 OOD 的方法，可以看到的效果提升比较明显。

此外作者还在真实数据上与 baseline 进行了对比，可以看到它们的方法效果不错。

总结

这两个工作都是将因果推理运用到图神经网络当中，同时解决的都是 OOD 问题，第一篇利用了最大化 ELBO 来对提高极大似然的下界，第二篇是从互信息的角度来分析并解决图上的 OOD 问题。从这两篇工作可以看出，将因果推理运用到图神经网络中往往是利用它去约束学习 GNN 的过程，使得学到的 GNN 能够更好的解决相应的问题。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

跟着南通住建局学“朝令夕改”

因果推理相关的图神经网络研究进展

OOD推荐系统下的因果表征学习

1.1 简介

1.2 符号声明与问题定义

1.2.1 符号声明

图 2 中的表示的可观测到的用户 features，如年龄和收入等，表示不可观测到的用户 features，如爱好等。、表示潜在的用户倾向，其中由用户特征、共同决定，仅由决定。D 表示的是点击或者购买等用户的交互信息。

1.2.2 问题定义

1.3 方法

最大化公式 3 中 ELBO 则可以提高公式 2 的上界，为了计算公式 3 中的 ELBO，文章中采用了 encoder 网络和 decoder 网络去拟合公式 3 中的 and 。

首先利用公式 4 拟合，即给定已知的交互数据 d 和用户表征，得到不可观测的用户表征。

再利用公式 5（decoder network），来拟合公式中的，由于积分计算起来较为复杂，文中采用公式 7 中的蒙特卡洛采样来近似。

在训练阶段，可以利用用户，和历史交互信息 d，以及 target d 来进行训练，从而得到 figure 4 中四个 MLP 的参数。

1.4 实验

学习图上因果不变表征分布外泛化

2.1 简介

2.2 通过因果的视角看图上的OOD泛化

2.2.1 问题定义

2.2.2 图生成过程

2.3 方法

为了使 GNN 能够学习从 G 中提取关于 C 的信息，本文提出了 CIGA 框架，明确地与假设 2.1 中的两个因果机制和对齐，即优化下面的公式 1：

最大化互信息相当于最小化损失函数，同时让得到的与环境独立等同于通过函数提取出与图上环境无关、不变的部分。

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

跟着南通住建局学“朝令夕改”

生成图片，分享到微信朋友圈

因果推理相关的图神经网络研究进展

OOD推荐系统下的因果表征学习

1.1 简介

1.2 符号声明与问题定义

1.2.1 符号声明

图 2 中的 表示的可观测到的用户 features，如年龄和收入等， 表示不可观测到的用户 features，如爱好等。、 表示潜在的用户倾向，其中 由用户特征 、 共同决定， 仅由 决定。D 表示的是点击或者购买等用户的交互信息。

1.2.2 问题定义

1.3 方法

最大化公式 3 中 ELBO 则可以提高公式 2 的上界，为了计算公式 3 中的 ELBO，文章中采用了 encoder 网络和 decoder 网络去拟合公式 3 中的 and 。

首先利用公式 4 拟合 ，即给定已知的交互数据 d 和用户表征 ，得到不可观测的用户表征 。

再利用公式 5（decoder network），来拟合公式中的 ，由于积分计算起来较为复杂，文中采用公式 7 中的蒙特卡洛采样来近似 。

在训练阶段，可以利用用户 ，和历史交互信息 d，以及 target d 来进行训练，从而得到 figure 4 中四个 MLP 的参数。

1.4 实验

学习图上因果不变表征分布外泛化

2.1 简介

2.2 通过因果的视角看图上的OOD泛化

2.2.1 问题定义

2.2.2 图生成过程

2.3 方法

为了使 GNN 能够学习从 G 中提取关于 C 的信息，本文提出了 CIGA 框架，明确地与假设 2.1 中的两个因果机制 和 对齐，即优化下面的公式 1：

最大化互信息相当于最小化损失函数 ，同时让得到的 与环境 独立等同于通过函数 提取出与图上环境无关、不变的部分。

您可能也对以下帖子感兴趣

图 2 中的表示的可观测到的用户 features，如年龄和收入等，表示不可观测到的用户 features，如爱好等。、表示潜在的用户倾向，其中由用户特征、共同决定，仅由决定。D 表示的是点击或者购买等用户的交互信息。

首先利用公式 4 拟合，即给定已知的交互数据 d 和用户表征，得到不可观测的用户表征。

再利用公式 5（decoder network），来拟合公式中的，由于积分计算起来较为复杂，文中采用公式 7 中的蒙特卡洛采样来近似。

在训练阶段，可以利用用户，和历史交互信息 d，以及 target d 来进行训练，从而得到 figure 4 中四个 MLP 的参数。

为了使 GNN 能够学习从 G 中提取关于 C 的信息，本文提出了 CIGA 框架，明确地与假设 2.1 中的两个因果机制和对齐，即优化下面的公式 1：

最大化互信息相当于最小化损失函数，同时让得到的与环境独立等同于通过函数提取出与图上环境无关、不变的部分。