ICML 2023 | 对多重图进行解耦的表示学习方法

焦子豪 PaperWeekly

2024-08-22

©作者 | 焦子豪

单位 | 南京邮电大学

Introduction

无监督多重图表示学习（UMGRL）受到越来越多的关注，但很少有工作同时关注共同信息和私有信息的提取。在本文中，我们认为，为了进行有效和鲁棒的 UMGRL，提取完整和干净的共同信息以及更多互补性和更少噪声的私有信息至关重要。

为了实现这一目标，我们首先研究了用于多重图的解缠表示学习，以捕获完整和干净的共同信息，并设计了对私有信息进行对比约束，以保留互补性并消除噪声。此外，我们在理论上分析了我们方法学到的共同和私有表示可以被证明是解缠的，并包含更多与任务相关和更少与任务无关的信息，有利于下游任务。大量实验证实了所提方法在不同下游任务方面的优越性。

论文标题：

Disentangled Multiplex Graph Representation Learning

论文链接：

https://openreview.net/pdf?id=lYZOjMvxws

代码链接：

https://github.com/YujieMo/DMG

Motivation

以前的 UMGRL 方法旨在隐式提取不同图之间的共同信息，这对于揭示样本的身份是有效和鲁棒的。然而，它们通常忽视了每个图的私有信息中的互补性，并可能失去节点之间的重要属性。

例如，在多重图中，其中论文是节点，边代表两个不同图中的共同主题或共同作者。如果一个私有边（例如，共同主题关系）仅存在于某个图中，并连接来自相同类别的两篇论文，它有助于通过提供互补信息来降低类内差距，从而识别论文。因此，有必要同时考虑共同信息和私有信息，以实现 UMGRL 的有效性和鲁棒性。

基于有助于识别样本的共同信息，捕获不同图之间的所有共同信息（即完整的）是直观的。此外，这种完整的共同信息应该仅包含共同信息（即干净的）。相反，如果共同信息包含其他混淆的内容，共同信息的质量可能会受到损害。

因此，第一个问题出现了：如何获得完整和干净的共同信息？另一方面，私有信息是互补性和噪声的混合。考虑引文网络的同一个示例，如果私有边连接来自不同类别的两篇论文，它可能会干扰消息传递，应该作为噪声被删除。因此，第二个问题出现了：如何保留私有信息中的互补性并去除噪声？

然而，以前的 UMGRL 方法很少探讨了上述问题。最近，已经开发了解耦表示学习方法，以获得共同和私有表示，但由于多重图中节点之间的复杂关系以及图结构中的互补性和噪声，将它们应用于解决 UMGRL 中的上述问题是具有挑战性的。为此，我们提出了一种新的解耦多重图表示学习框架，以回答上述两个问题。

Method

Notations

表示多重图，表示多重图中的第张图，表示图的数量。

本文模型 DMG 首先通过一个共同变量学习到经过解耦的共同表示以及私有表示，接着获取到融合表示。

3.1 Common Information Extraction

以前的 UMGRL 方法（例如，图之间的对比学习方法）通常通过最大化两个图之间的互信息来隐式捕获不同图之间的共同模式。例如，为了提取共同信息，STENCIL（Zhu等人，2022）最大化每个图与聚合图之间的互信息，而 CKD（Zhou等人，2022）最大化不同图中区域表示和全局表示之间的互信息。

然而，由于它们未能将共同信息与私有信息解耦，因此这些努力不能明确地捕获完整且干净的共同信息。为了解决这个问题，本文研究了解耦表示学习，以获得完整且 clean 的共同信息。

具体地，首先使用图卷积层生成节点表示：

表示一个带权重的自环；表示度矩阵；表示卷积层的权重矩阵。

接着使用 MLP 来促进每张图共同和私有信息的解耦过程，分别将节点嵌入映射为共同表示和私有表示。

给定每张图的共同表示，对齐这些表示最简单的方法使让它们彼此相等。然而这样做会影响共同表示的质量。在本文中，我们通过奇异值分解操作引入了一个具有正交性和零均值的公共变量到共同表示中。然后，我们对公共表示与公共变量之间进行匹配损失，旨在逐渐对齐来自不同图的共同表示，以捕获它们之间的完整共同信息。匹配损失的公式如下：

的作用是作为所有图共同表示之间的一个桥梁，使得这些表示具有较好的一致性：。

然后，为了解耦公共和私有表示，我们必须强化它们之间的统计独立性。值得注意的是，如果公共和私有表示在统计上是独立的，那么必须满足：

显然，通过最小化之间的相关性，可以实现公共和私有表示之间的独立性。特别是，相关性损失是通过计算 Pearson 相关系数来获得的，即：

我们期望通过匹配损失（即获得完整的共同信息）和相关性损失（即获得干净的共同信息）来获得清晰的共同表示中的共同信息。然而，在无监督框架下，学得的共同和私有表示可能是微不足道的解决方案。

常见的解决方案包括对比学习方法和自编码器方法。对比学习方法引入大量负样本以避免微不足道的解决方案，但可能会引入大量的内存开销。自编码器方法采用自编码器框架，通过重构损失来促进编码器的可逆性，以防止微不足道的解决方案。然而，现有的图自编码器旨在重构直接的边缘，忽略了拓扑结构，并且计算成本高昂。

为了解决上述问题，我们研究了一种新的重构损失，以同时重构节点特征和拓扑结构。具体而言，我们首先将共同和私有表示连接在一起，然后使用重构网络获得重构的节点表示。我们进一步进行特征重构和拓扑重构损失，以分别重构节点特征和局部拓扑结构。因此，重构损失可以表述为：

，表示采样的邻居数。

在上式中第一项鼓励重构原始节点特征，第二项鼓励重构拓扑结构。

3.2 Private Information Constraint

私有信息是补充信息和噪音的混合物。因此，鉴于学习到的私有表示，我们希望进一步回答 3.1 节中的第二个问题，即保留补充信息并消除私有信息中的噪声。此外，多重图的私有信息主要位于每个图的图结构中，因为不同图的节点特征是从共享特征矩阵 X 生成的。因此，我们研究了在每个图结构中保留互补边并去除噪声边。

首先提供了以下有关图结构中补充信息和噪声的定义：

对图上的任意私有边，即，若节点对所属的类别相同，那么将是图的一条补充边，否则是一条噪声边。

根据定义 3.2，每个图中的私有信息分为两部分，即补充边和噪声边，根据节点对的类别。然而，在无监督方式下，节点标签不可用。为解决这个问题，在这项工作中，我们将节点对（vi, vj）的标签信息近似为共同变量之间的余弦相似度：

给定边集中所有节点对的余弦相似度，进一步假设具有最高相似度的节点对属于同一类，具有低相似度的节点对属于不同类。因此，对于连接节点的高相似性边是补充边，表示为，而对于连接节点的低相似性边是噪声边，表示为。直观地，应保留补充边，而应删除噪声边。

设计了一个对比模块，用于进行对比损失：

3.3 Objective Function

经过优化，预计所提出的 DMG 将获得完整且干净的公共表示，以及更多互补性和更少噪声的私有表示，以实现有效且稳健的 UMGRL）。然进行平均池化（LeCun等人，1989）来融合所有图的私有表示，以获得总体的私有表示 P，即

最后，我们将总体的私有表示 P 与共同变量 S 连接起来，获得最终的表示 Z。

Experiments

4.1 Node Classification

4.2 Node Clustering

4.3 Single-view graph datasets

Conclusion

本文提出了一个用于多重图的解耦表示学习框架。为实现这一目标，我们首先解耦了共同表示和私有表示，以捕获完整和干净的共同信息。我们进一步设计了对私有信息进行对比约束，以保留互补性并消除噪声。理论分析表明，我们方法学到的共同和私有表示可以被证明是解耦的，包含更多与任务相关的信息和更少与任务无关的信息，有利于下游任务。广泛的实验结果表明，所提出的方法在不同的下游任务中在有效性和鲁棒性方面始终优于现有方法。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

向上滑动看下一个

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

行游天地阅启新章｜Bloomberg Pursuits

ICML 2023 | 对多重图进行解耦的表示学习方法

Introduction

Motivation

Notations

表示多重图，表示多重图中的第张图，表示图的数量。

本文模型 DMG 首先通过一个共同变量学习到经过解耦的共同表示以及私有表示，接着获取到融合表示。

3.1 Common Information Extraction

3.2 Private Information Constraint

3.3 Objective Function

Experiments

4.1 Node Classification

4.2 Node Clustering

4.3 Single-view graph datasets

Conclusion

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

半年狂赚63亿了，微众银行董事长，还要卷员工

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

行游天地 阅启新章｜Bloomberg Pursuits

生成图片，分享到微信朋友圈

ICML 2023 | 对多重图进行解耦的表示学习方法

Introduction

Motivation

Notations

表示多重图，表示多重图中的第 张图，表示图的数量。

本文模型 DMG 首先通过一个共同变量 学习到经过解耦的共同表示以及私有表示 ，接着获取到融合表示。

3.1 Common Information Extraction

3.2 Private Information Constraint

3.3 Objective Function

Experiments

4.1 Node Classification

4.2 Node Clustering

4.3 Single-view graph datasets

Conclusion

您可能也对以下帖子感兴趣

行游天地阅启新章｜Bloomberg Pursuits

表示多重图，表示多重图中的第张图，表示图的数量。

本文模型 DMG 首先通过一个共同变量学习到经过解耦的共同表示以及私有表示，接着获取到融合表示。