WWW 2023 | 自动化自监督推荐系统

Original 夏良昊 PaperWeekly 2024-01-11

©PaperWeekly 原创 · 作者 | 夏良昊

单位 | 香港大学

研究方向 | 推荐系统

论文题目:

Automated Self-Supervised Learning for Recommendation

收录会议：

WWW 2023

论文链接：

https://arxiv.org/abs/2303.07797

代码链接：

https://github.com/HKUDS/AutoCF

港大数据智能实验室

https://sites.google.com/view/chaoh

研究背景

推荐系统通过学习用户的个性化兴趣便好来为用户推荐适合的商品，从而帮助用户缓解信息过载问题，在信息流应用、电商、线上广告等场景下起到了非常重要的作用。推荐系统的关键在于基于历史观测数据，对用户-商品交互记录进行有效的建模。

如今已有多种协同过滤（Collaborative Filtering, CF）方法，对用户、商品进行隐式表征学习，例如矩阵分解、自编码器、注意力机制。基于图结构数据，图神经网络（GNN）通过迭代式信息传播进行高阶关系学习，已经成为了 CF 任务效果最好的模型框架之一。

然而，这些方法的成功很大程度上依赖于充足的标签数据，在面对稀疏和含噪的观测数据时，不能产生准确的用户、商品表征。最近，在计算机视觉、自然语言处理领域，产生额外监督信号的对比自监督学习方法在缓解标签数据不足方法取得了令人瞩目的成就。受到这一启发，最近的推荐系统研究提出了不同的对比学习方法，来缓解标签稀疏问题。

然而，现有的对比学习方法仍然十分依赖手动生成对比学习视图的可靠性。现有方法的有效性取决于生成的对比视图是否含有噪声、适合下游任务和数据集。在不同的推荐场景中为对比学习生成准确的数据增强视图是十分具有挑战的，现有的手工数据增强方法不可避免地会引入噪声和与下游任务无关的信息，从而影响自监督学习的有效性。

具体来说，现有的基于随机图结构或标准扰动的自监督推荐方法（如 SGL、SimGCL）可能会丢失重要的结构信息（如冷启动用户仅有的交互记录）并保留噪音信息（如误点和受到流行度 bias 影响的交互）。

为了更直观地展示这一现有工作的局限性，我们测试了不同方法在不同噪音程度、和不同长尾程度的数据集上的表现，比较的方法包括本文的 AutoCF 方法以及几个现有最好的基线方法，结果如下图所示。可以观察到，基线方法面对愈发增多的数据噪音，模型效果出现了显著更为严重的衰退，而在不同的长尾分布上，基线方法也表现出了效果的退化。

由此可以看出，现有的自监督推荐系统受限于手工数据增强方法，无法自适应于不同的数据和场景，产生高质量的自监督学习信号。考虑到上述现有方法的局限性，我们认为亟需一种统一的自监督学习推荐系统，不仅能够自动化、自适应生成无噪的自监督学习信号，也能够进一步减轻人工设计和调试数据增强方式的开销。为了实现这一点，本文试图回答这一问题：是否存在一种方式，能够自动化提炼重要的自监督信号，用于自适应的数据增强？

启发于生成式自监督学习方法的成功，我们提出了一种自动化的自监督数据增强方法，能够通过 Masked Autoencoding 的方式增强基于图神经网络的协同过滤方法。本文主要致力于解决以下几个技术问题：

如何自动化提炼对推荐任务更有帮助的自监督信号？
如何使图结构数据增强的过程可学习以保留重要的协同关系？
如何设计图自编码器框架，以利用全局信息进行更好的图重建？

为了解决上述问题，我们提出了 Automated Collaborative Filtering（AutoCF）框架，能够提炼自适应于图结构的自监督信号来促进图神经协同过滤方法。具体来说，我们设计了一种可学习的掩码函数，能够自动找出重要的子图中心节点，进行 masking 和重建。在学习掩码阶段，AutoCF 根据节点和它周围子图的语义一致性来判断该节点周围图结构的噪声程度。另外，我们提出了一种新的 Masked Graph Autoencoder 来进行全局关系学习和图重建。

总的来说，本文主要做出了以下贡献：

分析了现有对比自监督推荐系统面对噪音扰动鲁棒性不足的问题，并指出了其不能自适应生成有效自监督信号的缺点。
提出了一种自动化的自监督学习模型 AutoCF，包括一种用于自动化生成自监督学习信号的可学习掩码框架。另外，该自动化数据增强方法与一种全局 Masked Graph Autoencoder 结合，以进行有效的生成式自监督学习。
在多个数据集上通过实验展示了 AutoCF 方法相对于现有的 GNN 和自监督推荐模型的优势。

模型介绍

本章介绍所提出的 AutoCF 模型，主要包括自动化图增强模块和 Masked Graph Autoencoder 模块，模型整体框架如下图所示。

2.1 自动化图增强

为了基于用户商品交互图生成有效的自监督学习信号，我们提出对图中重要且不含噪声的子图结构进行先掩藏（mask）再重建的生成式自监督任务。使这一过程可学习且自适应的关键，在于找出图中适合的子图中心节点，其周围的子图结构将被掩藏并用于重建训练。

为了自动化地选择出重要的子图中心节点，并降低进行重建的子图所包含的噪音含量，我们提出使用中心节点及其子图的互信息大小来衡量子图中节点的语义一致性。

具体来说，我们计算每个中心节点及跳邻居的互信息大小，互信息越大，则中心节点和周围子图的表征更加一致，也就意味着该子图内所有节点的表征更加相近，这一子图结构中的边也就更加代表着节点间的语义相关性。通过这种方法，我们可以挑选出噪音较少的子图进行掩藏重建。基于这一子图一致性分数，我们引入 Gumbel 分布噪声进行扰动，以增强掩藏子图挑选的随机性，增加模型的自监督信号。

2.2 Masked Graph Autoencoder

在得到上文的自适应图增强样本后，AutoCF 采用 Masked 图自编码器网络对图增强样本中的被掩藏部分进行重建。在我们的自动化图增强的帮助下，被掩藏的子图结构包含较少的噪声，通过对这些重要的图结构进行重建，AutoCF 的图自编码任务可以产生更多的有效自监督信号，从而增强对模型参数的优化效果。具体来说，在编码阶段，AutoCF 采用图卷积网络对被掩码的图增强样本进行高阶关系学习，从而编码图增强样本中残余的重要结构信息。

在解码阶段，AutoCF 采用一种全局图自注意力机制，对所有可能的节点间连接关系进行采样后，进行全局信息传播，以利用全局信息弥补图数据增强中丢失的重要结构信息。其中图自注意力机制所用的图结构包括了经过掩藏后剩余的图结构，以及随机采样得到的结构。在这一图结构之上，采用自注意力机制的多头点积注意力计算方式，进行全局信息传播的计算。

2.3 模型优化

本文采用多任务优化方式，同时优化 5 种训练目标，其中 3 种自监督任务包括：最大化节点与子图表征互信息、最大化对掩藏边的重建预测、推远任意节点表征的对比损失。此外，AutoCF 还进行了推荐任务的用户-商品关系预测，以及参数衰减的正则化。

实验结果

我们在 Gowalla、Yelp、Amazon 三个数据集上进行了对比实验，总体实验效果如下所示，本文的 AutoCF 在三个数据集上均取得了显著优于基线方法对效果。且相对于其他自监督学习方法，AutoCF 取得了显著的进一步效果提升，这验证了自动化数据增强方式带来的收益。同时，在不同稀疏度的子数据集上，AutoCF 的推荐效果保持了相对基线方法的优势。

此外，我们随机选取一些用户进行样例学习，发现 AutoCF 所给出的互信息分数的高低，可以一定程度上反映该用户的行为是否可能包含噪声。同时，该分数所找出的低噪音子图和高噪音子图，也在子图中节点 embedding 上有所体现。样例学习结果如下图所示。

左侧展示了三个随机挑选的用户，其中前两人的互信息分数较高，其交互的场所/商家服务也具有较强的语义一致性。而第三个人具有明显相对较低的互信息分数，通过查看其行为记录，可以发现他同时交互过多伦多和拉斯维加斯这两个距离较远城市的商家，并且这些商家也具有相对更高的多样性因而不具有明显一致的用户兴趣。

下图右侧则展示了互信息分数最高的子图和最低的子图中多个节点的表征向量热度可视化结果。上方互信息较高的子图中，所有节点的表征表现出高度的一致性；与之相对，下方互信息较低的子图中则存在非常多样化的节点表征。这一的样例展现出了我们的互信息分数能够有效地选取节点表征一致的子图结构进行重建。

总结

本文确认了现有自监督推荐系统的局限性，并探索了在图协同过滤框架下进行自动化自监督学习的模型设计。本文提出的 AutoCF 模型能够自动化地生成自监督信号，增强 Masked Graph Autoencoding 自监督任务，从而有利于下游推荐任务的效果。

本文采用了一种基于局部-全局互信息的自适应图增强方法，能够有效提取重要、无噪的图结构信息，避免噪音和无关信息对自监督学习带来的负面影响。在实验中，我们验证了 AutoCF 模型相对于现有自监督推荐模型的效果优势，并验证了我们的自适应数据增强方法的合理性和可解释性。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

紧急呼救！上海报恩寺普渡众生身陷困境，恳请大家伸出援手共渡难关！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

13岁！史上最严重霸凌案宣判，如何亡羊补牢？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

WWW 2023 | 自动化自监督推荐系统

论文题目:

收录会议：

论文链接：

代码链接：

港大数据智能实验室

您可能也对以下帖子感兴趣

紧急呼救！上海报恩寺普渡众生身陷困境，恳请大家伸出援手共渡难关！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

13岁！史上最严重霸凌案宣判，如何亡羊补牢？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

生成图片，分享到微信朋友圈

WWW 2023 | 自动化自监督推荐系统

论文题目:

收录会议：

论文链接：

代码链接：

港大数据智能实验室

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡