WWW 2023 | 自动化自监督推荐系统
论文题目:
Automated Self-Supervised Learning for Recommendation
收录会议:
WWW 2023
论文链接:
https://arxiv.org/abs/2303.07797
代码链接:
https://github.com/HKUDS/AutoCF
港大数据智能实验室
https://sites.google.com/view/chaoh
研究背景
推荐系统通过学习用户的个性化兴趣便好来为用户推荐适合的商品,从而帮助用户缓解信息过载问题,在信息流应用、电商、线上广告等场景下起到了非常重要的作用。推荐系统的关键在于基于历史观测数据,对用户-商品交互记录进行有效的建模。
如今已有多种协同过滤(Collaborative Filtering, CF)方法,对用户、商品进行隐式表征学习,例如矩阵分解、自编码器、注意力机制。基于图结构数据,图神经网络(GNN)通过迭代式信息传播进行高阶关系学习,已经成为了 CF 任务效果最好的模型框架之一。
然而,这些方法的成功很大程度上依赖于充足的标签数据,在面对稀疏和含噪的观测数据时,不能产生准确的用户、商品表征。最近,在计算机视觉、自然语言处理领域,产生额外监督信号的对比自监督学习方法在缓解标签数据不足方法取得了令人瞩目的成就。受到这一启发,最近的推荐系统研究提出了不同的对比学习方法,来缓解标签稀疏问题。
然而,现有的对比学习方法仍然十分依赖手动生成对比学习视图的可靠性。现有方法的有效性取决于生成的对比视图是否含有噪声、适合下游任务和数据集。在不同的推荐场景中为对比学习生成准确的数据增强视图是十分具有挑战的,现有的手工数据增强方法不可避免地会引入噪声和与下游任务无关的信息,从而影响自监督学习的有效性。
具体来说,现有的基于随机图结构或标准扰动的自监督推荐方法(如 SGL、SimGCL)可能会丢失重要的结构信息(如冷启动用户仅有的交互记录)并保留噪音信息(如误点和受到流行度 bias 影响的交互)。
由此可以看出,现有的自监督推荐系统受限于手工数据增强方法,无法自适应于不同的数据和场景,产生高质量的自监督学习信号。考虑到上述现有方法的局限性,我们认为亟需一种统一的自监督学习推荐系统,不仅能够自动化、自适应生成无噪的自监督学习信号,也能够进一步减轻人工设计和调试数据增强方式的开销。为了实现这一点,本文试图回答这一问题:是否存在一种方式,能够自动化提炼重要的自监督信号,用于自适应的数据增强?
启发于生成式自监督学习方法的成功,我们提出了一种自动化的自监督数据增强方法,能够通过 Masked Autoencoding 的方式增强基于图神经网络的协同过滤方法。本文主要致力于解决以下几个技术问题:
如何自动化提炼对推荐任务更有帮助的自监督信号? 如何使图结构数据增强的过程可学习以保留重要的协同关系? 如何设计图自编码器框架,以利用全局信息进行更好的图重建?
为了解决上述问题,我们提出了 Automated Collaborative Filtering(AutoCF)框架,能够提炼自适应于图结构的自监督信号来促进图神经协同过滤方法。具体来说,我们设计了一种可学习的掩码函数,能够自动找出重要的子图中心节点,进行 masking 和重建。在学习掩码阶段,AutoCF 根据节点和它周围子图的语义一致性来判断该节点周围图结构的噪声程度。另外,我们提出了一种新的 Masked Graph Autoencoder 来进行全局关系学习和图重建。
分析了现有对比自监督推荐系统面对噪音扰动鲁棒性不足的问题,并指出了其不能自适应生成有效自监督信号的缺点。 提出了一种自动化的自监督学习模型 AutoCF,包括一种用于自动化生成自监督学习信号的可学习掩码框架。另外,该自动化数据增强方法与一种全局 Masked Graph Autoencoder 结合,以进行有效的生成式自监督学习。 在多个数据集上通过实验展示了 AutoCF 方法相对于现有的 GNN 和自监督推荐模型的优势。
模型介绍
为了基于用户商品交互图生成有效的自监督学习信号,我们提出对图中重要且不含噪声的子图结构进行先掩藏(mask)再重建的生成式自监督任务。使这一过程可学习且自适应的关键,在于找出图中适合的子图中心节点,其周围的子图结构将被掩藏并用于重建训练。
为了自动化地选择出重要的子图中心节点,并降低进行重建的子图所包含的噪音含量,我们提出使用中心节点及其子图的互信息大小来衡量子图中节点的语义一致性。
在得到上文的自适应图增强样本后,AutoCF 采用 Masked 图自编码器网络对图增强样本中的被掩藏部分进行重建。在我们的自动化图增强的帮助下,被掩藏的子图结构包含较少的噪声,通过对这些重要的图结构进行重建,AutoCF 的图自编码任务可以产生更多的有效自监督信号,从而增强对模型参数的优化效果。具体来说,在编码阶段,AutoCF 采用图卷积网络对被掩码的图增强样本进行高阶关系学习,从而编码图增强样本中残余的重要结构信息。
实验结果
此外,我们随机选取一些用户进行样例学习,发现 AutoCF 所给出的互信息分数的高低,可以一定程度上反映该用户的行为是否可能包含噪声。同时,该分数所找出的低噪音子图和高噪音子图,也在子图中节点 embedding 上有所体现。样例学习结果如下图所示。
左侧展示了三个随机挑选的用户,其中前两人的互信息分数较高,其交互的场所/商家服务也具有较强的语义一致性。而第三个人具有明显相对较低的互信息分数,通过查看其行为记录,可以发现他同时交互过多伦多和拉斯维加斯这两个距离较远城市的商家,并且这些商家也具有相对更高的多样性因而不具有明显一致的用户兴趣。
本文采用了一种基于局部-全局互信息的自适应图增强方法,能够有效提取重要、无噪的图结构信息,避免噪音和无关信息对自监督学习带来的负面影响。在实验中,我们验证了 AutoCF 模型相对于现有自监督推荐模型的效果优势,并验证了我们的自适应数据增强方法的合理性和可解释性。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧