TKDE 2020 | 面向严格冷启动推荐的属性图神经网络

原创梁贻乐 PaperWeekly 2022-07-04

收录于合集 #推荐系统 27个

©PaperWeekly 原创 · 作者｜梁贻乐

学校｜武汉大学硕士生

研究方向｜推荐系统

本文的主要贡献在于区分了推荐系统中的一般冷启动和严格冷启动，并提出了属性图神经网络方法有效应对严格冷启动的场景。基于属性或内容的推荐方法是应对新物品冷启动问题的经典手段，图神经网络可加强对邻居信息的利用，合适的网络结构使两者的效用得以充分发挥。大量实验证明该文方法为解决严格冷启动问题提供了一种可行的途径。

本文还对常用的 MovieLens 公开数据集进行了拓展，从 IMDb 网站为每部电影补充了导演、编剧、演员、国家等属性信息，拓展后的新数据集公布在下方链接，论文代码也已同时公布，可为后续研究基于属性的推荐方法提供参考。

论文标题：

Attribute Graph Neural Networks for Strict Cold Start Recommendation

论文作者：

钱铁云（武汉大学）、梁贻乐（武汉大学）、李青（香港理工大学）、熊辉（新泽西州罗格斯大学）

论文链接：

https://ieeexplore.ieee.org/document/9261110

代码及数据链接：

https://github.com/NLPWM-WHU/AGNN

摘要：评分预测是推荐系统的经典问题，近年来，基于深度学习的方法，特别是图神经网络在该问题上取得了显著进展。然而现有方法主要利用用户-商品的交互关系建模，其模型性能取决于交互的稠密度，而用户-商品的交互通常都是高度稀疏的。更严重的是，对于训练和测试阶段均无交互的严格冷启动用户/商品，已知方法很难获知该用户/商品的偏好表示。

针对上述挑战，我们提出了一个新框架 Attribute Graph Neural Networks（AGNN），利用属性图而不是交互图为严格冷启动用户/商品提供了学习表示的能力。AGNN 通过扩展的变分自编码器（eVAE）学习属性的分布，并为严格冷用户/商品生成偏好表示。

此外，我们设计了一个图神经网络变体 gated-GNN，用来有效聚合邻居中不同模态的各类属性。论文在三个真实数据集上进行实验，结果表明 AGNN 对严格冷启动推荐有显著的提升作用，其性能胜出已知常规方法、归纳式学习方法、元学习方法，以及图神经网络方法，在暖启动场景下也具有比现有方法更优或一致的性能。

引言

评分预测的目标是预测用户对商品的打分，常规的矩阵分解为每个用户/商品学习偏好表示，但在数据稀疏以及更极端的冷启动条件下（即严格冷启动：指新的用户/商品没有出现在任何训练数据中，且测试阶段也没有任何已知交互），其性能会迅速下降。

近年来，图神经网络（GNN）的发展为经典的评分预测问题提供了新的思路。然而，现有 GNN 类方法几乎都建立在用户-商品二部图上，其中节点表示用户/商品，边表示二者之间的交互，因此在没有交互边存在的严格冷启动场景下，上述 GNN 类方法难以奏效。

我们提出利用属性图来代替用户-商品交互图，并设计了一个新的框架—属性图神经网络（AGNN），使得对于严格的冷启动用户/商品也可以利用自身属性产生图结构。我们用图 1 的例子来阐述模型动机。

图 1 展示了用户对不同电影的历史评分行为。当一部新电影“Avengers”上映时，由于其没有包含在训练集中、且没有任何交互信息，属于严格的冷启动商品，预测用户对该电影的评分非常困难。幸运的是，电影存在诸如导演、类别等属性信息，此外具有相似属性的电影可以形成一个图结构，用于传递偏好信息，例如从“Captain America”到“Avengers”。用户的属性也可类似处理。

在属性图的框架下，如何将属性表示转换为偏好表示、以及如何在邻居节点中聚合不同模态的各类属性是亟待解决的关键问题。为此我们提出了 eVAE 结构，用于从冷启动节点的属性分布中推断其偏好表示，我们还设计了 gated-GNN 结构，用于聚合不同属性的邻居节点时获取更精准的权重分配。

问题定义

给出用户-商品评分矩阵，三种场景的评分预测设置如图 2 所示。

暖启动：为用户-商品预测未知的打分，其中用户/商品存在于交互矩阵 R 中，并且用户/商品包含交互历史。
一般冷启动：为用户-商品预测未知的打分，其中用户/商品不在交互矩阵 R 中，但测试时可得到用户/商品交互信息。
严格冷启动：为用户-商品预测未知的打分，其中用户/商品不在交互矩阵 R 中，并且测试时用户/商品也不包含任何交互，但其存在属性信息，我们尤其关注于该场景。

方法-AGNN

我们提出的 AGNN 框架如图 3(a) 所示，模型总体分为四部分：

1）Input layer，构造属性图；

2）Attribute interaction layer，学习节点中的属性交互得到统一表示，并通过 eVAE 为冷启动节点生成偏好表示；

3）Gated GNN layer，在邻居间聚合复杂的节点表示；

4）Prediction layer，计算用户-商品的预测分数。

3.1 Input layer

我们按照相似度的方式构造属性图，包含偏好相似度和属性相似度。偏好相似度用节点的历史打分记录计算，属性相似度由节点的多种属性计算，其中相似度由余弦相似度衡量：

我们设计了动态图构造策略，对于每个节点先取 top p% 相似的节点加入候选池，每轮训练时再根据相似度的大小从中采样邻居节点。

3.2 Attribute Interaction Layer

对于每个输入的节点，包含 multi-hot 属性编码、以及独立标识的 one-hot 编码。对于属性编码，我们通过 Bi-interaction pooling 和线性变换去捕捉属性间的高阶、低阶交互，并将二者结合：

我们融合了属性表示、偏好表示（one-hot ID 映射为 embedding）作为初始的节点表示。

注意到，由于冷启动节点不存在任何交互，因此它对应的偏好表示是无意义的、没有在训练过程中被更新。为此，我们提出了 eVAE 结构通过属性表示重构冷启动节点的偏好表示。eVAE 结构如图 3(b) 所示，它包括 inference、generation 和 approximation 三部分。

前两部分属于标准的 VAE，我们在扩展的 approximation 部分中约束重构的属性表示去近似为偏好表示。在训练过程中，因为用户/商品存在历史打分，所以有意义的偏好表示可被利用来训练 eVAE。综上，我们提出的 eVAE 重构损失定义如下：

3.3 Gated-GNN Layer

对一个节点而言，不同的邻居具备不同的影响力，此外邻居节点由多种属性组成，因此有必要对邻居节点的不同维度给予特定关注。我们设计了如图 4 所示的 gated-GNN 结构以精准聚合细粒度的邻居信息。

为了更好地捕捉网络中的同质现象，我们用 aggregate gate 控制哪些信息应该从邻居节点聚集到目标节点：

此外，我们进一步通过 filter gate 将与邻居节点总体表示不一致的信息进行过滤：

结合两部分信息我们可以得到最终的节点表示：

3.4 Prediction Layer

在获得最终的用户/商品表示后，我们将二者的预测打分建模为：

模型的损失函数定义为评分预测任务的平方损失、以及 eVAE 的重构损失：

实验与分析

论文在三个真实数据集上进行了实验，数据集统计如表1所示：

4.1 总体结果

论文分别在商品冷启动、用户冷启动、暖启动的不同场景设置下进行实验，与 12 个经典或性能最好的方法进行了比较，采用 RMSE、MAE 作为评价指标。我们将 baseline 根据原论文所应用于的场景划分为三类：

暖启动（包含 NFM、DiffNet、DANSER、sRMGCNN、GC-MC）；
一般冷启动（包含 STAR-GCN、MetaHIN、IGMC）；
严格冷启动（包含 DropoutNet、LLAE、HERS、MetaEmb）。

其中，NFM 属于常规方法，MetaHIN、MetaEmb 采用了元学习方法，DiffNet、DANSER、sRMGCNN、GC-MC、STAR-GCN、IGMC、HERS 均利用了图神经网络结构，而 STAR-GCN、IGMC 同时也是归纳式学习方法，DropoutNet 和 LLAE 分别通过 dropout 技术和自编码器对冷启动特殊处理。

在实验中，我们对所有 baseline 及 AGNN 使用相同的属性信息，并且一致采用严格冷启动的条件设置，以达到公平比较。实验结果如表 2 所示，AGNN 模型在严格冷启动场景下均取得了最佳结果，在暖启动场景中达到最好或次好的结果。

4.2 参数分析

论文分别对隐因子个数（D）、损失函数权重系数（λ）、候选邻居集合比例（p）进行了参数变换，结果如图 5、6、7 所示。

4.3 消融与替换实验

为了检查 AGNN 中每个组件的影响，我们分别对图构造方式、gated-GNN 图神经网络、eVAE 结构进行移除或替换。表 3、4 的结果证明了论文所提出组件的有效性。

4.4 冷启动比例对比

在严格冷启动场景下，越高的冷启动用户/商品比例意味着越少的用户、商品及其交互能被利用来训练。论文分别设置了 10%、30% 、50% 的冷启动比例，考察不同程度冷启动比例对性能的影响。结果如图 8 所示，可见在不同比例下 AGNN 性能始终优于几个强 baseline。

总结

本文为解决严格冷启动的评分预测任务提出了一个新颖的图神经网络框架 AGNN。我们首先强调利用属性图而不是交互图来解决严格冷启动问题的重要性；其次，我们构建了eVAE 结构，用于建模属性分布并推断偏好表示。

此外，我们设计了 gated-GNN 结构以解决在邻居间精确聚合各类信息的挑战。大量实验表明本文方法在严格冷启动场景下显著优于最先进的基线方法。

致谢：作者特别感谢匿名评审的宝贵意见，对提高论文质量有很大帮助。

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

TKDE 2020 | 面向严格冷启动推荐的属性图神经网络

引言

问题定义

方法-AGNN

3.1 Input layer

3.2 Attribute Interaction Layer

3.3 Gated-GNN Layer

3.4 Prediction Layer

实验与分析

4.1 总体结果

论文分别在商品冷启动、用户冷启动、暖启动的不同场景设置下进行实验，与 12 个经典或性能最好的方法进行了比较，采用 RMSE、MAE 作为评价指标。我们将 baseline 根据原论文所应用于的场景划分为三类：

4.2 参数分析

4.3 消融与替换实验

4.4 冷启动比例对比

总结

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下 一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

生成图片，分享到微信朋友圈

TKDE 2020 | 面向严格冷启动推荐的属性图神经网络

引言

问题定义

方法-AGNN

3.1 Input layer

3.2 Attribute Interaction Layer

3.3 Gated-GNN Layer

3.4 Prediction Layer

实验与分析

4.1 总体结果

论文分别在商品冷启动、用户冷启动、暖启动的不同场景设置下进行实验，与 12 个经典或性能最好的方法进行了比较，采用 RMSE、MAE 作为评价指标。我们将 baseline 根据原论文所应用于的场景划分为三类：

4.2 参数分析

4.3 消融与替换实验

4.4 冷启动比例对比

总结

您可能也对以下帖子感兴趣

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！