查看原文
其他

【综述专栏】IJCAI 2021| 基于图学习的推荐系统综述

在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。

来源:知乎—Plum
地址:https://zhuanlan.zhihu.com/p/378507986

本文给大家介绍一篇被今年IJCAI 2021接收的基于图学习的推荐系统的综述文章《Graph Learning based Recommender Systems: A Review》。附上论文的arxiv地址:

https://arxiv.org/pdf/2105.06339.pdf

论文简介

这篇文章对近些年有关图学习推荐系统的论文进行总结提炼。

1. 首先从数据驱动的角度对图学习推荐系统可能用到的输入数据进行分类,并且系统阐述了各类数据的特征,以及它们应用在推荐系统上所面临的挑战;

2. 接着文章又对现有的基于图学习的推荐系统相关方法进行了分类总结,简单介绍了各类方法的基本思想;

3. 最后文章又列举了近几年比较有代表性的基于图学习的推荐模型,以及一些图学习可能会运用到的公开数据集,并且为读者指明了未来在该领域可能的研究方向。


01

引言(背景介绍)

1.1 动机:为什么图学习可以应用在推荐系统上?

1) 推荐系统中的大部分数据包含图结构,如下图,现实生活中人、物品等对象都会通过明确或者隐性的关系与其他的对象相连接。

现实中的用户与物品群体间的连接关系

2) 图学习有超强的能力从图结构中学习复杂的关系,图学习在不同种类的图上获取知识嵌入已经展示了巨大的潜力。

1.2 图学习问题的定义

图结构的定义:  
其中,  表示图中的结点,可以指代用户、物品、物品属性等对象。  表示图中的边,指代对象之间的关系,如购买、点击等。
问题定义:
如该公式所示,GLRS模型构造并训练生成具有最优模型参数  的最优推荐结果  ,其中最优模型参数  可以从  的拓扑和内容信息中学习到。此处的  为最大效益函数,可为RMSE(均方根误差)。此处的个人见解:因为论文中为argmax求最大化函数值的自变量参数  的值,所以此处的R应当表示最优的模型参数值,而非最优的推荐结果。

02

数据特征与挑战
推荐系统中有三种关键对象(object),用户、物品与用户-物品的交互,被推荐系统管理的数据都与它们有关。一般来说,推荐系统中的数据可以大致分为两种类型:用户-物品交互数据、辅助信息(side information)。又根据是否记录了交互的时间顺序,将交互数据分为一般交互数据(general interaction data)与序列交互数据(sequential interaction data)。Table 1为所有数据信息的大纲图,每一类数据分为几个小类、每类数据用到不同的图来表示,表中又列举了使用各类数据的一些推荐算法。

数据的分类

2.1 一般交互数据
简介
一般交互数据可以用一个交互矩阵来进行表示,矩阵每一行代表一个用户,每一列代表一个物品,根据交互类型的不同,它又可以分为Explicit interaction(矩阵记录用户对物品的评分)和implicit interaction(矩阵只记录用户对物品的点击,浏览等操作)。
二部图表示
这两种交互矩阵都可以用 bipartite graph来表示,根据前面的交互类型不同分为Weighted bipartite graph 和 Unweighted bipartite graph 。

用户与物品交互的二部图表示[2]
二部图表示的优点
大部分的用户只会与一小部分物品进行交互,矩阵补全的方法会面临数据稀疏性问题和冷启动问题。基于二部图的方法通过使信息在节点间广泛传播,以较少的交互丰富用户和项目的信息,缓解了这些问题。
面临挑战
如何在用户或项目之间有效地传播信息?因为用户或项目之间不存在直接连接,信息需要通过多阶邻居节点传播。

2.2 序列交互数据

简介
序列交互数据集合是在给定时间段内注册的用户与物品交互(例如点击,购买)的序列的集合,并且按照时间戳进行排序。根据交互类型的不同可以分为单类型交互(例如只有点击)与多类型交互(点击和购买)。现实中常见的是多类型交互。
有向图表示
序列交互数据集可以表示为有向图,其中每个交互序列对应于图中的一条路径。序列交互数据往往用在序列推荐上,它根据用户的历史序列行为来预测可能的下一个行为。
序列交互数据的有向图表示[3]
有向图表示的优点
在有向图上构建序列推荐模型的优势在于图学习的强大能力,可以表示和建模一系列交互中最复杂的转换。通常存在这样复杂的转换,这些转换在序列交互上偏离了简单的单向连续时间序列模式 ,尤其是当一个序列中有多个相同的交互时。这种转换可以通过图中的多向连接很好地表示,并且可以通过图学习中,来自不同方向的邻居节点的信息聚合,很好地学习这样的转换。
面临的挑战
如何构建一个图以有效地表示具有最小信息损失的序列交互数据,以及如何在图上传播信息以有效地对最复杂的转换进行建模。

2.3 辅助信息

辅助信息的子类比较杂,笔者在此做了个表格简单的概括了下各个子类的内容。
辅助信息分类

03

GLRS方法分类
现有的基于图学习的推荐算法主要分为划分如下图:
GLRS方法分类

04

GLRS算法举例及数据集

4.1 GLRS算法

论文中选举了一些近几年有代表性的GLRS方法的论文,并且对它们的数据,学习任务,使用的方法,出处,源码地址进行简单说明,方便读者之后深入去研究各类算法。
GLRS算法举例
4.2 GLRS相关数据集
图学习中需要用到的数据集如下表所示:
GLRS数据集

05

未来的研究方向
伴随着动态图学习的自我演变RS
在现实世界的 RS 中,用户、物品以及它们之间的交互会随着时间的推移而不断发展 。这产生了具有动态拓扑结构的图,这种动态可能会对用户和需求建模产生直接影响,甚至会导致推荐结果随时间发生明显变化
使用因果关系图学习的可解释性RS
causal inference 是一种用于发现对象或动作之间因果关系的主要技术。尽管在可解释的 RS 方面取得了一些进展,但离完全理解用户选择行为背后的原因和意图还很远,这又恰恰是做出可靠和可解释的推荐的关键步骤。
使用多元图学习的跨域RS
跨域 RS 中的交互可以用多元图表示,其中节点可能与其他层中的其他节点互连,也可能不互连。因此,新一代跨域 RS 可能与多重图学习一起使用。
使用大规模图学习的高效率在线RS
在线RS中一个不可避免的问题是数据的规模,这往往很大,导致时间和空间成本都很高,因此发明高效率的算法是有必要的。


06

结论
作为人工智能 (AI) 最重要的应用之一,推荐系统 (RS) 几乎可以在我们日常生活的每个角落找到。图学习(GL)作为最有前途的人工智能技术之一,已经显示出强大的能力来学习由推荐系统管理的各种对象之间的复杂关系。这推出了一个全新的 RS 范式:基于图学习的推荐系统(GLRS),它具有成为下一代 RS 的巨大潜力。我们希望这篇综述为学术界和工业界提供了对 GLRS 的最新进展、挑战和未来研究方向的全面和独立的概述。

参考资料

[1] Wang S, Hu L, Wang Y, et al. Graph Learning based Recommender Systems: A Review[J]. arXiv preprint arXiv:2105.06339, 2021.
[2]Wang X, He X, Cao Y, et al. KGAT: Knowledge graph attention network for recommendation[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 950-958.
[3]Wu S, Tang Y, Zhu Y, et al. Session-based recommendation with graph neural networks[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 346-353.
[4]当推荐系统遇上图学习:基于图学习的推荐系统最新综述

后记

笔者目前大四即将毕业,未来将在某末流985从事推荐算法的研究,之后大概率会向推荐系统中图机器学习或因果推断等方向深入。这是笔者的第一次公开论文笔记,由于本人才疏短浅,水平有限,难免会有不足之处,若蒙读者诸君不吝告知,将不胜感激!

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“综述专栏”历史文章


更多综述专栏文章,

请点击文章底部“阅读原文”查看



分享、点赞、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存