【源头活水】SIGIR'21微软|基于自监督图学习的推荐系统
The following article is from 秋枫学习笔记 Author 秋枫学习笔记
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
Self-supervised Graph Learning for Recommendation
https://dl.acm.org/doi/pdf/10.1145/3404835.3462862
01
本文为召回阶段所提出的相关方法。首先,基于图的推荐系统方法存在以下三个限制:
稀疏的监督信号:通常我们都是根据用户和item之间的交互来作为监督信号,但是这种交互相对于整个交互空间来说是非常稀疏的,导致无法学到足够好的表征。
数据分布倾斜:热门item的交互会更多,而冷门的长尾的item交互会更少,在图中的度会比较低,监督信号更少。这种长尾不平衡数据,分类器会倾向于多数类,导致长尾数据的推荐效果变得更差。
交互中存在噪声:对于隐式反馈,例如点击,查看。这些反馈可能是由于被误导而点击的,而不是用户真正感兴趣的。
为了解决上述难点,本文采用自监督学习构建辅助任务来发掘数据内部的信息,从而为节点产生更好的表征,主要包含以下两部分:
数据增强:为每个节点生成不同的视角
对比学习:使同一节点的不同视角具有一致性
02
如图所示为本文所提的自监督图学习(SGL)的主要流程,用自监督作为辅助任务从数据的相关性中挖掘内在的监督信号。
2.1 数据增强
在user-item的交互的二部图中,存在这样的关系。一阶关系可以反映user和item之间的交互关系,二阶关系可以反映user之间的相似性或item之间的相似性。更高阶的路径可以反映user对item的潜在兴趣。本节从这方面出发,设计了三个方案:node dropout,edge dropout,random walk,总体上可以表示为下式,其中s是从图G中随机选择得到,然后构建两个节点Z的相关视图。
2.2 对比学习
2.3 多任务学习
03
04
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“源头活水”历史文章
驾驶行为预测方法:分层自适应可迁移网络HATN
无监督异常检测场景下如何自动选择模型?
Graphormer:融合GNN与Transformer
[NAS论文][Transformer][预训练模型]精读NAS-BERT
NeurIPS 2021 | 助力半监督学习:一种课程伪标签方法FlexMatch和统一开源库TorchSSL
CPT:兼顾理解和生成的中文预训练模型
PointNet系列论文阅读与理解
基于视觉的在线地图:一种Transformer网络方法
VirTex:多模态预训练模型
CAMoE——屠榜video retrieval challenge
YOLOX解读与感想
ICCV‘21论文:通过概率建模深度检测目标的主动学习法
Few-shot 医学图像分割
当源任务和目标任务之间的相似度很低时,如何实现知识迁移?
联合检索和记忆块的多action的Dialog Policy Learning模型
更多源头活水专栏文章,
请点击文章底部“阅读原文”查看
分享、在看,给个三连击呗!