当图模型算法搭上推荐系统,百度是这样应用的
3. Feed 图模型演进历史
分享嘉宾|牛化康 百度 资深研发工程师
出品社区|DataFun
图背景介绍
节点分类(node classification),如对于某些节点用户是否会点击或购买 边预测(link prediction),如用户与用户是否相似、用户与 item 之间是否存在连接关系 社区发现(community detection),如特定热门社区挖掘 网络相似度判定(network similarity),如一种分子与另一种分子结构是否相似 图分类(graph similarity),如分子类型判定
02
常用图模型算法
1. 图嵌入算法(GE)
3. 算法比较
03
Feed 图模型演进历史
Feed 图模型共经历三个阶段。在 Item2Vec/User2Vec 第一阶段,用户表示为其一阶邻居,即用户点击过的 item 近邻的聚类中心。孪生网络第二阶段在第一阶段基础上引入度量学习,有监督地学习用户相似度,但其本质仍是使用用户的一阶邻居,尚未扩展到高阶。第三阶段使用基于图嵌入模型,在链接预测任务中注入高阶连接关系,提升整体连通性。
Feed 图模型于2019年在 Feed 召回完成的首次落地,并在后续相继推广的不同任务中均取得了很好的效果。图模型采用多任务学习的方式,统一学习多个场景和多个模态。多个场景包括单列、双列、视频沉浸式,不同资源类型拆开进行分别构图,如图文、动态、视频、小程序等,可更好地建模用户在各个场景、各个资源类型的行为,并将不同资源类型映射至同一个向量空间,为图模型应用打开更大的想象空间。
为了解决资源冷启动和低频资源冷启的问题,在资源侧引入 SideInfo 特征。由于推荐系统存在马太效应,部分节点占据大部分分发,导致一些节点频繁与其他节点共现并使推荐相关性变差。而另一部分节点出现频次过低,导致训练不充分,进一步降低后续曝光度。为解决该问题,引入流行度 Debias 策略,根据节点的流行度,决定游走概率。最后,图模型将多种节点类型,包括用户、item、query 等,映射至同一向量空间,很好地统一了多种召回模式,包括 UserCF、ItemCF、User2Item 等召回模式。Lookalike 召回关注在资源分发初期,根据点击该内容的用户,生成该资源的向量表示,在预热节点快速分发并匹配有需求的用户。
第一期使用“好看”用户的资讯与广告的点击数据构建异构图网络,通过高阶联通图结构隐式刻画用户和广告的关系,并使用 skip-gram 模式学习用户和广告的向量表达,最终使用 user 的向量直接召回广告。在现实世界中,用户对资源的点击数远远大于广告点击数,将导致网络中广告节点非常稀疏;同时网络中存在大量没有商业价值的资讯,对模型训练造成干扰。 第二期将用户点击资讯行为迁移到广告点击上,并丢弃无法迁移的资讯,使广告行为大为丰富,得到仅包含用户与广告的图网络,提升了训练样本的纯净度,使模型学习的 embedding 更精准,进而提升广告系统整体变现能力。 第三期将图网络应用于“好看”视频广告的召回上,即将用户侧行为直接用于召回广告。为进一步丰富用户行为、提升网络表达能力,将数据进一步扩充,在原有“好看”资讯与广告数据的基础上增加用户搜索行为数据、用户资讯点击数据、用户广告点击数据等。通过构建基于全局用户行为的图网络,进一步提升图模型对用户潜在兴趣和意图的提取能力。 第四期中为应对模型特征较单一、泛化性差,使得新用户和新广告无法生成向量表示的问题,在图模型中引入用户、广告、资讯的泛化式属性特征,使用图模型同步学习图节点的 id 和属性的 embedding 表示。聚合节点以上的属性表示,得到最终的向量表示。通过引入节点的属性特征,图模型的表达能力和泛化能力都得到进一步提升。
在贴吧应用场景中,除用户资源以外,贴吧节点类型同样重要。Metapath2vec方法在游走过程中可以比较好地消除节点类型的bias,所以为了更充分地利用节点类型信息,设计多种游走策略的metapath,包括:贴子-贴吧-贴子、用户-贴子-贴吧-贴子-用户等。通过离线测试,发现引入更多合理的metapath,可带来准确率和召回率的提升。
以上就是本次分享的内容,谢谢大家。
分享嘉宾
INTRODUCTION
牛化康
百度
资深研发工程师
往期推荐
点个在看你最好看