专题|构造多方收益的信息流推荐系统《人工智能治理与可持续发展实践白皮书》
《人工智能治理与可持续发展实践白皮书》
构造多方收益的信息流推荐系统
上述问题的根源,在于推荐算法设计阶段,过于关注流量的分发效率、点击率的优化、成交转化率的提升,相对忽视了用户实际体验以及生产侧供给生态的持续优化。此外,深度学习自身的不可解释等固有缺陷也给系统的优化和干预增加了挑战。
淘宝积极开展技术和机制上的创新,致力于解决电商场景推荐算法的缺陷。应对信息茧房问题,不断提升推荐结果的多样性和新颖性,同时严格遵守《个人信息保护法》等法律法规要求,为用户提供推荐系统个性化退出开关。应对马太效应问题,持续孵化有潜力的中小长尾商家和高品质商品。
1)建模用户负反馈数据,减少推荐用户不喜欢的内容
给用户提供了便利的反馈推荐问题的入口,包含用户长按不喜欢的商品、内容等,在随后出现的浮窗中选择负反馈的细分原因。推荐系统可以使用用户的负反馈信息来建模用户的负向兴趣,减少给用户推荐不喜欢的内容。
负反馈数据通常都比较稀疏,在实践中淘宝提出使用多任务学习的方法,通过其他辅助任务来帮助负向兴趣的学习。在负向兴趣建模中,分别引入用户的近期点击行为、长期点击行为来刻画用户的正向兴趣,引入用户的负反馈行为、近期曝光未点击行为来刻画用户的负向兴趣。长期、大量的线上数据表明,使用该方法能够促使针对整体商品的负反馈明显下降。
2)搭建发现性推荐链路,提升推荐系统的多样性
淘宝首页推荐搭建了独立的发现性推荐链路,专门推荐用户近期未点击过的类目商品。用户访问淘宝时,常规链路和发现性链路分别产出推荐结果,并由后续的混排算法综合这两部结果完成最终的排序。
发现性召回的逻辑主要包含四个部分。一是发现性向量化召回,即基于用户短期行为,学习用户的跨品类点击行为,为用户推荐与近期行为相关的品类。二是发现性检索召回,结合用户短期和长期行为与跨类目相似商品索引,构建发现性推荐能力。三是时令召回,在节假日、果蔬上市时间、季节更替等时令节点到来之前,将对应的商品召回。四是基于认知推理的标签召回,基于标签/类目构建知识图谱和推理链路,实现拓展用户兴趣的目的。
3)开展全链路无偏学习,刻画用户多样的兴趣分布
相比于传统针对单场景或单任务建模的方式,利用用户在淘宝多场景的数据进行学习,可以更好地刻画用户兴趣分布。但由于不同场景的数据分布差异性较大,导致直接使用多场景数据进行训练的效果往往不理想。
针对此问题,提出了信息流推荐全链路无偏学习解决方案,充分利用推荐系统的漏斗型结构以及淘宝多场景的数据,解决了单场景单任务建模遇到数据选择偏差问题和数据稀疏问题,如下图所示。模型在首页信息流推荐落地后,对打破推荐中越买越推的循环起到了明显的改善效果。
我们将持续更新,敬请期待😚~关注【AAIG】公众号,回复「 白皮书 」一键下载全文👇