推荐系统中的因果学习:基础、估计、预测和挑战
导语
基于因果推理的推荐系统是因果科学领域的热门应用研究,近期北京大学周晓华团队提出了一套因果分析框架来统一现有的各类因果启发的推荐方法,并详细讨论了因果假设的有效性问题。在集智俱乐部因果科学读书会第三季,北京大学吴鹏老师详细介绍了这项工作,本文是分享的文字整理。
研究领域:基于因果推理的推荐系统,因果学习
李昊轩 | 作者
邓一雪 | 编辑
论文题目:
Causal Analysis Framework for Recommendation
论文链接:
https://arxiv.org/abs/2201.06716
1. 引言
1. 引言
近年来,基于因果推理的推荐系统(RS)在工业界获得了广泛的关注,并在许多预测和去偏任务中表现出了良好的效果。然而,一个统一的因果分析框架还未建立。许多基于因果关系的预测和去偏研究很少讨论各种偏倚的因果解释和相应因果假设的合理性。在本文中,我们首先提供了一个正式的因果分析框架来综述和统一现有的因果启发的推荐方法,它可以适应 RS 中的不同场景。然后,我们提出了一个新的分类法,并从违反因果分析假设的角度给出了 RS 中各种偏倚的正式因果定义。最后,我们对 RS 中的许多去偏和预测任务进行了形式化,并总结了基于统计和机器学习的因果估计方法,期望为因果 RS 社区提供新的研究机会和视角。
2. 因果分析框架
2. 因果分析框架
我们提出的因果分析框架(分析流程)由以下三步构成:(1) 定义因果估计量 (因果参数) 以回答科学问题;(2) 给定数据后,讨论因果估计量的可恢复性;(3) 建立模型,得到待估计量的相合估计。图 1 描述了这一因果分析框架。
图1: 因果分析框架
典型的因果推断方法在收集数据之前,先将所研究的科学问题转化为因果估计量。然而,RS 中很少有文献对估计量有明确的说明。通过将科学问题形式化为因果估计,我们可以回答以下问题:究竟是什么被估计以及出于什么目的。接下来,我们讨论在收集到观察数据后,估计量能否在适当的假设下被估计出,即估计量的可恢复性。
可恢复性是因果推断的关键要素,而它在推荐系统中很少被讨论。讨论可恢复性的意义至少是双重的:首先,我们可以确定一个反事实估计量在一些合理的假设下是否能够被估计出。若不可恢复,则需要考虑收集更多的新数据。其次,如果估计是可恢复的,我们可以明确地呈现获得可恢复性所需的假设。我们可以通过评估假设的合理性来评估纠偏方法的好坏;也可以通过弱化假设条件,来提出一些新的纠偏方法。以下 5 个假设是因果推荐中常用的可恢复性假设。
假设 1 (SUTVA): (a) 无多版本处理;(b) 无交互。
假设 2 (一致性,Consistency): , 对任意 。 假设 3 (正数性,Positivity): , 对任意 t, x。 假设 4 (条件可交换性, Conditional exchangeability): Y (t) ⊥ T | X, 对任意 。一个更强的版本为可交互性 (exchangeability): Y (t) ⊥ T , 对任意 。 假设 5 (随机抽样,Random sampling): ,其中 表示目标总体分布, 表示观测样本分布。
3. 关于推荐系统中偏倚的新见解
3. 关于推荐系统中偏倚的新见解
3.1 混杂偏倚和选择偏倚
3.2 推荐系统中偏倚的新分类
4. 因果公开研究问题
4. 因果公开研究问题
4.1 数据融合 (Data Fusion)
4.2 序列推荐 (Sequential Recommendation)
4.3 推荐系统公平性 (Fairness in RS)
4.4 交互行为 (Interference)
5. 总结
5. 总结
参考文献
Elias Bareinboim, Jin Tian, and Judea Pearl. Recovering from selection bias in causal and statistical inference. In AAAI, 2014. Jiawei Chen, Hande Dong, Yang Qiu, Xiangnan He, Xin Xin, Liang Chen, Guli Lin, and Keping Yang. Autodebias: Learning to debias for recommendation. In SIGIR, 2021. Jiawei Chen, Hande Dong, Xiang Wang, Fuli Feng, Meng Wang, and Xiangnan He. Bias and debias in recommender system: A survey and future directions. https://arxiv.org/abs/2010.03240v1, 2020. Juan D. Correa, Jin Tian, and Elias Bareinboim. Identification of causal effect in the presence of selection bias. In AAAI, 2019. Prem Gopalan, Jake M. Hofman, and David M. Blei. Scalable recommendation with hierar- chical poisson factorization. In UAI, 2015. Tiankai Gu, Kun Kuang, Hong Zhu, Jingjie Li, Zhenhua Dong, Wenjie Hu, Zhenguo Li, Xiuqiang He, and Yue Liu. Estimating true post-click conversion via group-stratified coun- terfactual inference. In ADKDD, 2021. Siyuan Guo, Lixin Zou, Yiding Liu, Wenwen Ye, Suqi Cheng, Shuaiqiang Wang, Hechang Chen, Dawei Yin, and Yi Chang. Enhanced doubly robust learning for debiasing post-click conversion rate estimation. In SIGIR ’21: The 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, Virtual Event, Canada, July 11-15, 2021, pages 275–284. ACM, 2021. Miguel A. Hernán and James M. Robins. Causal Inference: What If. Boca Raton: Chapman and Hall/CRC, 2020. Nathan Kallus. More efficient policy learning via optimal retargeting. Journal of the American Statistical Association, 116:646–658, 2021. Dawen Liang, Laurent Charlin, and David M. Blei. Causal inference for recommender systems. In RecSys, 2020. Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong, and Ed H Chi. Modeling task relationships in multi-task learning with multi-gate mixture-of experts. In KDD. Xiao Ma, Liqin Zhao, Guan Huang, Zhi Wang, Zelin Hu, Xiaoqiang Zhu, and Kun Gai. Entire space multi-task model: An effective approach for estimating post-click conversion rate. In SIGIR, page 1137–1140, 2018. Yuta Saito, Suguru Yaginuma, Yuta Nishino, Hayato Sakata, and Kazuhide Nakata. Unbiased recommender learning from missing-not-at-random implicit feedback. In James Caverlee, Xia (Ben) Hu, Mounia Lalmas, and Wei Wang, editors, WSDM ’20: The Thirteenth ACM International Conference on Web Search and Data Mining, Houston, TX, USA, February 3-7, 2020, pages 501–509. ACM, 2020. Tobias Schnabel, Adith Swaminathan, Ashudeep Singh, Navin Chandak, and Thorsten Joachims. Recommendations as treatments: Debiasing learning and evaluation. In ICML, 2016. Bo-Wen Yuan, Jui-Yang Hsia, Meng-Yuan Yang, Hong Zhu, Chih-Yao Chang, Zhenhua Dong, and Chih-Jen Lin. Improving ad click prediction by considering non-displayed events. In Proceedings of the 28th ACM International Conference on Information and Knowledge Man- agement, CIKM 2019, Beijing, China, November 3-7, 2019, pages 329–338. ACM, 2019. Bowen Yuan, Yaxu Liu, Jui-Yang Hsia, Zhenhua Dong, and Chih-Jen Lin. Unbiased ad click prediction for position-aware advertising systems. In Fourteenth ACM Conference on Recommender Systems, pages 368–377, 2020. Wenhao Zhang, Wentian Bao, Xiao-Yang Liu, Keping Yang, Quan Lin, Hong Wen, and Ramin Ramezani. Large-scale causal approaches to debiasing post-click conversion rate estimation with multi-task learning. In WWW, 2020.
(参考文献可上下滑动查看)
因果科学读书会第三季启动
由智源社区、集智俱乐部联合举办的因果科学与Causal AI读书会第三季,将主要面向两类人群:如果你从事计算机相关方向研究,希望为不同领域引入新的计算方法,通过大数据、新算法得到新成果,可以通过读书会各个领域的核心因果问题介绍和论文推荐快速入手;如果你从事其他理工科或人文社科领域研究,也可以通过所属领域的因果研究综述介绍和研讨已有工作的示例代码,在自己的研究中快速开始尝试部署结合因果的算法。读书自2021年10月24日开始,每周日上午 10:00-12:00举办,持续时间预计 2-3 个月。
详情请见:
因果+X:解决多学科领域的因果问题 | 因果科学读书会第三季启动
推荐阅读
图模型与因果推理基础- SCM框架和Do-Calculus 崔鹏:稳定学习——挖掘因果推理和机器学习的共同基础 前沿算法:如何利用群论进行深度学习下的因果特征解耦 《张江·复杂科学前沿27讲》完整上线! 成为集智VIP,解锁全站课程/读书会 加入集智,一起复杂!
点击“阅读原文”,即可报名读书会