微信全局因果作用估计实践
5月25日,由DataFun出品的数据科学峰会,将邀请8位专家和出品人共同策划,邀请来自国内外一线的专家学者分享数据科学的最新实践探索,其中来自腾讯的数据科学家李奕霖老师将分享《基于成对数据的A/B实验》,感兴趣的小伙伴欢迎扫码报名,收看直播:
识别二维码免费报名
详细介绍:
李奕霖 腾讯 数据科学家
个人介绍:北京大学数学学院统计学博士在读,致力于因果推断的研究,特别是存在干涉的因果推断和观察性数据分析。现任职于微信实验平台,主要研究方向为网络实验设计与分析,研究内容在Biometrics、ACM/IMS Journal of data science、ICML等期刊和会议发表。
演讲题目:基于成对数据的A/B实验
演讲提纲:成对数据是一种独特的数据类型,用于刻画两个个体间的交互行为和关系。研究人员可以利用成对数据更为深入研究个体之间的复杂关系和动态。例如,在国际关系研究中,成对数据可以包含国家间的贸易额等;而在社交网络分析中,成对数据则可以刻画个体间的交流行为。随着大数据时代的到来,成对数据分析逐渐引起了各个领域应用科学家的兴趣,然而关于成对数据的因果推断方法却鲜有研究。因果推断的核心假设之一是个体稳定处理值假设 (SUTVA),其中对于每个个体的潜在结果不依赖于其他个体的处理。然而,在社交网络场景下,由于存在网络干涉,这一假设往往并不成立,这也导致估计全局平均因果作用可能会出现不可忽略的偏差。我们考虑将成对结果引入随机实验中,其中受试者被随机分配到治疗组或对照组。此类场景在在线随机控制实验(A/B 测试)中广泛存在,例如转发消息或分享链接等数据。基于这类场景,我们引入了一种新颖的成对干涉假定。在存在异质性时,我们证明了基于常规单位水平结果的全局平均治疗效果的无偏估计一般并不存在。为此,我们利用成对数据的特点设计了了全局平均因果作用的无偏估计,并证明了在不同随机化设计(例如伯努利随机化、完全随机化和聚类随机化)下均不存在偏差。我们对所提出的估计量及其相应的理论特性进行了深入而全面的分析,例如收敛速度与网络结构之间的联系,以及利用Stein方法分析的估计量的渐近正态性。我们讨论了伯努利随机化下估计量的置信区间的构造方法,并给出了相应的统计推断方法。我们还通过各种数值实验来说明上述现象,验证了估计量对全局因果作用估计的准确性,同时将这一方法应用于大规模在线随机对照实验中。
听众收益:
1. 网络实验中,估计全局因果作用的方法有哪些?
2. 什么是成对数据分析?
3. 如何利用成对数据进行A/B实验与因果推断?相关的理论是什么?存在哪些问题?