查看原文
其他

基于观察数据的因果推断

壁仞科技研究院 壁仞科技研究院 2021-09-19



摘要

在图灵奖得主、人工智能先驱Judea Pearl的力作<<The Book of Why: The New Science of Cause and Effect>>、德国马普所教授Bernhard Schölkopf与深度学习三大巨头之一Yoshua Bengio近期联名提出的因果表达学习[1]的推动下,一场因果科学革命正在悄然无息地进行着。同时,越来越多从事因果推断的学者将焦点转移到基于“被动”观察数据的因果推断方法的研究。针对这一研究趋势,本文从观察数据本身存在的问题以及随机对照试验的局限性出发,探讨了目前主流的因果推断方法,尤其是Pearl的Do-演算和反事实推理以及Rubin的潜在结果模型,以实现基于观察数据的因果推断。最后,本文对因果科学的未来发展给出了自己的见解。




观察数据

观察数据,顾名思义,是对研究对象进行观察得到的数据。观察数据具有“被动”属性,因为在观察的过程中不对研究对象进行任何人为干扰。换句话说,这类数据是在没有对事物进行人为控制的条件下获得,数据的采集过程中只是简单地观察研究对象并将观察内容记录下来,如大部分的社会经济现象的统计数据。虽然这种不加任何干预的方式保留了数据的“原汁原味”,但这也给后续的数据分析和研究带来了很多挑战。第一,在观察数据中,我们会获得很多诸如动作、输出以及关于发生事件的信息,但数据中往往缺乏解释某个具体动作发生的背后机制。第二,观察数据只记载了已经发生的事实性信息,却捕捉不到同样条件下不同决策、动作下另一个世界的信息。比如,我们收集了有关病人使用了某种药物的康复效果,但病人如果想知道如果没有采用药物的康复效果,由于在现实世界中病人已经使用了该药物,不可能在相同的病情以及其他相关情况下重新对该病人进行不使用药物的试验。第三,虽然海量数据有助于提升模型预测结果的准确率,但是却不能保证估计结果的准确性和无偏见性。例如,数据中可能存在虚假关系,而这种虚假关系对模型结果的影响却并不能因为收集更多的数据而得到解决。

在业界,解决上述问题的一个可行、有效的方法是采用黄金准则的随机对照试验(Randomized Controlled Trial, RCT)进行干预措施的效果估计,该方法常见于医学中研究某种疗法或者药物效果,如图1所示。通过将研究对象进行随机分组,对不同组实施或者不实施人为干预/控制,以对照实验组和控制组的不同效果。然而,在现实环境中,实施随机对照试验不仅耗时长、经济成本高,而且有限的试验对象范围和数量进一步导致试验对象不具备总体代表性。此外,随机对照试验只关注于总体的平均样本,实验结果通常并不适用于个体样本。比如,对病人进行临床药物A试验表明该药物A能加速病人康复速度,但并不能说明该药物对每个个体都是有利的。同时,伦理道德标准也进一步限制了随机对照试验的实施。例如,为了研究吸烟对人体健康的危害,不可能设计试验人为地让一部分人有意去吸烟。这也很自然地引出了一个问题,有没有办法在不采用“主动“、“高成本”的随机对照试验,而利用“被动”、“低成本”的观察数据,同样可以实现诸如随机对照试验中干预措施的效果预测,如吸烟(处理(Treatment)或者干预 (Intervention))对健康的影响,以及更高一层的人工智能推理,如反事实推理(Counterfactual),如估计吸烟个体如果当初没有吸烟现在的健康情况。

图1:随机对照试验[7]



基于结构因果模型的因果推理

在随机对照试验可操作性受限的情况下,针对上节提出的“被动”观察数据因果推断问题,Judea Pearl提出了结构因果模型(Structural Causal Model),其中包含两个非常强大的理论工具:Do-演算,即对模型中的某些变量的值进行固定,和反事实推理,以“如果”的陈述形式,用来强调想要在完全一致的现实条件下比较不同假设条件下的结果。后者往往表现为在已知实际决策的结果后,如图2中采取了干预,形式化表示为,计算与实际决策不同情况下的结果,如没有采取干预,形式化表示为。对于同一研究对象而言,通常我们不能够既观察其干预的结果,又观察其不干预的结果。对于接受干预的研究对象而言,不接受干预时的状态是一种“反事实”状态;对于不接受干预的研究对象而言,接受干预时的状态也是一种“反事实”状态。

(a)  采取了干预           (b) 没有采取干预
图2:现实世界与反事实世界[8]

那么,如何从观察数据中计算一个变量对另一个变量的因果效应?Judea Pearl在其著作[4]提供了答案:通过因果图巧妙地在因果效应估计与非干预数据之间建立了桥梁。同时,基于Do-演算,Pearl又提出了很多简单、有效的因果估计工具,其中最重要的是前门、后门两个准则。当试图通过非试验数据来估计因果效应时,后门准则和前门准则为我们提供了一种简单的方法来识别一组变量,使得将干预后的概率可以观察数据中的概率来表示。通过这些工具,可以将原来基于随机对照试验的干预数据的计算转换成基于现有被动观察性数据。值得提出的是,前门、后门准则都基于Do-演算这个基础核心概念,形式化表示为,翻译为对变量X的值固定为x。与传统的关系概率描述的是基于观察数据的现实世界中变量Y的条件概率,而表示将变量X进行干预后,即对现有世界进行一种人为干预和修改,并在干预后的新世界里计算变量Y的条件概率。

当干预模型中的一个变量时,我们固定这个变量的值,这意味着改变了原有世界了,其他变量的值通常会因此而变化。然而,当以一个变量为条件时,世界并未发生任何改变。例如,我们现在生成符合高斯分布的变量X和Y的数据,可以看出,三种不同的生成方式得到同样的变量X和Y的联合概率以及变量Y的条件概率,如图3(a)-(b)所示。现在原始生成代码中的每一行下都插入X=3,强制要求变量X在整个数据生成过程中保持不变,也就是对原始数据生成过程中的变量X进行了人为干预,如图3(c)所示。干预后Y的条件概率在不同的生成过程中不再保持一致,图3(d)所示。

图3:现有世界与干预后的新世界[9]

从这个数据生成实例中可以看出,如果仅仅根据观察到的数据(X、Y的联合分布数据),无法区分上述三个不同的生成过程,但是可以通过干预区分。



基于潜在结果模型的因果推理

除了Judea Pearl的结构因果图模型,潜在结果模型(Potential Outcome Model)是进行干预效果评估的另一主流模型,由哈佛大学著名统计学家唐纳德.鲁宾(Donald B. Rubin)提出,其核心是比较同一个研究对象在接受干预(Treatment)和不接受干预 (Control)时的结果差异,认为这一结果差异就是接受干预相对于不接受干预的效果。不过,鲁宾并不认同反事实框架的概念,他认为结果的出现与否主要取决于干预机制,这并不意味着一种结果的不存在,只是我们事实上只能观察到一种结果。

在潜在结果模型中,一个核心要素是计算总体的平均处理效应(Average Treatment Effect,ATE),定义为

其中是总体的潜在处理和控制结果。在细分的子组水平上,处理效应通常用条件平均处理效应(Conditional Average Treatment Effect)来描述,定义为
其中是当条件下子组在处理和控制情况下的潜在输出。平均处理效应和条件平均处理效应计算的都是总体和子组的效应评估,然而处理针对不同个体的效应往往是不同的,比如教育对不同人群收入的影响是不同的,这种受个体影响的效应成为异质处理效应(Heterogeneous Treatment Effects,HTE)。在HTE评估方法上,著名斯坦福大学经济学教授Susan Athey近期提出的因果随机树在估计异质处理效应表现非常出色[2]。其主要思想是,通过对评估点x与训练数据中落入同个叶子节点的相似度进行加权评分,是对现有随机树中的处理效应的加权处理。在应用上,因果随机树的提出迅速引起了业界的广泛关注,并且在短短三年内,已经在业界得到了应用。例如,滴滴将现有二元因果随机树扩展到了多元变量和连续变量[3],并应用到了网约车交易市场策略上,取得了约15%的ROI收益。



扩展思考

观察数据是一种经济成本较低的数据获取方式,目前因果科学社区的一个研究热点也集中于如何利用观察数据进行因果推理。不管是采用Judea Pearl的结构因果模型还是Rubin的潜在结果模型,两者在本质上都是一致的,即估计干预效应。但这两个框架侧重领域不同,Pearl的框架更常见于计算机领域,社会科学、计量经济学、流行病学等领域则主要采用Rubin框架。

其实,这两种框架已经有几十年的历史,但随着深度学习对模型的可解释性、鲁棒性的呼声越来越大,进一步推动了因果科学在深度学习这一新型领域的发展。尤其是,如何充分发挥因果科学的“白盒子”显著优势来解决一直困扰深度学习的“黑盒子”问题,是最近业界一直在不断思考的一个方向。已经有较多的研究将Do-演算和反事实推理运用到计算机视觉中,如[5]利用VQA任务中采用反事实推理来去除语言对问答的偏置以及工作[6]用因果关系找出图像描述中偏置的原因。

从深度学习创始人Yoshua Bengio在文[1]中指出深度学习中的因果表达学习的重要性似乎可以看出,深度学习想要根除因“黑盒子“劣性而带来的鲁棒性差等一系列问题,因果科学很可能是其不可或缺的有利武器。因果科学的一个显著特点是具备可解释性,可以简单、直观的概率图描述变量之间的因果关系。在采用Pearl的因果图进行基于观察数据的分析时,需要指出的是这往往存在一个显而易见但容易忽视的假设:因果图已知。而因果图在很大程度上都是由人为选择而定,因此因果图本身结构具有很大的主观性。当然,可以利用已有领域知识在最大程度上确保因果关系的正确性,这也可能表明想要让因果科学充分发挥其强大的作用,跨领域、跨学科合作必不可少。

此外,个人认为,因果科学目前正处于从0-1的快速发展阶段,正在酝酿一个爆发性的领域应用,借助当前研究热点的深度学习,无疑有助于吸引更多的注意力,直接的一个体现是促进深度学习中因果表达的发展。然而,因果科学又是远远超出因果学习表达范畴,从更广义来说,因果科学更像是一门哲学思想,如何有机地将抽象的哲学思想与当前精确刻画的深度学习相结合是一个重点,也是一个难点。



参考文献
[1] Schölkopf,Bernhard, et al. "Toward causal representation learning." Proceedingsof the IEEE 109.5 (2021): 612-634.
[2] Wager, Stefan, and Susan Athey. "Estimationand inference of heterogeneous treatment effects using random forests."Journal of the American Statistical Association 113.523 (2018): 1228-1242.
[3] https://blog.csdn.net/didi_cloud/article/details/116710406
[4] Judea Pearl. 统计因果推理入门, 2020.
[5] Niu,Yulei, et al. "Counterfactual vqa: A cause-effect look at languagebias." arXiv preprint arXiv:2006.04315 (2020).
[6] Yang,Xu, Hanwang Zhang, and Jianfei Cai. "Deconfounded image captioning: Acausal retrospect." arXiv preprint arXiv:2003.03923 (2020).
[7] https://iasgatewayy.com/randomised-controlled-trial-rct/
[8] https://microsoft.github.io/dowhy/example_notebooks/tutorial-causalinference-machinelearning-using-dowhy-econml.html
[9] https://www.inference.vc/causal-inference-2-illustrating-interventions-in-a-toy-example/


     往期推荐

1、贝叶斯方法与深度学习的结合及应用(1)

2、条件随机场在病理图像分析中的应用

3联邦学习模型在医学图像处理领域中的应用实例分析



关于壁仞科技研究院


壁仞科技研究院作为壁仞科技的前沿研究部门,旨在研究新型智能计算系统的关键技术,重点关注新型架构,先进编译技术和设计方法学,并将逐渐拓展研究方向,探索未来智能系统的各种可能。壁仞科技研究院秉持开放的原则,将积极投入各类产学研合作并参与开源社区的建设,为相关领域的技术进步做出自己的贡献。

扫码关注我们


: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存