耿直:因果作用评价与因果网络学习及其结合
导语
因果推断本质是消除混杂因素引起的虚假相关关系。其基本任务包括:判断Pearl的三个层级问题、混杂因素的准则,替代指标悖论,因果作用和相关度量的可传递性、因果网络结构的分解学习、主动学习和局部学习方法。在此基础上,因果作用评价与因果网络局部结构学习的结合正在崭露头角。
7月24日(周六)10:00-12:00,我们特别邀请到北京大学数学科学学院的耿直教授开展讲座,介绍因果作用评价与因果学习网络相关研究。集智俱乐部因果社区汇集了超过600位因果科学相关领域研究者,组织各类线上线下活动,耿直老师是因果社区成员。本次活动为因果科学社区内部的线下活动,我们同步在线上直播,文末报名即可获得直播地址,欢迎大家参与。
因果推断旨在利用试验性研究和观察性研究的数据,评价变量之间的因果作用以及识别因果网络的结构。在评估因果效应时,研究人员应对混杂因素进行识别和调整。基于分配机制的可忽略性假设,例如匹配方法、修剪法、逆概加权和回归方法、双稳健估计方法等可以实现对混杂因素的调整。对于未观测的混杂因素,工具变量方法和阴性对照变量方法可以有效消除估计偏倚。当感兴趣的结局变量难以观测时,研究人员常常选择观测替代指标,替代指标准则的建立可以避免替代指标悖论现象。在因果网络模型中,因果作用的可识别性与因果网络的学习算法已成为该领域的研究热点。
1. 混杂因素的识别及调整方法
1. 混杂因素的识别及调整方法
什么是混杂因素
Yule-Simpson悖论表明,在因果效应评估中有必要对混杂因素进行识别和调整。基于流行病学研究中的实例,Miettinen和Cook认为混杂因素V必须满足以下两个条件:其一,它可以预测未暴露人群的风险;其二,它在暴露人群和未暴露人群中的分布不同。
基于此,后续的文献中使用两类标准对混杂因素进行严格的定义:
1. 可比较性准则 (The comparability-based criterion):如果暴露人群和未暴露人群的潜在结果分布因忽略协变量而不同,则该协变量是混杂因素;
2. 可压缩性准则 (The collapsibility-based criterion):如果关联度量或感兴趣的参数受到忽略协变量的影响(即在协变量上不可折叠),则该协变量是混杂因素。
分配机制的可忽略性假设
在观察性研究中,判断混杂因素和推断因果作用的一个重要假定是处理分配机制的可忽略性 (ignorability of treatment assignment mechanism)。令 V 表示观测的协变量,如果满足 (i) (Y1, Y0)和X在V的条件下独立 和 (ii) 0 < pr(X = 1|V ) < 1,那么称处理分配机制是可忽略的。在可忽略性假设中,每一层均可被视为是随机对照试验,从而在每一层都能得到该层平均因果作用的相合估计。
基于可忽略性假设的混淆因素调整方法
匹配方法
为了消除协变量的分布在处理组与对照组之间的差异,匹配 (matching) 方法经常用在观察性研究中。匹配方法的目的是对每一个个体匹配一个具有相同或相近协变量取值的个体集合,使得匹配得到的数据在处理组和对照组有相同的协变量分布,然后根据匹配数据推断因果作用。马氏度量匹配试图直接平衡所有协变量,而倾向得分匹配 (propensity score matching) 可以依据一维的倾向得分构造匹配集合,以实现对随机化的模拟,目前是观察性研究中常使用的匹配方法。
逆概加权和回归方法
此外,给定可忽略性假定和一定的正则条件,逆概加权估计 (inverse probability weighted estimation) 和回归估计 (regression-based estimator) 分别通过拟合一个倾向得分模型和建立一个对结果变量的回归模型实现对平均因果效应的估计。如果回归模型和倾向得分模型分别正确,则可以通过广义矩估计方法实现平均因果效应的相合估计,但是上述两种方法对模型特别敏感,当指定的回归模型或者倾向得分模型不正确时,往往会导致较大偏差。
双稳健估计方法
Robins在研究缺失数据时提出了双稳健估计方法 (doubly robust estimation)。这种方法把回归估计和逆概加权估计结合起来,并具有双稳健性质:只要回归模型和倾向得分模型中的一个模型正确,那么双稳健估计就有相合性。相比于回归估计和倾向得分估计,双稳健估计提供了更多减少估计偏差的机会。由于双稳健估计能有效地减小模型错误导致的偏差,这种方法越来越广泛应用在缺失数据分析和因果推断中。
未观测的混杂因素调整方法
在实际研究中,如果有重要背景变量未被观测、测量误差或者选择偏差,就有潜在的未观测的混杂因素,可忽略性假定可能不成立,前一节介绍的统计推断方法在出现未观测的混杂因素时就有偏差。当存在未被观测的混杂因素时,更合理的假定是潜在可忽略性:存在未被观测的变量U满足Yx和X在 (U, V )的条件下独立,其中 V 为观测的混杂因素。
在潜在可忽略性假定下,辅助变量经常被用来帮助识别因果作用和消除混杂偏倚。辅助变量通常只与 (X, Y, U) 三个变量的一个子集相关,因此引入一些条件独立性帮助识别因果作用。本节介绍在潜在可忽略性假定下用来消除混杂偏差的两种方法,一种是常用的工具变量 (instrumental variable) 方法,另一种是最近引起人们注意的阴性对照变量 (negative control variable) 方法。
2. 替代指标悖论与替代指标准则
2. 替代指标悖论与替代指标准则
替代指标悖论
在科学研究中,特别是在医学和生物学试验中,当感兴趣的终点指标 (endpoint) 难以观测时,常会取而代之观测替代指标 (surrogate) 或标记物 (marker)。替代指标悖论 (surrogate paradox) 指出,当处理 (或称治疗) 对替代指标有正的因果作用,并且替代指标对终点指标也有正的因果作用,该处理对终点指标也许会产生负的因果作用。例如,任何一个人假若心律正常一定比心律不正常活得更长,某种药可以显著纠正心律失常,但是这种药反而减少患者的寿命。因此,工具变量估计可能出现正负符号的悖论现象,利用中间变量的统计结论不具有传递性。
替代指标准则
为了避免替代指标悖论现象,应建立替代指标准则 (criteria for consistent surrogates) ,即不必观测终点指标Y,而只需观测替代指标S,就可以用处理 X对观测的替代指标 S 的因果作用的正负符号来预测处理 X 对未观测的终点指标 Y 的因果作用的正负符号。
替代指标的准则可以定义为:若给定任意 U = u 的条件下替代指标 S 都是终点指标 Y 的一个危险因素 (或保护因素),且给定任意U = u的条件下处理 X 对替代指标S有相同符号的分布因果作用 (distributional causal effect, DCE),则根据X对S的非负(非正)DCE能预测X对Y的非负(非正)平均因果作用 (average causal effect, ACE),并且根据X对S的零DCE能预测X对Y的零ACE。
相关度量的可传递性
称三个变量{X,Y,Z}之间的关联度量的符号是可传递的,如果变量X和中间变量Y之间的正关联度量以及Y和结局变量Z之间的正关联度量可以表明X和Z之间的正关联度量。在“Qualitative evaluation of associations and validation of surrogacy by association transitivity”一文中,通过引入四个具有不同严格性的关联度量:密度度量 (density association),分布度量 (distribution association),期望度量 (expectation association),和相关性度量 (correlation coefficient),并讨论了这些关联度量的相对严格性。此外,在假设Y遵循指数族分布且Y和Z之间的关联是非负的情况下,X和Y之间的关联度量的符号与X和Z之间的关联度量的符号之间的具有等价关系。
3. 因果网络的可识别性与学习算法
3. 因果网络的可识别性与学习算法
Judea Pearl基于贝叶斯网络提出了外部干预的概念,用外部干预的概念对因果关系给出了一种形式化方法,建立了因果网络模型。因果网络描述多个变量之间相互的因果关系,网络图中每个节点表示一个变量,节点之间的有向箭头表示由原因到结果的因果关系,或者变量之间的数据生成过程。
Pearl的因果元模型涉及三个层次的抽象,被称为是“因果之梯”。第一层级是观察能力,旨在发掘数据之间的相关与预测性;第二层级是行动能力,允许研究人员进行因果现象的讨论与决策;第三层级是想象能力,依据反事实推理的结果,可以预测在尚未经历甚至未曾设想过的情况下会发生什么。概率能将我们对静态世界的信念进行编码,而因果论则告诉我们,无论改变是通过干预还是通过想象实现的,概率是否会发生改变以及如何发生改变。
在因果网络的框架下,研究两类问题:其一是因果作用的可识别性;另一个是因果网络的学习。识别因果作用的目的与潜在结果的因果模型的目的是一致的,即探讨判断混杂因素的准则和研究因果作用的可识别性。因果网络结构学习有两类方法:基于评分的搜索方法和基于条件独立检验的方法。
分解学习方法
针对大规模网络和多个不完全数据库,分解学习方法的思想是:在有变量间条件独立的先验知识情形下可以不必同时观测所有的变量,利用多个不完全变量的数据库,首先各自学习局部网络,然后合并为一个完整的大网络。在“A recursive method for structural learning of directed acyclic graphs”一文中,提出了网络结构的递归学习算法,将一个大网络结构学习分解为两个局部小网络的结构学习,然后递归地将每个局部网络的结构学习再分解为更小网络的结构学习。
主动学习方法
研究人员无法从观察数据中区分马尔可夫链中不同的有向无环图,因此必须从外部干预的实验中收集更多关于因果结构的信息。在“Active learning of causal networks with intervention experiments and optimal designs”一文中,提出了一种发现因果结构的主动学习方法,首先从观测数据中找到一个马尔可夫等价类,然后通过干预实验分别确定每个链成分中的无向边的方向。
在实验中,一些变量通过外部干预来操纵。最佳干预设计旨在使用最少的干预,确定所有因果方向。基于最小最大准则和最大熵准则,考虑两个最优实验设计:成批干预方法和逐步干预方法,以最小化操纵变量的数量和候选结构的集合。并且从理论上证明了结构学习可以在链组分的子图中局部完成,而不需要检查整个因果网络中不合法的v-结构和循环,并且在每次干预后获得的马尔可夫等价子类仍然可以被描述为链图。
局部学习:MB-by-MB算法
当研究目的是为了寻找和确定某个给定的目标变量的局部因果关系,发现它的原因是什么和结果是什么,或者目的是做干预决策时,研究人员只需利用数据发现该目标变量的局部因果关系,没必要学习整个网络的结构。在“Discovering and orienting the edges connected to a target variable in a DAG via a sequential local learning approach”一文中,提出了逐步构建目标变量 Y 的局部网络的方法,称为 MB-by-MB (Markov blanket by Markov blanket) 算法。
该算法以目标变量Y为中心,逐步向外扩散地构建局部网络结构。首先寻找目标变量 Y 的 Markov边界 MB(Y),构建 MB(Y) 的局部网络结构; 然后再寻找MB(Y)中每个Xi的MB(Xi),构建 MB(Xi) 的局部网络结构;重复这个过程直至能够区别谁是Y的原因,谁是Y的结果为止。
局部网络学习与作用的结合
在观察性研究中,研究人员感兴趣的不只是评估总体效果,还要评估治疗变量对反应变量的直接和间接影响。在因果网络的局部结构学习方面,试图找到所有可能的总因果效应和直接因果效应对,这可以进一步用于计算间接因果效应。
一种直观的全局学习方法是首先在表示所有马尔可夫等价因果网络的所有变量上找到一个本质图,然后枚举所有等价网络,并估计每个网络的一对总效应和直接效应。然而,当真正的因果图很大时,学习一个基本图和列举等价网络可能是低效的。
因此,一类局部学习方法被提出:首先在局部学习包含治疗或响应的链组件,然后局部枚举马尔可夫等价类中治疗的父节点和响应的父节点的所有可能配对。为了检查治疗和响应的邻居的任何定向结构的有效性,引入仅依赖于治疗和响应的相邻节点上学习的链组件的子图的局部准则。
参考文献
1. Geng, Z., Liu, Y., Liu, C. C. and Miao, W. (2019) Evaluation of Causal Effects and Local Structure Learning of Causal Networks. Ann. Rev. Statist. & Appl. 6, 103-124.
2. Liu, Y., Fang, Z. Y., He, Y. B., Geng, Z. and Liu, C. C. (2021) Local causal network learning for finding pairs of total and direct effects. To appear in J Mach Learn Res.
3. He, Y. B., & Geng, Z. (2008). Active learning of causal networks with intervention experiments and optimal designs. Journal of Machine Learning Research, 9(Nov), 2523-2547.
4. Jiang, Z., Ding, P., & Geng, Z. (2015). Qualitative evaluation of associations by the transitivity of the association signs. Statistica Sinica, 1065-1079.
5. Wang, C., Zhou, Y., Zhao, Q., & Geng, Z. (2014). Discovering and orienting the edges connected to a target variable in a DAG via a sequential local learning approach. Computational Statistics & Data Analysis, 77, 252-266.
6. Xie, X., & Geng, Z. (2008). A recursive method for structural learning of directed acyclic graphs. The Journal of Machine Learning Research, 9, 459-483.
7. Pearl, J. and Mackenzie, D. (2018) The Book of Why. 为什么:关于因果关系的新科学, 中信出版集团,中译版,2019
8. 苗旺,刘春辰,耿直 (2018) 因果作用与因果网络. 中国科学-数学, 48, 1753-1778.
直播报名
直播报名
因果推断本质是消除混杂因素引起的虚假相关关系。本报告将介绍判断Pearl的三个层级问题、混杂因素的准则,替代指标悖论,因果作用和相关度量的可传递性、因果网络结构的分解学习、主动学习和局部学习方法。进一步介绍因果作用评价与因果网络局部结构学习结合的方法。
直播时间:7月24日(周六)10:00-12:00
1. B站直播
2. 线下参与(需参加因果读书会,坐标北京,少量名额,先到先得)
报名地址(获取B站直播间地址):
欢迎加入因果科学社区
欢迎加入因果科学社区
因果推断与机器学习领域的结合已经吸引了越来越多来自学界业界的关注,为深入探讨、普及推广因果科学议题,智源社区携手集智俱乐部连续举办了两季「因果科学与CausalAI读书会」,研读重要论文与经典教材。本次活动是读书会第二季的收官讲座,活动结束后读书会仍将继续开放报名。
目前因果科学读书会(即因果科学社区),已经有超过600位海内外相关科研工作者以及互联网一线从业人员参与,如果你也对这个主题感兴趣,想要深度地参与,就快加入我们吧!
推荐阅读
点击“阅读原文”,报名直播