ECM主编: 潜在结果和有向无环图在因果推断实证研究中的应用权威讲解

Imbens, Guido W. 2020. "Potential Outcome and Directed Acyclic Graph Approaches to Causality:Relevance for Empirical Practice in Economics." Journal of Economic Literature, 58 (4): 1129-79.
In this essay I discuss potential outcome and graphical approaches to causality, and their relevance for empirical work in economics. I review some of the work on directed acyclic graphs, including the recent The Book of Why (Pearl and Mackenzie 2018). I also discuss the potential outcome framework developed by Rubin and coauthors (e.g., Rubin 2006), building on work by Neyman (1990 [1923]). I then discuss the relative merits of these approaches for empirical work in economics, focusing on the questions each framework answers well, and why much of the the work in economics is closer in spirit to the potential outcome perspective.

*以下分为两部分，今天介绍第一部分，下一次介绍第二部分。

摘要：在这篇文章中，作者讨论了潜在结果和因果图法，以及它们在经济学中实证工作的相关性。作者回顾了一些有向无环图（DAG）的工作，包括最近的《The Book of Why》([Pearl and Mackenzie,2018])。作者也讨论了在Neyman工作的基础上由Rubin和合著者发展的潜在结果分析框架。然后，作者讨论了这些方法在经济实证工作中的关联性，侧重于那些每个分析框架都解释的很好的问题，以及解释了为什么经济学中的许多研究更接近与潜在的结果的分析视角。

一、简介

自20世纪20年代和30年代，因果推断作为一个单独的领域，一直是计量经济学中不可或缺的部分。[Tinbergen,1930],[Wright,1928],[Haavelmo,1943]发展了联立方程组方法，他们的继任者在供给和需求设定下也持续关注因果关系问题。随后，由考尔斯委员会发展的聚焦识别和评估因果和政策相关参数的结构性和简化的方式开始蓬勃发展。在过去的三十年里，与其他社会科学和统计学中关于因果推断的研究建立了密切的联系，最近，与计算机科学的联系也已经建立。在这篇文章中，作者回顾了在不同学科背景下的一些因果推断方法，并从经济实证工作的视角讨论这些方法的相关性。两个主要的框架：(i)潜在结果分析框架，与唐纳德·鲁宾的工作有关，其建立在20世纪20年代罗纳德·费希尔和泽西·内曼的随机对照试验；(ii) 有向无环图，大部分与Judea Pearl和他的合作者的工作有关。这些框架是互补的，在问题的处理上有不同的优势。

文章主要由三个部分组成。在文章的第一个部分，作者讨论了朱迪亚·珀尔和达纳·麦肯齐写的“The Book of Why”中用图形方法分析因果关系。图形化方法在计算机科学领域也有较高的吸引力，例如，最近的一篇“Elements of Causal Discovery”，并且在流行病学和社会科学的部分领域中也毫不逊色。在文章的第二个部分，作者回顾了潜在的结果模型，代表文献有Rubin和他的合著者的“Matched Sampling for Causal Effects”以及 “Observations and Experiment”([Rosenbaum, 2017])。其他参考文献包括[Rubin.1974;Rosenbaum,2002,2010], [Holland,1986] 为这种方法创造了术语“鲁宾因果模型”，以及作者自己与鲁宾的文章“Causal Inference in Statistics, Social, and Biomedical Sciences”. 在文章的第三部分，作者比较了PO和DAG方法的比较优势和弱点。作者还讨论了为什么用图形方法来分析因果关系在经济学中还没有被广泛接受。例如，计量经济学的教科书“Mostly Harmless Econometrics[Angrist and Pischke,2008]”关注了因果推断，但是没有任何DAG的讨论部分。

DAG方法有两个重要的优点。第一，用于捕捉研究者如何思考因果关系的重要假设本质上是其中的一个组成部分。DAGs，就像路径分析一样([Wright,1928,1934]) 可以有力地说明在因果模型中的重要假设。作者在工具变量和中介的讨论中详细地阐述了DAGs的这一方面。第二，在DAG文献中的机制，特别是do-calculus,旨在让研究人员系统地回答特定的因果问题。这两种分析框架是互补的，有不同的优缺点，与PO相比，DAG机制简化了某些因果问题的分析，尤其是在一个有很多变量的复杂模型中。但是，在经济学中有许多因果问题的设定本身就是有问题的。

相比之下，PO框架的五个特征可能是为什么它在经济学领域如此流行的原因。第一，相对于DAG方法而言，在PO分析框架下有些假设是更易于捕捉的，并且这些假设对于经济学中的许多识别方法也是相当重要的。这些假设包括单调性([Imbens and Angrist,1994] 和其他形状限制如凹凸性([Matzkin et al, 1991;Chetverikov, Santos and Shaikh,2018;Chen Chernozhukov, Fernandez-Val, Kostshak, and Luo,2018]). 关于工具变量的设定就是一个典型的例子，形状限制在假设中非常重要。第二，潜在的结果分析框架可以容易地与传统经济模型联系在一起。第三，目前许多流行的识别方法都关注于相对很少的变量，在这些变量中识别问题已经被一劳永逸地解决了。第四，PO框架能够很好地解释处理效应的异质性([Imbens and Angrist, 1994;Sekhon and Shem-Tov,2017]) 和合并在最优政策函数的设计和估计上的异质性([Athey and Wager,2017;Athey,Tibshirani, Wager,et al.,2019b;Kitagawa and Tetenov,2015]). 第五，PO框架可以与研究设计，因果效应估计和对于因果效应的推断联系在一起。从一开始，鲁宾和他的合著者就为研究人员和政策制定者提供了很多指导，其中Rosenbaum和Rubin（1983b）关于倾向得分的研究就是一个很有影响力的例子。

除开方法的理论优点，另一个原因是缺乏在经济中的适应性，DAG文献并没有显示出多少证据来证明DAG在经济环境中进行实证分析的好处。例如，Pearl（2000）以及Peters et al(2017)没有实质性的实证例子。

二、因果关系的图解法和TBOW（The Book of Why）

1、 TBOW中关于因果问题的看法及其兴趣点

TBOW以及Pearl（2000）的主要焦点是识别，而不是估计和推断。例如，书中12页的图一所示，研究人员通常通过一个因果模型连接许多变量，一些可观测的变量和一些不可观测的变量。这个模型背后的假设被编码在一个图形模型中，即DAG。然后，研究人员开始提一些因果问题。在书里枚举了类似的问题：

a) 一种特定的治疗方法在预防疾病方面有多少效果？

b) 是新税法提高了公司的销售额，还是因为公司做了广告宣传？

c) 肥胖造成的保健费用是多少？

d) 雇佣记录能证明雇主实施了性别歧视政策吗？

e) 我要辞职了。应该吗?

有一类问题是清单上没有的问题，即“why”类型问题。例如，雷曼兄弟为什么在2008年破产？为什么股票的价格去年上涨了？为什么在大萧条时期失业率下降了？Gelman和Imbens（2013）将此类问题称为逆向因果推理问题，“为什么”是指一个结果发生了，而不是与结果相关的因果问题。总的来说，文献中对此类问题的关注要少很多。

许多统计问题和方法都是特定于因果问题的性质。其中包括弱工具变量的文献(Staiger and Stock,1997;Andrews and Stock,2006),对倾向评分的讨论(Rosenbaum and Rubin,1983b)，重叠问题(Crump, Hotz, Imbens,and Mitnik,2009;D’Amour, Ding, Feller, Lei, and Sekhon,2017;Li, Morgan and Zaslavsky,2018),双重鲁棒性 (Robins and Rotnitzky,1995;Imbens,2004;Belloni,Chernozhukov,Fernandez-Val,and Hansen,2013;Athey,Imbens, and Wager,2018b)，关于不连续回归的设计(Hahn,Todd, and Van der Klaauw,2001; Imbens and Kalyanaraman,2012), 以及近期关于异质处理效应的估计(Athey and Imbens,2016; Wager and Athey, 2017)和合成控制方面(Abadie and Gardeazabal, 2003; Abadie, Diamond and Hainmueller,2010)。还有关于因果效应识别和变量联合分布的识别的区分领域在网络模型设定下也变得更为复杂。这种将统计问题和因果识别相结合的方法在许多方面被证明是非常有益的。

TBOW对玩具模型的关注与计量经济学文献相比缺乏对估计和推论问题的投入，在计量经济学文献中有三个步骤：（i）先于识别问题的因果模型的发展（ii）对识别问题的研究（iii）识别问题解决后的估计和推论方法。计量经济学文献中的模型放在特定情境设置下也通常是有用的。部分由于对实证列子的关注，计量经济学文献已经发展了少量研究人员认为比较规范的模型设定和与之相关的统计方法。这些因果模型与当下被称之为识别策略相对应(Card,1993; Angrist and Krueger,2000)。这些识别策略包括，工具变量，DID，断点回归，合成控制，已在本科生和研究生的经济学课程中被广泛教授。如今，RD和合成控制是当下热门的计量经济学模型。

2、因果关系的阶梯

TBOW引入了一种因果问题的分析，称之为因果阶梯，分为三个等级，按照复杂性的顺序，分别是association, intervention and counterfactuals.

在第一级，研究者在观察的基础上，形成预测。一个关键的概念是相关性。TBOW中关于这一级方法主要包括回归分析和其他现代的机器学习方法，如回归树，随机森林和深度神经网络。当然，在许多学科中，回归被用作一种因果分析手段，但在TBOW中，回归被认为计量经济学家所说的最佳线性预测框架，回归函数只是一种来拟合条件期望的参数方式(Goldberger,1991)。在这个等级里，没有什么因果关系。

第二梯级是干预，一个典型的问题是如果我吃一片阿司匹林会发生什么。一般来说，这一级的问题都是关于操纵的，是用PO分析框架会关注的问题。随机实验是这一梯级关键的统计设计之一。在观察性研究中，这些问题难度要大得多，但研究的领域非常广泛，使用的方法也非常广泛。

因果关系的第三级是与反事实有关的，这里考虑的问题类型是如果我没有服用阿斯匹林会发生什么（鉴于我确实服用了阿司匹林）。第三级的问题比较难回答，在PO分析框架下，在同质的部分群体中，服用阿司匹林和未服用阿司匹林的潜在结果之间的相关关系不是点估计的。所以最终的结果依赖这样的相关关系，这就意味着只是部分被识别。经济学文献对此类问题的关注度也不如对第二类问题的关注度大。

3、有向无环图（DAG）

TBOW和Pearl（2000）中的因果关系方法集中在图形模型上，特别是有向无环图。DAG具有节点和节点之间定向的特征。作者通过四个复杂性递增的例子进行了阐释。

第一个例子非常简单，图1(a)中只有两个节点，对应两个变量，分别为X和Y。有一个箭头连接着两个节点，从X到Y。箭头的方向表示X是Y的原因。图1(b)表示Y导致X。或者，图1(c)中表示的未观测的变量U（用圆而不是实心，表示点没有被观测到）导致两者。如果我们有关于变量X和Y的数据，我们可以推断出X和Y的联合分布，从而估计这两者间的关联。这个模型允许我们从这种关联中推断出X对Y的因果效应。很明显，仅凭X和Y的数据是不够的：我们需要因果模型作为出发点，因果关系是X导致Y，而不是Y导致X。该模型还表明，不仅仅是简单地编码因果关系的方向，它还捕捉到没有其他变量对X和Y都有因果影响的结论，例如图1(c)。注意，我们可以通过引入两个为观察到的变量对DAG进行拓展，如图1(d)所示。在SEM版本中，这些未观测到的变量将是显式的。因为之间没有相关关系，这两个变量的存在不会影响结论，所以可以从DAG中删除它们。

接下来，考虑图2，这里的DAG稍微复杂一些，现在有三个观测到的变量。除了X和Y，还有一个箭头从X指向Y，还有第三个变量W的箭头从W到X和从W到Y。X和Y的关系不足以推断因果效应：这个效应被W对X和Y的影响混淆了。尽管如此，因为我们观察到了W，仍然可以通过控制或调整W来控制X在Y上的变化推断因果关系。

图3更为复杂。现在有三个观察到的变量，X，Y和Z，还有一个未被观测到的变量U。有箭头从Z到X，从X到Y，从U到X和Y。后两个是虚线。U是一个未被观测到的变量，U的存在使它在一般情况下不可能完全从X和Y的联合分布中推断出X对Y的平均因果效应。这个DAG捕捉了一个工具变量的设定。计量经济学的术语表示，X是内生的，因为存在一个未被观测到的U同时影响X和Y。变量Z对结果Y没有直接影响，也不存在未被观测到的因素作用在Z对X的影响上。这种工具变量的设定为经济学家所熟悉。TBOW认为，与计量经济学相比，DAG版本阐述了关键假设和结构。作者同意TBOW的DAGs在清晰度上更胜一筹的结论。但是作者并不确信DAGs相较于PO分析框架通过将关键假设分离为无混淆因素假设和排除限制假设更优越的地方(Angrist, Imbens and Rubin, 1996)。在作者看来，这似乎是一个使用习惯问题。当然对很多人来说，DAGs是一种有效的解释工具。注意，在工具变量模型设定中，确定X对Y的因果关系是很精细的，但是用DAGs方法并不能确定。

图4实际上要复杂的多。图4(a)取自Pearl（1995）。有五个观测变量，土壤熏蒸(X),作物产量(Y), 处理前线虫的数量

,处理后线虫的数量

,和季末的线虫数量

。有两个是未观测变量，鸟类数量(B)和上季线虫数量

。研究问题是是否可以从的联合分布中识别出土壤熏蒸X对作物产量Y的影响。这是DAGs在因果模型应用中第二个好处的例子，显示了DAGs对复杂模型的可推断识别的能力。Pearl（2000）认为，相较于DAGs，当模型中引入许多变量时，PO分析框架不能很好的评估复杂模型的识别性。相较于图4(a), 图4(b)在此基础上增加了两个因果关系。首先，还有一个作用在鸟类数量对作物数量的影响上的直接因素。鸟类可能会吃掉种子，或者部分植物，这会影响产量。土壤熏蒸也会对鸟类数量有直接影响：土壤熏蒸可能会对鸟类的其他食物来源产生影响。一般来说，找出连接关系的证据是容易的，难的是为这类影响的缺失提供解释。在论证没有影响时，这种困难在社会科学中尤其明显。正如格尔曼所说，“更普遍的说，任何看似有可能产生影响的事情都不会有影响”。(Gelman,2011)。这个讨论的重点是，在因果推理中，一个主要的挑战是提出了因果模型或者DAG。特定模型是否可以被识别，是否有一些可测试的限制，这就是DAG可能有帮助的地方，这是研究中的次要挑战。

4、一些DAG的术语

5、The do-operator and the do-Calculus

6、后门准则

7、前门准则

第二种识别策略是前门准则。这种策略可以不依赖于阻塞所有的后门路径而识别出变量X对结果Y的影响。它依赖于因果关系中中间变量的存在。这种策略在经济学中并不常见。

8、中介和代理

先来考虑一个来自VanderWeele(2015)的具体例子。有一个公认的关于染色体15q25.1上的遗传变异与肺癌的关系。这种关系可能是通过吸烟产生的。在这种情况下，将吸烟(S)理解成一个肺癌(Y)和遗产变异(X)因果关系的潜在中介。可能存在一个可观测的混杂因素W可以影响基因变异，吸烟和肺癌。图7(a)展示了基本的中介案列。从最基本的处理变量和结果变量之间有直接的因果联系，基本的处理变量和中介变量也有联系，同时中介变量和结果变量之间也存在关联。在这种情况下，我们可以推断出所有的因果效应，可以分离出遗传变异的直接影响和通过吸烟产生的间接影响。说的更具体一些，首先，基因变异对肺癌的总体影响，给定DAG，可以识别出总的影响因为没有后门路径；第二，基因变异对肺癌的简介影响，它由两个部分组成，基因变异对吸烟的影响，以及吸烟对肺癌的影响。给定DAG，可以估计这两个中的第一个，因为没有后门路径。也可以估计第二个，通过控制基因变异来研究吸烟对肺癌的影响。第三，直接效应，可以通过总效应中减去间接效应来推断。

中介分析的价值在于它阐明了因果路径。挑战在于，它要求我们识别若干构成因果关系的因素。因此它需要更多的假设，而不仅仅估计总体效应。

另一个与之密切相关的设定是代理变量。基本的DAG如图7(b)所示。与中介效应的设定相比，这里新增的重要假设是在这个设定里没有直接影响。一个突出的用例是由两个样本（参见Gupta,Kohavi,Tang,Xu,Anderson,Bakshy,Cardin,Chandran,Chen,Coey,et al.,2019）讨论了在科技公司的实验北京下使用两样本替代法。第一个样本来自一个随机实验，其中既有基本的处理变量也有可观测的中介变量/代理变量。目的是估计处理对结果的因果影响，而不需要关于处理变量和结果变量的数据。在实践中，模型设定中通常包含多是代理变量。例如，在一个线上实验的设定里，短期实验中人们可以观测到许多中间结果而不是长期结果。

在代理案例中，就像在中介案例中一样，DAG可以阐明假设，特别是它排除了处理变量对结果变量的直接影响（如图7(a)）。它也排除了未观测到的影响处理变量和代理变量的混淆因素（图7(c)）。最后它通过假设排除了影响代理变量和结果变量的未观测的混淆因素（图7(d)）。DAGs很少提供估计策略和正式的统计假设。但是在PO分析框架中，会提供清晰的估计策略和推断方法。

9、“Elements of Causal Inference”

[Peters, Janzing and Scholkopf,2017]是一本讨论在计算机科学文献中因果推理的书，通常使用图形模型。书中的许多问题与传统经济学文献研究的问题有很多不同。例如，文献中有许多评估因果关系方向的文章，是X导致Y还是Y导致X。这个问题得到了相当多的关注，在计量经济学文献背景下的时间序列分析，引出了这个概念(Granger,1969;Sims,1972;Chamberlain,1982)。相比之下，CS文献集中在横截面设定。

我们能看出来哪个模型是正确的吗？显然没有额外的假设，是不可以的。但是如果愿意在模型上加上额外的结构，也许可以取得进展。例如，上述书中认为，未观测项或与右侧变量无关。如果它们的分布是高斯分布，选择哪个模型仍然不够充分，但是可以把两种模型区分开来。基于函数形式和分布假设对模型的设定在经济学中并不常见。基本问题也和经济学的设定不一样。在于许多经济问题中，我们都知道原因和结果，也就是我们知道因果关系的方向，问题在于因果效应的大小以及可能存在的无法测量的混杂因素。例如，我们通常感兴趣的是教育对收入的影响，而不是收入影响教育，因为我们知道哪个优先。

这个例子说明了在这本书中研究的问题是如何不同于经济学的问题。与计量经济学文献更密切相关的是关于不变性和因果关系的研究(Peters et al.,2016).

*今天介绍第一部分，下一次介绍第二部分。

拓展阅读

1. PSM倾向匹配Stata操作详细步骤和代码，干货十足，2.处理效应模型选择标准，NNM和PSM，赠书活动，3.PSM和马氏匹配已淘汰, '遗传匹配'成因果推断匹配之王，4.PSM, RDD, Heckman, Panel模型的操作程序, selective文章精华系列，5.广义PSM,连续政策变量因果识别的不二利器，6.PSM-DID, DID, RDD, Stata程序百科全书式的宝典，7.在教育领域使用IV, RDD, DID, PSM多吗? 使用具体References，8.分位数DID, PSMDID, 政策前协变量平衡性检验操作步骤和案例，9.逐年匹配的PSM-DID操作策略, 多时点panel政策评估利器，10.执行PSM的标准操作步骤, 不要再被误导了，11.PSM匹配后如何保留配对样本? 1:1, 1:4或更多情况呢？12.逐年PSM匹配后再DID识别因果的实证范文, 这就是逐年PSM-DID的操作范式！13.英诺丁汉大学校长为你讲解逐年PSM匹配-DID方法的操作, 并配上自己写的一篇范文！14.内生性问题和倾向得分匹配, 献给准自然试验的厚礼，15.粗化精确匹配CEM文献推荐, 程序步骤可复制，16.DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征，17.匹配方法(matching)操作指南, 值得收藏的16篇文章，18.中国工业企业数据库匹配160大步骤的完整程序和相应数据，19.Match匹配估计做敏感性检验的最新方法, 让不可观测变量基础上的选择无处遁形，20.无需检查协变量平衡性的CEM匹配, 到底有多神气和与众不同，21.因果推断中的匹配方法:最全回顾和前景展望，22.内生性问题和倾向得分匹配, 献给准自然试验的厚礼，23.倾向值匹配与因果推论,史上最全面精妙的锦囊，24.匹配还是不匹配？这真是个值得考虑的问题，25.匹配比OLS究竟好在哪里？这是一个问题，26.倾向匹配分析深度（Propsensity matching analysis），27.倾向得分匹配PSM, 你真的用对了吗? 对主流期刊86篇文章分析与总结！28.中文刊上用倾向得分匹配PSM和内生转换模型ESM的实证文章有哪些？不看至少需要收藏一下！29.倾向得分匹配PSM, 你真的用对了吗? 对主流期刊86篇文章分析与总结！30.内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS，31.ESP内生转化概率模型是什么, 如何做, 如何解释, 为什么需要它? 32.Heckman模型out了,内生转换模型掌控大局，33.因果效应中的双重稳健估计值, 让你的估计精准少误，34.加权DID, IPW-DID实证程序百科全书式的宝典

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

2.5年，计量经济圈近1000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

ECM主编: 潜在结果和有向无环图在因果推断实证研究中的应用权威讲解

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

生成图片，分享到微信朋友圈

ECM主编: 潜在结果和有向无环图在因果推断实证研究中的应用权威讲解

您可能也对以下帖子感兴趣