因果推断是社会科学实证研究中的核心问题。自十八世纪的休谟开始,哲学层面对因果性相关问题已进行了丰富的探讨,中文文献中王天夫(2008)、彭玉生(2011)等对此进行过系统的总结。现代社会科学对因果关系的探索则构建于唐纳德·鲁宾(Donald Rubin)提出的反事实框架之上(Höfler,2005;Rubin,2011),并发展出包括实验与准实验、匹配和倾向值匹配、工具变量、倍差法、断点回归等适用于不同情境的因果推断方法。 国际社会学界对因果推断在实证研究中的应用研究起步较早(Sobel,1996;Winship and Morgan,1999;Winship and Sobel,2004;Morgan and Winship,2007)。2010年以来,相关问题在中国社会学界逐渐得到关注。如陈云松与范晓光(2010,2011)、胡安宁(2020)系统介绍了影响因果推断的内生性问题的来源和解决思路。胡安宁(2012、2016)和陈云松(2012)专题引介了工具变量、倾向值匹配等经典方法。同时,因果推断的实证应用也在中国学者的研究中不断积累(梁玉成,2010;陈云松等,2013,2014;Chen and Volker,2016;Chen and Williams,2016;刘伟峰等,2016;张春泥、谢宇,2017;程诚,2017;梁玉成、陈金燕,2019;Chen,et al.,2019)。近年来,国内学者进一步探讨了将大数据、机器学习等新技术引入因果推断的路径(陈云松等,2020;Chen,et al.,2021;胡安宁等,2021;陈云松,2022),这方面的探索已与国际社会学前沿同步(Edelmann,et al.,2020)。
事实上,的确存在一套这样的表达系统,直接用类似流程图的形式来阐明因果。这就是最早由计算机科学家、图灵奖得主朱迪·珀尔(Judea Pearl)提出的“因果图”(causal graph)。在社会学领域,摩根与温什普(Morgan and
Winship,2014)合著的因果推断教材《反事实与因果推断》,重点采用因果图与代数表达相结合的方式讨论不同情境下的因果推断问题。我们认为,基于因果图的非参因果推断框架能够为广大人文社科研究者提供另一种审视因果推断问题的有益视角,襄助对因果问题感兴趣者深入具体情境、明析偏差来源、澄清惯有误读、培养因果思维。因此,本文将结合中文社会学界对因果问题的已有讨论,系统性地引介这一分析框架。 本文第二部分将全面介绍因果图的基本概念与形式,并说明链状(chain)、叉状(fork)和反叉状(inverted fork)三种因果图的基础构型。在第三部分,我们将区分不同构型通路对应的开启和阻断规则,并阐明在因果图框架下因果推断的三大偏差来源(未控制混淆变量、过度控制中介变量、错误控制碰撞变量)。在第四部分,本文尝试将因果图分析框架与当前主流因果分析系统进行兼容:使用因果图阐释包括遗漏变量、样本选择、自选择及联立性偏误在内的四种内生性问题;使用因果图呈现多元回归与匹配、代理变量、实验、工具变量、面板模型等因果推断方法的运行机制。第五部分则基于因果图框架澄清一些因果分析中的常见误读。
因果图的概念和要素
因果图最早由计算机科学家、图灵奖得主朱迪·珀尔(Judea Pearl)提出,并在不同领域学者们的共同努力下逐步发展和完善,其中计算机科学与流行病学相关学者的贡献最为突出(参考Greenland,et al.,1999;Hernán and Robins,2020;Pearl,2009)。社会学家摩根、温什普等人(Elwert and Winship,2014;Morgan and Winship,2014)较早意识到因果图在理解因果问题中的重要价值,并致力于在社会科学领域推广这一方法。然而,迄今为止,因果图在社会科学领域获得的关注尚少(现有的一些介绍性讨论分散在不同学科,包括Marcus,et al.,2018;Montgomery,et al.,2018;Rohrer,2018等),也未曾引起国内社会学界的注意。 事实上,社会科学研究者对因果图背后的逻辑和动机并不陌生。因果图通过节点、线段和箭头三种元素的组合以图像化的方式直观呈现不同变量间的关联,在形式上与20世纪90年代流行的基于结构方程模型的路径图类似(Spirtes,et al.,1998)。此外,很多学者习惯在日常讨论中用点线图辅助表达分析思路,尽管这些图示往往不呈现在正式的论文里,仍然是实证研究过程中的重要一环。朱迪·珀尔等学者则通过定义明确的规范和逻辑,将这些随手摹绘的“示意图”化用为因果分析的利器。
再有,因果图也存在不同的细分类型,参考温什普等人的研究,本文采用开环有向图(DAG)这种形式(Shrier and Platt,2008)。所谓“有向”是指所有存在于两变量间的连线均以箭头指明从因到果的方向;开环则是说任何一个以特定变量为“因”的变量,都不会再指回到该变量,即因果图中不允许存在T→Y→T的形式。换言之,任何变量不会同时成为自身的子代变量。这一规则背后的逻辑在于,微观来看,任何“因”与“果”之间都存在先后次序,“因”必先于“果”发生。这也意味着因果图无法直观地表现社会科学研究中常见的互为因果问题(联立性偏误),如个体的身体健康程度和收入水平之间可能存在相互促进的作用。但正如摩根和温什普(Morgan and Winship,2014:80)所指出的,互为因果并不代表“因”与“果”真的同时发生,而是所使用的实证材料无法区分变量发生的先后关系,其解决方式有赖于改善实证材料、改进研究设计或改变问题假设。 进而言之,无论多么复杂的因果图,均由三种基本构型所组成。其一为链状(chain)构型,如图2(a)所示,位于三个变量间的两处箭头线方向均一致,变量A通过中介变量B充当了变量C的“因”,对应到图1左图中,X→T→C,T→C→Y,U→C→Y均是典型的链状结构。其二为叉状(fork)构型,如图2(b)所示,即以同一个变量A为源头延伸出两条箭头线,同时指向另两个变量B和C,本文将其概括为“共因”结构。在此情况下,作为另外两个变量共同之“因”的变量A被称为混淆变量,在图1左图中,变量X对于T和Y、变量U对于C和Y而言均为混淆变量。其三为反叉状(inverted fork)构型,如图2(c)所示,变量A与B分别有箭头线指向变量C,变量C即为A和B的“同果”,此状态下变量C被称为A和B两变量的碰撞变量(collider)。图1左图中除解释变量Y之外还存在一处碰撞变量,即作为变量T和U同果的变量C。
(一)相关性与偏差之源因果图的一项突出优势在于其能够清晰呈现系统中变量相关性与因果推断偏差的来源。更为巧妙的是,相关性与偏差之源又严格对应于因果图的三种基本构型,使研究者能够方便地掌握系统而条贯的理解框架、清晰而严谨的分析工具。两个变量间的相关性从何而来?因果图中显示如果两个变量之间存在相关关系,不论相关为线性还是非线性,其来源有且仅有三种可能,而这三种相关性之源如果处理不当又会诱发三种对应的偏差。 但是,在探讨这些问题之前,首先要厘清的是对“控制”这一概念的理解。中文语境下作为量化术语的“控制”一词实际上对应了英文中“control”和“condition”两词,但英文中这两个词的所指存在一定的差别。前者多指将特定变量纳入回归模型,这也与当前中文里“控制”一词的使用一致;后者则具有更广泛的涵义,即控制的本质是以特定形式将某项变量的信息引入分析过程,以实现针对特定群体的分析(Elwert and Winship,2014)。此处,分析过程不再限于回归模型,所用形式也不止纳入控制变量。其他控制方式包括基于个体特征进行分层、基于特定条件选择样本等,因果图中的“控制”概念即指这种“广义的控制”。在因果图中以使用方框“□”符号圈住特定变量来表现该变量以某种形式获得控制。 了解因果图中“控制”的涵义之后,即可讨论变量相关性与因果推断偏差的来源。因果图允许研究者以直观的形式呈现三种相关性和偏差对应的情形,如表1所总结。1. 因果关系带来相关第一,两变量间如果存在因果关联则能够带来相关性。当两变量之间存在因果关系时,“T能够导致Y”本身就意味着两者间存在相关性,而确定这一关系是因果推断的根本目标。值得提及的是,因果图中两个变量间的因果关系可以直接用箭头线表示,如图1左图中的T→C和C→Y;也可以是经中介变量传导的链状构型,如T→C→Y中,尽管间隔了变量C,但T仍然是Y之“因”。这在社会科学实证情境中也很常见,例如“学习能力→高考成绩→考入大学”之间,学生需要通过高考成绩进入大学,高考成绩在学业表现和考入大学之间充当了中介变量,但仍不妨碍较高的学习能力与考入较好的大学之间具有清晰的因果关联。然而,如果链状构型中存在中介变量,也存在产生偏差的可能,即对中介变量的过度控制。这一情况指的是由于错误地控制了中介变量,阻断或削弱了变量间真实的因果效应。表1中绘制了过度控制对应的因果图情况,由于变量A与C之间的因果效应依赖B传导,控制变量B后即消除了A和C之间存在的关系,进而会错误估计A和C之间不具有因果效应。2. 混淆变量带来伪相关第二,对应于叉状构型,当两变量间存在“共因”时,则在统计学上体现相关关系。也就是说,尽管图2(b)中B、C两变量之间不存在因果关系,但由于同时受到混淆变量A的影响而表现出统计学相关性。典型案例为俗语“一打雷就下雨”,从气象成因的角度,打雷并非下雨的原因;但如果记录打雷和下雨同时出现的频率,则呈现高度的相关。这种相关性之所以存在,在于打雷和下雨具有相同的原因(如湿度达到一定水平形成积雨云等)。对于希望确定变量间因果关系的实证社会科学研究来说,如不加分辨和处理,此类相关关系可能误导研究者得出两变量之间存在因果关系的结论,因而被称为伪相关。这是因果推断中最常见的一种偏差来源。此时,如表1所示,如果控制混淆变量A,则B、C两变量间的相关性被消除。其原因在于,既然变量A是导致B、C之间存在相关性的原因,那么将变量A的信息引入系统后,相当于将样本按照变量A的取值划分为特定数量的小组,对变量B、C关系的探索发生于各小组内部。此时,变量A的因素被消除,B、C之间的伪相关将不复存在,这也是定量研究中加入控制变量的原因所在。
3. 控制碰撞变量诱导伪相关
第三,对应于反叉状构型,如图2(c)中当A、B两变量之间不存在因果关系,仅有一个作为“同果”的碰撞变量C时,A、B两变量间本身不会因变量C的存在而具有相关性。然而,将变量C控制之后,变量A与B之间会出现伪相关。与因存在混淆变量导致伪相关的情况不同,因控制碰撞变量造成伪相关的过程较为抽象,本文引用埃尔韦特与温什普(Elwert and Winship,2014)所举的好莱坞演员的例子进行说明。为便于讨论,首先预设就人群整体而言,个人的才气和相貌间不存在关联,即两者间既无任何方向的因果关系,也不存在作为“共因”的混淆变量。其次,一项合理的预期是过人的才气和姣好的相貌都能正向提升个体成为好莱坞演员的概率。套用图2(c)的构型,则A、B两变量分别对应个体的才气和相貌,变量C为是否能成为好莱坞演员。那么,当控制作为碰撞变量的C后,如只考虑那些成功成为好莱坞演员的个体,当已知该演员才气平庸时,那么基于此人能够成为演员的事实可以推断其有极高概率相貌出众;反之,如果已知某演员相貌普通,可以合理推测其应当拥有过人的才华。因此,尽管个体才气和相貌这两项先赋因素本身不具有任何因果关系,但在好莱坞演员这一特定人群中,两变量会呈现反向的伪相关性。这种由于不当控制碰撞变量所产生的偏差被称为内生性选择偏差。
摩根和温什普使用蒙特卡罗法模拟了大学申请者的SAT成绩和面试得分情况——两项决定申请者能否被录取的主要指标,并预先赋予两者间一个系数为0.035的正向相关;随后,分别在模拟样本中检验录取和未获录取的两个群体内部个体SAT成绩和面试得分的关系。研究发现,被录取者的SAT成绩与面试得分的相关系数为-0.64;而在未被录取的群体中,两变量的相关性为-0.23(Morgan and Winship,2014:108)。这一结果直观地揭示了对碰撞变量的不当控制可能带来严重的偏差,甚至得出完全错误的结论。根据流行病学等领域的学者对内生性选择偏差影响的评估,当碰撞变量为二元变量时,如果错误控制碰撞变量,引入的偏差幅度通常与未能控制混淆变量的影响相当(Greenland,2003)。这说明在实证研究中,内生性选择偏差问题不容忽视。然而,不同于因遗漏混淆变量导致的伪相关,因控制碰撞变量引起的伪相关的方向和程度均依赖于具体情境,不存在简洁通用的判断方式。最后,控制碰撞变量的子变量同样会诱发伪相关问题,其效果与直接控制碰撞变量相同。如表1所示,其解决方式是认清系统内存在的碰撞变量,并尽量避免控制这些变量。事实上,内生性选择偏差在社科实证研究中很常见,埃尔韦特与温什普在论文中列举了大量社会学案例(Elwert and Winship,2014),本文后续也将在不同情境下对此问题做更详细的讨论。 上述链状构型代表的因果关系、叉状构型中未控制混淆变量引起的伪相关、反叉状构型中因控制碰撞变量诱发的伪相关三种情形,覆盖了变量之间存在相关关系的所有可能。不仅如此,因果图中所有可能的偏差来源也被清晰地概括为三种类型:(1)会削弱甚至消除变量真实因果效用的过度控制偏差;(2)会额外产生两种伪相关的因未能控制混淆变量引起的混淆偏差;(3)由于错误控制碰撞变量导致的内生性选择偏差。
2. 自选择偏差自选择偏差同样归结于因果推断中的叉状构型。自选择指的是个体因自身原因选择某些行为或参与到特定项目中,即干预变量并非随机分配的。伍德里奇(Wooldridge,2002:255)使用两个案例来说明自选择问题:在探讨个体饮酒行为对收入的作用时,伍德里奇强调可能存在一些个体特征,既决定了个体是否饮酒,又影响到个体的收入水平;其二为参与培训项目对学生成绩的影响,学生能否参与培训项目与其家庭背景因素(如父母受教育程度、家庭收入水平等)有很大关系,而家庭背景又会影响到学生成绩。这两个案例同样是因果图中典型的叉状构型。陈云松、范晓光(2010)在研究中强调自选择中被遗漏变量的非观测因素特征,恰与文初变量标志定义相关。仍使用X表示能够被观测到的变量,U表示难以观测但同时影响解释变量和被解释变量的因素。尽管面临的都是混淆变量干扰的问题,但相较于图4(b),图4(c)图中的伪相关更难消除。因而,相较于一般的遗漏变量问题,自选择带来的偏差通常更难解决。3. 样本选择偏差与非随机缺失值样本选择偏差是相对更为复杂的一种情形。陈云松、范晓光(2010)的研究将其解释为“因变量的观察仅仅局限于某个有限的非随机样本”,即样本能否被观察到取决于其解释变量的取值,在计量教材中有时也被称为内生性样本选择(Wooldridge,2002:325)。伍德里奇曾举例,在讨论个体教育对收入水平的影响时,仅关注那些收入水平在特定条件下的人群(如年收入十万以上者),得到的教育对收入的影响与在整个人群中的实际影响程度不同,这是典型的样本截断问题(Jerry and Wise,1977)。应用因果图框架,考虑系统中存在一些不易被观测的因素(如个体智力等)会同时影响个体的受教育水平及未来收入。如前文所述,这些因素本身作为混淆变量,在不能被有效控制的情况下会带来偏差。但是,当所用样本基于因变量信息被截断后,系统中会存在另一种由碰撞变量带来的偏差。如图5(a)所示,被解释变量个体收入水平是受个体智力和教育水平同时影响的碰撞变量,在以“年入十万”为标准对人群分层之后,实际上开启了另一层个体智力与教育水平之间的伪相关关系。由此带来的双重相关无法真实反映个体教育和收入水平间的真实关系。 进一步而言,无论是否存在遗漏变量,基于因变量的样本截断总会给系统带来偏差。不妨将案例中的个体智力换作彩票是否中奖,一项与个体受教育程度无关却直接影响到个体收入水平的因素,在一般的回归过程中这样的变量并不需要被控制。如图5(b)显示,尽管不存在混淆变量,但由于作为被解释变量的个体收入水平充当了教育水平和彩票中奖的碰撞变量,当系统通过样本截断控制了个体收入水平后,会开启教育水平和彩票中奖间的伪相关。此时,除了个体教育和收入水平之间本身存在的因果关系外,还加上了一条“教育水平→彩票中奖→收入水平”的伪相关。在此情况下,个体教育和收入水平间的相关程度同样不等于因果效应。事实上,可以将“彩票中奖”看作与解释变量“教育水平”无关的误差项的一部分,而被解释变量永远会是解释变量和对应误差项的碰撞变量(Elwert and Winship,2014)。由于实践中不可能穷尽构成误差项的所有因素并加以控制,所有基于被解释变量的截断操作均会引入内生性选择偏差带来的伪相关。
现有因果推断方法主要解决因存在混淆变量导致的混淆偏差问题。基于混淆变量能否被观测到需要采取不同的对策。当混淆变量能够被观测到,消除偏差的方法就是在系统中控制这些混淆变量,常用做法包括多元回归和匹配;当存在无法被控制的混淆变量时,研究者面临着更为复杂的情境,需要根据情况选择寻找代理变量、实验或准实验、工具变量、面板模型、断点回归、双重差分等方法(Morgan and Winship,2014;Wooldridge,2002;陈云松、范晓光,2011)。 其中,多元回归与匹配或倾向值匹配的方法均通过在系统中控制已知的潜在影响因素来消除混淆偏差。因此,尽管摩根和温什普(Morgan and Winship,2014:128)将这两种途径区分为控制直接影响自变量分配的因素和对影响因变量的其他因素进行分层,但两种方法的作用逻辑和预期效用是一致的,对应的因果图均如图7(a)。
当系统中存在无法直接观测的因素时,如果这些因素的涵义比较明确,最直接的方法是寻找替代变量。如在社会科学研究中,经常使用考试成绩代表个体的认知能力,使用自评心理状况量表代替心理健康程度等。然而,如果代理变量不能完全反映对应的因素,仍会有部分混淆偏差遗留在系统中,如图7(b)(c)所示。 其次,如果条件允许,理论上,使用随机实验能得到最可靠的结果。如图7(d)中,由于干预因素是随机分配的,即使存在其他影响被解释变量的因素,也不会与自变量构成伪相关通路。此时,解释变量与被解释变量之间的相关程度直接反映了两者间的因果作用。这也是基于实验所得的结论往往被视为黄金标准的原因。 工具变量是另一种常用的因果推断方法,它的基本逻辑是寻找一项完全外生的因素仅通过直接作用于自变量而影响因变量,进而估算自变量中直接受外生变量影响的部分对因变量的作用程度,图7(e)中的变量I即为工具变量。对工具变量具体机制的解读可参考相关研究(Angrist,et al.,1996;陈云松,2012;Morgan and Winship,2014:293)。图7(e)同时反映了一个重要信息:尽管工具变量I仅通过解释变量T作用于被解释变量Y,但控制T后I与Y仍存在相关性。这是由于解释变量是工具变量与混淆变量的碰撞变量,控制解释变量后会开启I→T←U→Y的通路。因此,尽管工具变量与被解释变量间的通路完全由解释变量介导,但在实践中不能通过控制解释变量后测试工具变量与被解释变量是否仍然相关来判别工具变量的有效性。这也解释了为什么工具变量的外生性无法用统计方法来证明。
最后,图7(f)简要展示了面板模型的逻辑,参考上节的分析,通过控制所有混淆变量以及Y1能够阻断所有由T1到Y2的非因果通路。在实践中控制解释变量滞后项的做法为动态面板模型。如果预设系统中前一阶段的被解释变量对后续阶段被解释变量不存在直接影响,模型中不必纳入被解释变量的滞后项,此时为静态面板模型。 当系统中存在内生性选择偏差时,相对易于处理的情况是通过避免控制碰撞变量或阻断伪相关通路来消除内生性选择的影响。如果对碰撞变量的控制是由数据或系统本身导致时(如样本截断、缺失值、特定样本群体等),碰撞变量带来的偏差就无可避免。针对此类问题,赫克曼二阶段法是社会科学研究中应用最为广泛的纠偏途径(具体方法逻辑参考Winship and Mare,1992)。此外,一些新方法也在被不断提出或改进(d'Haultfoeuille,2010;King,et al.,2001)。更为彻底的方式则是提升数据质量或变更问题形式(Morgan and Winship,2014:80)。就内生性选择偏差而言,最重要的是准确判断是否存在碰撞变量、能否避免开启伪相关以及会不会影响到因果推断的效度,这些均是因果图能够助力之处。
然而,基于图8(a)中的信息,B类变量与因变量Y之间不存在直接的因果关系,仅因同受解释变量T的影响而具有统计学层面的相关。如果此条件严格成立,是否控制变量B对回归结果均不存在影响,解释变量与被解释变量的关联系数也不会被B分散。不妨以这样的视角来理解:首先关注B和Y的关系,两者间不存在直接的因果关系,仅有“B←T→Y”和“B←T←X→Y”两条通过混淆变量传导的通路诱发两者间的伪相关。而对这两条通路,控制变量T即可将其完全阻断,此时B与Y之间是条件独立的。那么,在多元回归的情况下,模型中本身包含了解释变量T,此时再将变量B作为控制变量纳入模型,B对应被解释变量的回归系数只会是0,不会对回归结果产生任何影响。事实上,要使变量B对T与Y间的因果效应产生影响,则在B与Y之间必须存在另外的不经T介导的关系。在变量B不应被控制的论断背后,实际上存在着两种不同的情境。 如图8(b1)(b2)所示,如果B和Y之间存在直接关系,可能由Y导致B,或者由B导致Y。这两种情况下均不应当控制变量B,但其所基于的理由和导致的后果却明显不同。当出现(b1)中的情况时,此时B是T和Y的碰撞变量,控制B会导致T→B←Y通路开启,造成T和Y之间的伪相关,影响对两者间真实因果关系的判断。但是,这种影响的方向和程度依赖于具体情境,无法一概而论。而在(b2)情境中,B作为中介变量介导了一部分由T到Y的因果效应,控制变量B后会导致对T与Y之间真实因果效应的低估——在这一情况下“控制变量B将分散自变量的回归系数”的说法才会成立。研究者在聚焦于对具体机制的探索时,有时会刻意选择控制中介变量来区分直接和间接因果效应(Pearl,2012)。 此外,值得澄清的一点是,仅基于解释变量或被解释变量一边做出的样本选择并不会导致偏差的产生。图8(a)中控制变量B的做法可被视为对解释变量T进行了选择,但由于这种选择与变量Y不产生直接的关系而不会影响到T与Y之间的因果效应,伍德里奇(Wooldridge,2002:325)称此为外生性样本选择。不妨用一种理想化的极端情况进行说明:图8(c)中分别以是否下雨和彩票中奖为干预和效应,而这两者本身是不存在任何关联的。控制干预为“下雨天”不会影响彩票中奖的概率;控制效应为“中奖”的条件下,当天是否下雨也与具体的彩票获奖金额无关。现实情况中,基于解释变量或被解释变量的选择往往会对因果推断造成影响,其本质在于这些选择会以某种方式影响到另一边,而非真正的完全无关。2. 控制干预前变量可能引起偏差尽管流行观念认为当特定变量发生在解释变量之前时,应当在系统中加以控制以消除偏差,但这样的操作同样存在风险。事实上,一些碰撞变量同样可能发生在解释变量之前,如果不加甄别,会诱导内生性选择偏差。埃尔韦特与温什普(Elwert and Winship,2014)采用一项社会网络案例加以说明。 图8(d)希望探讨个体j在时间1的社会参与是否会影响到与其熟识的个体k在时间2(时间1之后)的社会参与程度。其中U代表相关个体特性如外向程度,这种特性显然会影响到个人交友情况,同时影响到个人的社会参与情况;Fi,j代表两个体间存在社会关系,这种关系发生在观测时间1和2之前。此时,即使假设Yj1与Yk2不具有直接的因果效应,但由于个体间存在社会关系是先验的,故“Yj1←Uj→Fi,j←Uk→Yk2”通路开启,Yj1与Yk2之间具有伪相关。这也是社会关系领域区分“物以类聚”和“近朱者赤”两种效应时面临的主要挑战(Shalizi and Thomas,2011)。
总结与讨论
本文系统地引介了因果图方法,用以辅助对因果推断问题的理解和分析。行文中首先介绍因果图的链状、叉状、反叉状三种基本构型。进而概括了变量之间产生相关性的三种可能及对应的因果推断中三种偏差的来源,即未控制混淆变量导致的混淆偏差、错误控制中介变量导致的过度控制偏差、以及错误控制碰撞变量导致的内生性选择偏差。随后讨论了用以阻塞通路的D分隔法则:“通路中存在被控制的混淆变量或中介变量;或通路中存在未被控制的碰撞变量或其子变量”,而有效的因果推断需要阻塞系统中的非因果通路并确保因果通路开启。 在此基础上,本文应用因果图框架来构建理解因果推断中核心概念的统一框架,包括使用因果图中的三种偏差来源对标四种内生性问题,即混淆偏差涵盖了遗漏变量和自选择两种内生性问题;内生性选择偏差则包含了样本选择和非随机缺失值带来的问题;联立性偏差相对特殊,需要在因果图中加入时间维度;此外,因不当控制中介变量带来的过度控制偏差也需要引起研究者的关注。而后,本文使用因果图表达了多元回归和匹配、代理变量、实验或准实验、工具变量及面板模型等因果推断主流方法的适用范围与运行逻辑。 本文认为因果图能够为因果关系的研究提供直观的非参数检验工具。不妨类比思维实验之于社会实验的关系。受到现实中的伦理、经费等因素的制约,一些社会实验设计难以实施,于是研究者们通过想象出理想化的实验、设定条件并预期结果,以佐新知发现(Gendler,2000)。这种构建于脑海中的实验在物理学、哲学等领域发挥着重要作用(Brown,1991)。而社科研究中则建议将思维实验作为现实实验的前奏和先导,用以确定方法思路、优化研究设计(Angrist and Pischke,2009)。与之类似,因果图也值得作为一个必要环节纳入因果推断的过程。即在实际的因果探究中,应当将其过程区分为非参因果推断和数据模型检验两个部分。前者使用因果图框架表达理论假设、选取控制变量并排除可能的干扰因素;后者则依照前者给出的策略使用数据进行测试。当然,具体实现应当是两个阶段不断交互优化的过程。