查看原文
其他

因果推断 | 近年来最全面和接地气的“因果推断统计学综述”, 真后悔接触这篇还是晚了点!

数据Seminar 2022-12-31

The following article is from 计量经济圈 Author 计量经济圈

作者:牛坤在,天津大学天津大学管理与经济学部

通信邮箱:kunzainiu002@163.com

本文转载自公众号:计量经济圈

*读完这个之后,建议可以看看文后附上的二维码里的原文PDF

Keele, L. (2015). The Statistics of Causal Inference: A View from Political Methodology. Political Analysis, 23(3), 313-335. doi:10.1093/pan/mpv007

Many areas of political science focus on causal questions. Evidence from statistical analyses is often used to make the case for causal relationships. While statistical analyses can help establish causal relationships, it can also provide strong evidence of causality where none exists. In this essay, I provide an overview of the statistics of causal inference. Instead of focusing on specific statistical methods, such as matching, I focus more on the assumptions needed to give statistical estimates a causal interpretation. Such assumptions are often referred to as identification assumptions, and these assumptions are critical to any statistical analysis about causal effects. I outline a wide range of identification assumptions and highlight the design-based approach to causal inference. I conclude with an overview of statistical methods that are frequently used for causal inference.

目录

摘要:这篇文章主要提供了一个统计的因果推断概述。关注给统计估计一个因果解释所需要的假设,而不是某一种统计方法,比如匹配。这种假设通常被称为识别性假设,这些假设对于任何因果效应的统计分析都是至关重要的。首先概述了一系列广泛的识别假设,并强调了基于设计的因果推断方法。最后概述了一些经常用于因果推断的统计方法。

1. 引言(introduction)

在生物和社会应用领域,由于原因往往是偶然的,结果很少有独特的原因。在这种情况下,适合使用因果关系的反事实模型。在反事实模型下,通过可观测和不可观测事件来定义因果关系。
过去20年,潜在结果框架作为因果关系的反事实模型的一种表现,主导了关于因果关系的统计思维。这是对过去概念的改进。原因是,首先,反事实方法为数据因果关系信息所需的假设提供了新的视野。具体来说,人们对因果推断所需的假设以及这些假设的确切含义有了新的兴趣。其次,重新强调研究设计和基于设计的方法。基于设计的方法没有一个普遍的定义,但是当研究设计被仔细构建以支持估计之前的假设时,统计分析更有说服力。
这篇文献提供了一个统计因果推断的路线图,将因果推断的统计分为三个部分:因果识别、基于设计的方法和统计工具。

2. 识别(identification)

2.1 识别的基础(basics of identification)

(1)因果识别的基本理解
如果理论上有可能用无穷多个观测值来得到某一参数的真实值,那么就说这个参数是被识别的。但实际上,对于可识别性问题,即使有无限数量的观测值,也没有足够的信息来了解模型中某个参数的真实值。Manski将推理问题分成两部分,识别和统计。前者是指试图描述可以用无限样本得到的结论;后者侧重用有限样本得到一些结论。
在统计学中存在很多识别问题。例如,一是使用边际分布识别概率分布混合的参数,试图基于总量推断单元;二是基于缺失数据的推理,可以使用一组关于缺失数据的假设来解决识别问题,或者改变数据收集过程,减少数据的缺失;三是因果推断,由于某些反事实量不可观测,只能通过假设解决识别问题。
为了理解因果识别是否成立,必须进行识别分析。识别分析中,需要提供识别特定因果效应所需的一组假设的陈述和证明,当假设成立时,才能从具有无限样本的随机实验数据中计算出因果效应。通常而言,非参数识别分析允许人们陈述识别所需的最弱的一组假设,是很重要的。
(2)因果推断中的识别问题
1)根源:ATE与ATT
Rubin Causal Model是形式化因果推断识别问题的一种方法,也被称为潜在结果框架。在潜在结果模型中,每个单元都有多个潜在结果和一个实际结果。潜在结果代表在存在或不存在处理的情况下产生的行为,而实际结果取决于实际接受的处理。实际结果是处理分配和潜在结果的函数。在这个框架下,可以定义一个二元处理Di的层次因果效应的形式,即不同潜在结果的比较。这种比较形式可以是差值或比率。但是由于无法观测到潜在结果,便无法估计真实的因果效应,这成为因果推断的一个基本问题。在这种情况下,关注的是平均处理效果,即ATE(Average Treatment Effect)【ATE = E[Yi1-Yi0]】
ATE是在整个群体中平均的一对潜在结果的平均差异,而因果估计通常被定义为特定子群体的平均值。例如对由处理前的协变量(如性别)定义的亚群体进行平均,并且只对女性进行估计。这被认为是更局部的估计,即ATT,被定义为接受处理者的ATE。【ATT = E[Yi1-Yi0|Di=1]】
最后,根据潜在结果来定义相关的亚群体,最广为人知的是工具变量。分析人员应该考虑到因果效应可能只在特定的分位数出现。
2)独立性假设
对于上述的这些要求,有些术语是不可观测的,即使拥有无限大小的样本,也不能在不观测两种潜在结果的情况下估计平均因果效应。具体来看,是指分配给处理组样本的比例,可以将ATE分解为潜在结果的函数:

ATE就变成了有5个变量的方程。如果没有额外的假设,我们只能直接从观测数据中估计出其中三个变量,而处于控制状态的单元在处理下的平均结果和处于处理状态下的单元在控制下的平均结果都无法被估计,这两个未观测到的反事实量使我们面临一个因果识别问题。因此,必须找到一套允许识别的假设。
在因果推断中,识别通常是基于处理状态独立于潜在结果的假设。当独立性假设成立时,可以将观测结果和潜在结果联系起来。此时,对未观测到的潜在结果的期望等于对观测到的处理分配结果的条件期望。那么,什么时候有理由假设处理和潜在结果之间的独立性?
3)独立性假设的前提
必须假设稳定单元处理价值假设成立(Stable Unit Treatment Value Assumption (SUTVA))。通常由两个部分组成,一是没有隐藏的处理形式,即;二是受试者的潜在结果不受其他受试者处于处理状态的影响。
第一个部分通常被称为一致性假设,假设对接受处理的单元,我们观察该处理的潜在结果。但是存在争议,因为在实际缺乏一致性的情况下,人们不知道数据在估计哪个反事实的对比。比如,如果处理是15分钟的运动,这里有很多种运动的不同形式,就很难证明任何基于效果评估的决策是正确的,因为我们可能不知道哪种形式的运动实际上使得处理是有效的。支持者认为只要因果模型是正确的,就会出现一致性。因而,如果潜在的结果独立于运动处理,就可以排除其他原因的存在,但是这种处理可能包含其他成分,使得识别是困难的。
第二个部分被是一个更严重的问题。如果我们对一个单元进行处理,该单元将一些处理传播到一个或多个控制组群体中,那么就变成了处理单元和部分处理单元之间的比较,因果参数将不会被识别。另外,随着时间的推移,不同的处理方法也可能导致违反SUTVA。
(3)两种常见的识别威胁
最后介绍了两种最常见的识别威胁。首先是由于一个共同的原因造成的混杂。混杂在许多统计文本中被认为是一个虚假的关系,因果变量同时受到其他变量的影响。其次是两个变量同时影响其他变量。这都会导致因果识别的失败。

接下来分别介绍因果分析中的识别策略和解决因果推断识别问题的策略。

3. 识别策略(identification strategies)

识别策略是一种研究设计,旨在解决因果推断的识别问题。本文提出了随机实验、自然实验、工具变量、断点回归设计、可观测值的选择、时态数据可观测值的选择、部分识别等策略。

3.1 随机实验(randomized experiments)

随机实验是指受试者通过随机机制被分配,像投硬币一样。实验的关键在于,研究人员可以强加特定类型的分配过程,增加处理状态和潜在结果之间的独立性。如果处理独立于潜在结果,那么处理效果参数是确定的。在这种识别策略下,研究人员认为独立性成立,处理组和对照组在可观测和不可观测方面的特征都是相同的。这意味着随机化允许排除由于共同原因造成的混杂。
随机实验的可能出现的问题:
1) 必须假设SUTVA是成立的;当随机化后,受试者的结果不可用时,随机实验可能无法给出有效的因果估计;受试者不服从分配的处理状态(详见See Gerber and Green (2012))
2) 内部有效性和外部有效性问题:一项随机实验确定了研究中受试人群的处理效果,但这种处理效果可能会也可能不会对其他人群产生影响,因而随机实验通常被认为可能缺乏外部有效性。然而,许多对因果推断感兴趣的人倾向于看重内部有效性而非外部有效性。他们更重视一个执行良好的实验室实验,而非具有非常大的代表性数据样本中观察到的关联。

3.2 自然实验(natural experiments)

自然实验是自然发生的事件,使得单元被随机分配在处理组或控制组,从而在处理分配和潜在结果之间产生独立性。但无法充分肯定自然实验的处理分配一定是随机的。因为自然实验远超出了研究人员的控制,无法知道处理分配是否真的随机。例如,Lyall (2009)探究不加区分的暴力是否会增加叛乱袭击时,利用了炮击模式,这种模式可能是任意的也可能是随机的,他发现处理似乎与处理前的协变量无关。因此,自然实验通常需要仔细论证处理的随机性质。此外,自然实验也无法知道在其他单元内识别的因果效应是否成立。

3.3 工具变量(instrumental variables)

是指通过诱导单元接受处理而影响结果。Holland (1988)概述了将随机激励设计作为工具变量,把这个设计描述为一个激励参与者锻炼的实验。当受试者被随机激励进行锻炼时,受试者选择是否进入锻炼处理组。另外,一些被分配到非锻炼组的人将决定锻炼。最后所有参与者都被测量结果。在这个设计中,由于激励是随机分配的,激励的效果是确定的。这种要求通常被称为意向性分析(intention-to-treat,ITT) 。在额外的假设下,工具变量通过随机激励来确定那些被诱导接受处理的单元的平均效果。它是为一个亚群体而定义的具有局部特征的方法,通常被称为一般因果效应或局部因果效应。
为了使工具变量提供有效的因果推断,必须满足五个假设。一是激励的随机分配;二是SUTVA;三是工具变量对结果没有直接影响,也被称为排除约束;四是单调性;五是必须对处理有影响,即相关性。前两个假设与识别意向性分析所需的假设相同,其余三个假设是识别一般因果效应的附加假设。
现实生活中可以创造出模仿随机激励设计的环境。Hansford and Gomez (2010) 试图理解较低的投票率是否会降低民主党的得票率。利用在选举日降雨似乎会降低投票率这一事实,将降雨作为一个好像是随机阻碍投票的有效的手段,从而得到局部因果效应。(其他的具体案例和描述见Bound, Jaeger, and Baker (1995) ,Green (2011))
相关统计文献的一个重要观点是隐含的常数效应假设的作用。基于回归的工具变量需要一个假设,处理的效果在各个单元之间是恒定的。Angrist, Imbens, and Rubin (1996)表明,在非参数潜在结果框架下,这些假设可以被放宽。

3.4 断点回归设计(RDD,Regression Discontinuity Designs)

断点回归(Regression discontinuity, RD)设计是另一种识别策略,被归类为自然实验的一种。
(1) 基本介绍
二元处理变量Di是一个已知连续变量Si的函数,Si是分组变量。RD分为两种类型,一种是精确断点回归(Sharp RD), Di是Si的确定性函数,c是一个已知的断点值,当Si<c时,Di=0,否则Di=1;另一种是模糊断点回归(Fuzzy RD),处理变量是一个给定分组变量的随机变量,但是在Si=c处,个体得到处理的概率必须是间断跳跃的。这意味着Si<c时,也有可能得到处理。模糊断点回归导致断点回归和工具变量之间具有等价性,Lee and Lemieux (2010)有更进一步的研究。
(2) 两个思想
1) 连续性假设:潜在结果必须是断点值附近分组变量的连续函数。个体样本非常接近断点值,但是处于断点值左右两侧,被认为是可比的或者是彼此的反事实,由此在断点值处可识别因果效应。通常假设在断点值周围有一个邻域,邻域内的处理状态时随机分配的,个体除了接受处理的概率不同,其他方面没有系统差异,那么断点值附近的结果不同归因于处理的效果。
2) 断点回归识别了分组变量等于或接近c的局部平均处理效应,因此应该使用断点值附近的被认为是好的反事实的单元集。这里,由于未建模的非线性可能被误认为是处理效果,会出现复杂的情况,详见Angrist and Pischke (2010)。

3.5 选择可观测值(selection on observables)

在这个识别策略下,存在一些协变量,作为处理分配随机化的条件,即假设处理是有条件独立于潜在结果的,以观察到的协变量为条件。处理这个假设的方法包括回归、匹配和加权等。对回归而言,虽然希望能够控制更多影响结果和处理的协变量,但是在没有进一步假设的情况下,不能以任何受处理影响的协变量为条件,这会使估计结果出现偏差,被称为过度控制或不良控制。更复杂的是对处理前协变量的调整可能会导致偏差,被称为M-bias。因此,必须谨慎选择协变量。

3.6 选择时态数据的可观测值(Selection on Observables with Temporal Data)

当数据包含多个时间段时,要求处理组和控制组之间的差异是可观察的这一假设被削弱,可以选择三种不同的识别策略:固定效应、双重差分和基于滞后的识别(详见Angrist and Pischke (2009, chap. 5))。
(1)固定效应:如果混杂因素不随时间变化,其未被观察到也没有关系,但必须假设处理效果是线性和相加的。
(2)双重差分:关键的假设是在没有处理的情况下,处理组和控制组的结果趋势是相同的。
(3)基于滞后的识别:使用过去的结果,这是可观测协变量和不可观测变量的函数,相当于间接的将不可观测变量作为条件。

3.7 部分识别(Partial Identification)

对处理效果设置界限。分析从无假设界限开始,并且增加关于处理反应或分配的性质的假设,从而进行推论。实际应用包括:Lee (2009)使用部分识别方法进行缺失结果数据的随机实验;巴尔克和珀尔(1997)在工具变量识别策略下使用部分识别来放松单调性假设和排除限制;部分识别也支持许多形式的敏感性分析。

3.8 中介分析(Mediation Analysis)

在中介分析中,主要关注将总效应分解为间接效应和直接效应。假设存在依赖于Mi的因果机制,Mi被称为中介变量,间接效应是指处理通过中介变量对结果产生间接影响,直接效应是指通过其他可能的中介产生的处理效果。
中介分析包括两种识别。一种是总体效果的可识别性。一种是顺序忽略的假设,排除中介变量与潜在结果之间的混淆。必须首先证明总体效果的可识别性,否则中介分析没有什么用。

3.9 关于假设的推理(Reasoning About Assumptions)

对识别策略的合理性进行推理是因果分析的关键部分,其合理性取决于特定的经验背景。特定背景下选择不同的识别策略的案例如, Sekhon and Titiunik (2012)使用可观测值的选择, Gordon (2011)和Keele and Minozzi (2012)使用DID。
只有仔细理解假设才能证明识别策略在给定环境中的合理性。对识别假设的重新阐述能够帮助更好地理解这些假设。相关例子如Lee (2008)开发了一种方法解释RD设计中的连续性假设;Angrist, Imbens, and Rubin (1996)将传统的基于协方差限制的IV假设重新进行陈述。

4. 设计的方法(The Design-Based Approach)

概念:是一种强调设计而不是统计建模的统计分析模式。下面列举了一些技术,是基于设计的方法的一部分,可以用于提高识别策略的可信度。

4.1 减少异质性(Reducing Heterogeneity)

这里的异质性是指处理前,研究单元之间某些特征就表现出相当大差异,导致无法明确处理后的差异是由处理措施导致的。异质性的降低可以通过两种方式实现:随机化前进行阻断和允许更精确地估计处理效果。在一项观察性研究中,减少异质性通常意味着将样本量减少到一个更少、更具有可比性的子集。例如,Norvell and Cummings (2002)在了解摩托车上带头盔是否会降低死亡风险时,通过观察同一行为群体内部发生的结果,进行对内比较,减少了包括道路条件、交通模式、不同速度等因素在内的异质性。
虽然反对的观点认为这种做法丢失了部分数据会降低统计效率,但是效率是观察型研究中的次要问题。增加样本量可以将置信区间缩小到排除真实处理效果点的估计的点。增加额外的观测值可能会增加偏差。关注小样本存在其合理性。减少单元异质性相当于将分析限制在整个数据集种更同质的子集,有助于降低抽样的不确定性和不可观测的混杂因素的偏差的敏感性。在小样本中,处理单元和控制单元之间的差异不是通过统计方法而是通过设计来减小的。具体实践的案例参考:Crump et al. (2009), Rosenbaum(2012), and King, Lucas, and Nielsen (2014);Zubizarreta et al. (2013) and Keele, Titiunik, and Zubizarreta (2014)。

4.2 证伪检验(Falsification Tests)

证伪检验的依据是,当我们发现不应该存在因果效应却存在时,意味着隐藏着混杂因素和识别策略的失败。在RD中,通常被称为安慰剂检验。
Rosenbaum (2002b)的例子。研究了食用被甲基汞污染的与是否会导致染色体损伤。研究人员收集了许多健康相关的数据,包括受试者是否患有哮喘,发现没有证据证明二者的因果关系。已知甲基汞对哮喘没有任何的影响,研究人员测试了其对哮喘的处理效果,发现二者存在因果关系。因而基于可观察假设的选择是不合理的,处理组和控制组之间存在一些不可观察的差异,产生了不应该存在的处理效果。

4.3 敏感性分析(Sensitivity Analysis)

敏感性分析为识别策略的合理性提供了可量化的陈述。如果一个因果推断是敏感的,轻微违反假设可能导致实质上不同的结论。例如,探讨在考虑与吸烟的联系后,未观察到的混杂因素是否有可能解释肺癌发病率的剩余变化。对许多识别策略,敏感性分析的具体形式尚未开发出来。
Rosenbaum (2002b)开发了一种方法理解是否选择可观察的识别假设对隐藏的混杂因素很敏感。在这种方法下,根据推测的混杂水平对处理效果点估计值或p值等数量进行限制。也就是说,混杂程度是给定的,对于该混杂水平,可以计算处理效果点估计的界限。如果零包含在这些界限中,识别策略的失败将逆转该混杂水平的研究结论。人们可以改变混杂水平,观察少量或大量混杂是否会逆转研究结论。

4.4 模式特异性(Pattern Specificity)

通常需要建立多方面的证据来证明因果关系。模式特异性的含义是:应该测试尽可能多地检验因果理论的相关含义,加强因果效应的证据。在此种情况下,设计的一部分是基于因果理论的大量假设的生产和测试。如果一系列测试成功,因果理论的可信度会更高。
小结:
在这一节中,文章强调了基于设计的方法的重要性。一般来说,基于设计的方法下的因果分析寻求一个合理的识别策略,然后经常使用上述技术来提高该策略的可信度。虽然这些技术中没有一种能够排除隐藏偏见的存在,但它们通常可以提高许多识别策略的可信度。

5. 因果推断的工具(Tools for Causal Inference)

本章介绍了处理效果分析中常用的一些方法。在选择识别策略并且完成设计后,接下来转向因果效应的估计。

5.1 因果图(Directed Acyclic Graphs)

因果图是一种识别工具,而不是统计分析。主要以图形化的方式形式化识别概念。从给定的图中,可以导出非参数识别效果,并识别哪些变量或变量集是识别所必须的。在识别条件很好理解的情况下,如在一个良好的随机实验或自然实验中,它对分析的帮助很小;在可观察的选择下,它是一种有用的方式。

5.2 估计方法(Estimation Methods)

非参数识别成立时,意味着一个有效的非参数估计量。如果分析人员应用一种对处理有线性反应的假设,而实际反应是非线性的,函数形式的错误就会导致效果产生偏差,以致人们认为处理没有效果,而实际上效果是非线性的。因果分析中使用的许多方法往往是非参数或半参数的。
(1)回归(Regression)
这里的回归指最小二乘法、逻辑回归模型等线性、非线性模型。回归模型主要用于根据选择可观测值调整混杂因素。通常与本文描述的大多数识别策略结合使用,例如用于工具变量和断点回归的识别策略。
回归模型被视为因果效应的估计,受到了许多批评。一是对其所需的强函数形式假设表示质疑。但是回归模型不必然局限于限制性的函数形式,可以通过核方法等变得更加灵活,用于估计因果效应。二是回归模型通常基于分析者不容易观察到的推断产生处理效果估计。回归系数作为边际效应的基本解释可能导致对回归模型的因果解释是存在问题的,如果不仔细考虑识别策略,这种解释是不合理的。
回归模型有助于因果分析。例如,倾向得分是能够测度个体受到特定处理的概率,也经常被使用在匹配或加权的分析中。逻辑回归模型通常被用于估计倾向得分,在因果效应分析中起着关键作用。
(2)匹配(Matching)
匹配相当于非参数回归的一种具体形式,在不同识别策略中有多种用途。最常见的是在选择可观测值下结合匹配使用,以使处理组和对照组在观察到的协变量方面相同。也被用于断点回归设计和自然实验等识别策略中。
(3)加权(Weighting)
IP加权已经在重复和随时间变化的处理的背景下得到广泛使用。分析人员重新加权观察结果以创建一个伪总体,其中处理和控制单元有条件地独立于处理状态。这种伪总体是通过对研究中的单元用倾向得分的倒数来加权产生的。此外还有许多估计权重的替代方法。

5.3 推断方法(Inferential Methods)

一般来说,在因果效应的研究中,统计推断的模式是不同的。推断的模式是很重要的,因为在因果效应的研究中,不确定性的统计测量取决于如何分配处理。例如,在随机实验中,处理是基于个人还是群体,得到的统计不确定的计算是不同的。
处理效果的统计推断通常使用两种不同的框架之一进行定义。第一个框架是与Jerzy Neyman有关,第二个框架由Ronald Fisher开发。在第一个框架下,有两个问题:如果所有单元都接受处理,平均结果如何;如果所有单元都接受控制,与平均结果相比会如何。这个框架下的统计检验是平均因果效应是否为0。第二个框架下,检验的是精确零假设。分析人员检验每个单元的处理效果是否为零。但是这个方法没有检验平均效应为零的零假设。以Imbens and Rubin (2015)为例,假设Y0i=2,对于研究中三分之一的单元,处理效果是2,三分之二的单元,处理效果是-1,平均效应是0。如果只用一种推断模式,只能检测到一种效果。
分析人员需要熟悉这两种框架。因为阐明了统计推断的模式是如何起作用的。在Fisherian框架下,推理模式如何根据分配机制二变化是显而易见的。它还允许检验数量而不是平均效果。

6. 讨论(Discussion)

这篇文章倾向于识别因果效应,而不是匹配方法的复杂性或双重稳健估计的相对优点。因果效应统计分析中的许多偏差都源于对识别和估计这两个概念的混淆。对识别的理解揭示了通常可以从因果效应数据中了解到的局限性,以及复杂的统计估计可能无助于识别策略。因果推断需要在许多不同的背景下采取一系列不同的识别策略才能得出结论。
本文的一个目标是阐明因果推断统计中的一个重要悖论,最可信的因果推断需要最少的统计分析。事实上,当因果推断可信时,大部分工作是在结果数据收集之前完成的,而不是因为使用复杂的统计方法。
接下来要解决的问题是日常统计实践在多大程度上吸收本文提出的因果关系的观点。基于识别的因果推断方法倾向于对基于可观测选择的统计分析持怀疑态度,与所谓的标准统计实践大相径庭。
政治科学中的许多应用可以被认为是具有随时间重复的动态处理。关于生物统计学中动态治疗的文献主要是针对一种与社会科学应用几乎没有相似之处的特定类型的临床试验而发展起来的。在为社会科学环境开发动态方法方面,还有许多工作可以做。因果推断也是未来研究的一个重要途径。在识别策略的选择上,由于政治学的许多领域进行随机实验存在困难,部分识别策略值得被应用。
长按以上二维码阅读原文PDF


星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧


往期推荐



统计计量 | 陆铭:交互项有什么用?为啥要做异质性分析?(加导读版)

软件应用 | Stata 17的新功能(三):使用数据加总法估计DID

软件应用 | 超全的 100 个 Pandas 函数汇总

数据资源 | 答辩过了!六个惊艳导师组的数据可视化工具

数据资源 | 这15个获取数据的爆赞的网站,你用过几个?

数据呈现 | 分享16个Matplotlib 绘图实用小技巧!

数据呈现 | Pandas 表格样式设置指南,看这一篇就够了!






数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


推荐 | 张静红


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存