查看原文
其他

统计相关还是真实因果?——基于“因果推断”的新兴研究范式

摘 要:经济学研究强调的是变量间因果关系的识别而非统计上相关关系的判断, 然而由于传统的统计推断方法在识别因果关系时存在某些弊端和不足, 于是可以更加有效识别变量间因果关系的新兴研究范式“因果推断”开始兴起。以此为契机, 本文以统计推断和因果推断为主线, 阐述了两者之间的联系与区别、由传统的统计推断得到的因果关系是否可靠, 以及什么是基于随机实验思想的因果推断新风尚等重要问题。本文希望通过对上述相关问题的深入分析, 可以帮助读者更好地理解问题的本质, 进而选用更加合理的计量方法进行科学探究。


关键词:统计推断; 因果推断; 断点回归; 双重差分; 倾向值匹配;

>>>>


原文来源:金融与经济,作者:王舒鸿,崔欣,姚守宇


 一、引言



相关关系和因果关系既有相似又有不同, 而在经济学研究中, 我们更加关注的是变量间因果关系的识别, 而非统计上相关关系的判断。因此, 清楚地辨析统计上的相关关系或者真实的因果关系, 是进一步研究分析的前提。举例来看, 假设通过观察, 我们发现, 中国股市近20年来的大盘走势与非洲儿童平均身高的变化趋势有着高度一致性, 通过对二者进行回归, 并利用统计推断中的假设检验原理, 或许可以真的发现二者间的回归系数具有高度的统计显著性。然而, 这是否真的能够说明中国股市的发展状况与非洲儿童的平均身高确实存在着真实的因果关系呢?答案必然是否定的。


大量使用回归分析等统计推断方法来探究各变量间因果关系的文献, 忽略了一个重要前提。即在进行统计推断前, 我们首先要通过模型推导或文献推演来辨析变量间的内在逻辑关系。只有在满足上述前提的情况下, 我们才可以利用统计推断方法进行参数估计, 进而识别两者的因果效应。因此, 单纯的统计推断并不能帮助我们直接识别因果关系。所以, 在探究中国股市大盘走势与非洲儿童平均身高关系时, 即使两者在走势上有着高度的相关性, 但并没有经济理论或内在逻辑可以证明其因果性, 那么二者间的关系便只能代表简单的统计上的相关关系, 而非真实的因果关系。在这种情况下, 其利用统计推断的方法来识别二者间的因果关系自然是没有意义的。


进一步深入分析, 假设在进行统计推断前, 我们可以获取足够多的经济理论支撑, 现在我们考虑如何使用统计推断的方法来探究大学教育和个人收入间的因果关系?通常, 大多文献会使用虚拟变量方法, 即将接受大学教育的个体定义为1, 而未接受大学教育定义0, 然后进行回归分析, 估计参数, 进而识别因果关系。那么在确保变量间拥有内在逻辑的前提下, 上述统计推断的方法一定可以帮助我们识别最为准确的因果关系吗?答案同样是否定的。仔细分析可以发现, 即使我们可以通过虚拟变量方法来刻画个体是否参加大学教育这一活动, 但是由于个体间巨大的差异性, 其还存在着众多影响个体收入且难以观测的变量, 如性格、遗传等因素。然而上述难以观测的遗漏变量不可避免的会引发模型解释变量与随机误差项相关等内生性问题, 从而影响统计结果估计的一致性, 进而影响因果关系的识别。另外,即使在我们所有遗漏的变量都得到控制的情况下, 也有可能会出现由于变量测量误差 (1) 或样本选择偏差 (2) 而产生的内生性问题, 从而影响因果关系识别的准确性。


对于上述研究而言, 在探究接受大学教育和不接受大学教育这一活动对于个体收入的影响时, 只有通过探究同一个体接受大学教育和不接受大学教育两种情况下收入的差距, 才能准确识别出大学教育对个人收入影响的因果关系。但是, 正如人不能同时踏进同一条河流一样, 一个人同时既接受大学教育也不接受大学教育的反事实现象无法观测。因此, 为克服上述传统统计推断中的内生性弊端及反事实的不可观测性问题, 巧妙利用反事实理论框架和随机化实验思想的因果推断研究范式开始兴起。


Panhans&Singleton (2016) 称近年来经济学的研究范式正在经历一场由统计推断到因果推断的转变, 越来越多的研究开始讨论如何更加科学地识别变量间的因果关系, 而非集中于估计量的统计显著性问题。不同于经典统计推断利用样本信息去对总体进行参数估计, 进而依靠假设检验以判断估计结果统计显著性的研究思路, 因果推断的关键特征是通过引入潜在结果框架去清晰地定义因果关系、利用随机化实验的思想 (克服不可观测因素造成的影响) 作为有效识别因果关系的基础。这种从统计推断到因果推断的研究范式的转变被Angrist&Pischke (2010) 称之为经济学经验研究的“可信性革命”。


相比传统的统计推断, 因果推断的一个重要特点是强调实验设计, 其以随机化实验为基础, 对潜在结果进行建模, 而不是对观测结果建模, 通过科学的实验设计, 使数据自动呈现因果效应, 尽量避免模型设定或函数形式之类的假设, 从而更好地识别因果关系, 计算出因果效应。由于因果推断主要借助的是随机化的实验思想, 故而新的研究范式有时也被称为计量经济学的“实验学派” (Angrist&Pischke, 2017) , 其主要代表人物有Card&Krueger (1994) 、Card (2015) 以及Angrist&Pischke (2017) 等。


借助于上述研究范式转变的背景, 本文以统计推断与因果推断为主线, 主要阐述了以下三个问题: (1) 相关关系与因果关系的联系与区别。(2) 回归分析得到的是否一定是因果关系, 而其因果关系又是否可靠。(3) 什么是基于随机实验思想的因果关系推断新风尚。在分析以上几个问题的同时, 使读者进一步理解内生性问题, 以及为什么社会科学研究强调的一定是因果关系的识别, 而非统计相关的判断。


二、相关关系与因果关系的联系与区别


为更好地理解后面两个问题, 首先要明确相关关系和因果关系间的区别。相关关系和因果关系是一对十分相似的概念, 但它们之间却又有着巨大的不同。总的来说, 有相关关系却不一定有因果关系, 但有因果关系就必定存在相关关系。相关关系指的是二者在变化趋势上存在着某种程度的一致性, 而因果关系强调的则是一种前和后的关系, 是因为某个变量发生变化而导致了另外一个变量随之发生改变, 其强调的是二者之间存在某种理论逻辑上的关联, 需要去确定二者间具体的依存关系。具体来说, 对于A导致B发生变化的因果关系的确立, 其必须满足以下三个条件: (1) A和B相关; (2) A必须发生在B之前; (3) 所有其他的因素C都已经被排除。只有同时满足上述三个条件, 才可以说A和B之间确实存在着某种程度上的因果关系。


尽管从定义上可以把二者的区别说得十分清楚, 但是当面对具体问题时, 区分相关关系和因果关系并没有那么简单, 非常容易掉入相关陷阱中, 那些看似合情合理的例子, 却并不存在因果关系。例如:每年溺水儿童数量和雪糕销量成明显的正相关关系, 但是二者间却不存在因果关系。是由于溺水儿童数量的增加, 才导致的雪糕销量的提升吗?或者是因为雪糕销量增加了, 从而导致溺水儿童数量增加?其实都不是, 两者之间呈现正相关可能是由其共同原因——天气导致的。由于天气炎热, 人们渴望用雪糕消暑, 雪糕销量会增加;同样地, 在炎热的天气中, 选择游泳的人增多, 溺水儿童也相应增多。溺水儿童数量和雪糕销量并没有因果关系, 只是共同受天气因素影响, 从而表现出简单的统计正相关而已。


类似的例子:携带打火机与肺癌发病率之间可能有相关关系, 但二者间的因果关系也不成立。并不是因为携带打火机才导致肺癌发病率上升的, 而是使用打火机抽烟, 烟草中的有害物质导致了肺癌发病率上升。携带打火机和肺癌发病率相关是因为有着共同的原因就是抽烟, 因为抽烟, 所以携带打火机, 同样因为抽烟, 所以肺癌发病率上升。导致肺癌发病率上升的原因并不是因为携带了打火机, 所以两者之间并不是因果关系, 只是因为有共同原因而体现出的统计上的相关关系而已。


一个更加模糊且看起来合情合理的因果关系, 但却也有可能只是相关关系的例子是:某案例表明, 阅读科学博客越多的人, 其科学素养水平就越高, 那么二者间是否具有因果关系?这是一个看似合乎情理的例子, 所以许多人可能就会误认为二者间一定存在因果关系, 但实际上二者间可能仅存在着某些双向因果关系。我们无法区分是阅读科学博客越多的人, 其科学素养水平就越高, 还是科学素养高的人本来就喜欢读博客。那么在此模棱两可的情况下, 二者间因果关系的判断可能并不稳健。


因此, 从上述分析中可以看到, 因果关系与相关关系, 这两种情况是很容易被混淆的, 一旦混淆, 就会影响我们的判断, 从而做出错误的决策。所以, 搞清楚因果关系和统计相关是非常有必要的。



三、回归分析与因果关系



社会科学研究强调的是因果关系的识别, 而非统计上相关关系的判断, 我们希望借助计量、统计等技术工具帮助我们对于因果关系进行有效识别。然而, 在没有任何理论假设的前提下, 统计学是不可能帮助我们识别出因果关系的, 借助统计学等工具做出的回归分析结果仅仅代表了变量背后的相关关系, 所谓的OLS只不过是一种系数估计方法罢了, 而因果关系的识别则需要理论和技术两方面的严谨论证。所以说, 单纯的回归分析得到的参数估计结果充其量只能称之为二者间的相关关系而非真实的因果关系。


想要对于因果关系进行有效识别, 就要求我们在回归之前需要用经济理论去建立模型, 真正的分析两个变量间的内在逻辑关系, 或者即使无法建立数学上的理论模型, 也需要我们用文献来推演出想要研究的变量间到底存在何种内在逻辑, 进而提出研究假设。只有先进行上述理论分析, 再带着目标去做回归来验证我们的逻辑推演正确与否, 接着利用得到的回归结果去识别其因果关系才是有意义的。上面论述的也就是我们传统意义上的统计推断, 当进行完理论分析之后, 我们可以借助统计学模型, 利用样本信息去对总体进行参数估计, 进而依靠假设检验以判断估计结果统计显著性, 进而去识别所谓的因果关系。


我们暂且不讨论, 我们的理论推导过程是否正确、假设的推演是否真实可信, 假设我们上述过程没有任何问题, 那么进行理论分析后做回归进行的因果关系识别, 其结果又一定是真实可靠的吗?经典的计量经济学为保证参数估计量具有良好的性质, 在进行回归之前通常会对模型提出若干假设, 如高斯—马尔可夫假设 (CLRM) 。当然, 在实际研究中, 上述理论假设条件无法全部满足, 因而又衍生出“单方程计量经济学放宽基本假设的模型”, 其主要讨论了异方差、序列相关、多重共线性等问题。上述三个问题其实并不会影响因果关系的识别, 我们只需要利用White (1980) 的异方差一致性标准误差或Newey&West (1987) 的序列相关及异方差一致性标准误差进行修正即可。


“单方程放宽基本假设”后的四大问题除以上三个外, 还有内生性问题, 即随机解释变量问题。谈到因果关系的有效识别, 则绕不开内生性问题, 内生性问题是我们处理起来最为棘手的问题, 但却也是审稿人最喜欢问的问题。上述的异方差、序列相关以及多重共线性问题, 我们可以通过一些技术手段处理掉, 但处理内生性问题却并不容易。一旦内生性问题没有办法得到很好控制, 那么我们的参数估计结果将会有偏且非一致, 利用这种有偏的回归结果做出的因果关系推断并不能让我们信服。所以, 人们完全有理由去质疑利用存在内生性问题的回归结果做出的因果关系的识别。


上述所谓的内生性问题, 其实就是计量经济学上的随机解释变量问题, 要解释清楚内生性问题还是需要从经典计量经济学对于模型做出的假设谈起。计量经济学的一个经典假设是, 解释变量是确定性变量而非随机性变量。何谓确定性变量和随机性变量, 我们一般把外生变量称之为确定性变量, 其外生于整个模型系统, 与整个模型系统无关, 所以不论整个模型系统如何发生改变, 它都是不受影响和不发生改变的, 因而它相对整个模型系统而言具有一定确定性。相反, 我们一般把具有某种概率的随机变量称之为内生变量, 内生变量内生于整个模型系统, 其既受模型系统的影响, 同时也对整个模型系统有影响, 所以其不能满足上述确定性条件, 因而存在着某种程度上的随机性。


关于另一个计量模型的经典假设, 即解释变量与回归方程随机干扰项无关。一般而言, 外生变量是确定性变量, 其外生于整个模型系统, 所以其自然与回归模型的残差不会相关。而内生变量内生于整个系统, 其是随机性变量, 既受模型系统的影响, 又会影响整个模型系统, 所以其很可能会与回归方程的残差项相关 (残差可以代表很多因素, 其中就包括整个模型系统无法量化的那些变量因素) 。我们把这种内生性变量或者说随机性变量与回归方程残差相关的问题, 称之为内生性问题或者说随机解释变量问题。


一般而言, 产生内生性问题的原因主要有三种:遗漏解释变量、解释变量测量误差和双向因果关系。正如上述所说, 内生性问题会使得参数估计结果有偏且非一致, 进而导致因果关系的识别结果不可靠, 所以在传统思路下, 我们一般会使用工具变量法 (IV) 去解决上述问题, 当可以找到多个相互独立的工具变量时, 就可以使用常说的广义矩估计方法 (GMM) 。


总之, 简单的回归分析得到的不一定是因果关系, 只有先进行理论分析, 带着目标进行回归, 消除异方差、序列相关性等问题, 并进一步克服内生性, 才有可能有效的识别因果关系。


但是, 在因果关系识别时, 面对某些外生冲击, 例如接受大学教育和不接受大学教育、高速公路收费和高速公路不收费等, 想探究其对结果变量的影响, 传统的统计推断只是根据可以观测的数据进行估计研究, 受个体异质性等影响, 很难获得真正的因果效应。于是, 基于随机实验思想的因果关系推断新风尚逐渐兴起, 新的研究范式更好的解决了统计推断无法准确识别因果关系的问题, 为因果关系的有效识别提供了新方法。


四、基于随机实验思想的因果关系推断新风尚

上文阐述了关于因果关系识别的问题, 其主要思路仍是我们传统意义上的统计推断, 即当我们进行完理论分析或者假设推演之后, 可以借助统计学模型, 利用样本信息去对总体进行参数估计, 进而依靠假设检验以判断估计结果统计显著性, 然后去识别所谓的因果关系。但是, 由于我们无法确定进行的理论分析或者推演的假设的完全正确性, 且我们利用回归结果进行的因果关系识别也很有可能受到所谓的内生性问题的影响, 从而使其识别结果不牢靠。是否存在一些更新的方法可以对统计推断方法进行补充、完善、拓展, 并能较好的识别“统计推断”无法准确识别的因果效应呢?


正如前文所言, 经济学的经验研究正在经历一场由统计推断到因果推断的研究范式转变, 新的研究思想和研究方法正悄然出现。相比于传统的统计推断, 因果推断的思想主要基于反事实理论框架。所谓反事实理论框架就是和我们能够观测到的现实情况相反的一种状态 (Rubin, 1980) 。变量X与变量Y因果关系可以表达为, 当X成立时Y的结果与X不成立时Y的反事实结果之间的差异, 如果这种差异存在且在统计上显著, 则称变量X对变量Y是有因果关系的, 否则二者之间就不存在因果关系。这一思想最早来源于Mill (1974) 的差异法 (Method of Difference) , 通过比较某一现象出现和不出现的情况, 如果在这两种情况中, 只有一点不同而其他条件都相同, 那么这一点就是造成两种情况的原因, 而两种情况的差异就是这个原因的因果效应 (Holland, 1986) 。


在利用反事实理论框架去清晰定义因果关系后, 因果推断将利用随机化实验的对照思想去进行因果关系的识别。随机化实验的思想最早是由Fisher (1935) 提出的, 他用女士品茶判断其是否具有鉴别能力的例子说明, 除了先加奶还是先加茶这一条件变化外, 实验时杯子等器具在各方面的完全相同是不必要的。在任何实验中, 不可能将可观测的和不可观测的差异都控制住, 而随机化实验的好处就是不需要控制其他的潜在影响因素, 我们关注的是原因变量选取的随机化, 其他可能影响因素间的差异都是偶然的、随机的, 可由随机定律控制而不会影响估计结果 (简单来说, 由于实验的随机性, 其他非主要因素间的影响可以总体抵消掉) 。因此, 随机化的关键作用在于平衡除原因变量外的其他影响因素, 故随机化是实验得到可信因果效应的关键 (赵西亮, 2017) 。在因果关系的实证分析中, 最优选择当然是随机化实验, 但基于伦理道德的考虑, 加之随机实验的时间、经济成本较高, 所以随机实验在现实中的实施处处受限。在随机化实验不可以进行的情况下, 借助自然条件的拟随机化实验方法的应用得到了关注和重视。


利用反事实理论框架, 随机化实验的思想进行因果关系识别, 我们首先定义一个处理效应的二元变量, Di={0, 1}。其中:当Di等于1时, 代表个体i接受了处理;当Di等于0时代表个体i没有接受处理。是否接受处理是由原因变量Xi决定的, 所以Xi也称为“分组变量”, 故而处理变量可以表示为:


同时, 我们也要定义潜在结果变量Y, 其中:Y0i表示个体i没有接受处理的结果变量;Y1i表示个体i接受处理的结果变量:


那么基于反事实理论框架, 这个处理的因果效应就可以通过简单差分得到:


然而, 在现实生活中, 我们不可能同时在同一个个体i上观测到上述两个潜在结果的值。结合上文例子, 我们无法同时观测到一个人接受大学教育与不接受大学教育所带来的两个收入结果, 其中:当接受大学教育时, 可以获得确定的潜在结果Y1i的值, 但是同一个体不接受大学教育的潜在结果Y0i的值将无法知晓;同样, 获得了个体不接受大学教育时的潜在结果Y0i时, 就无法得到其接受大学教育后的潜在结果Y1i。


事件一旦发生, 就无法得知其不发生时的反事实情况, 这种现象被称为反事实的不可观测性, 是因果推论中的基本问题 (Holland, 1986) 。我们只能观测到接受了处理的个体和没有接受处理的个体的结果变量, 而接受了处理的个体若不接受处理时的情况和未接受处理的个体若接受处理时的情况我们无法获得。所以为了更加精确地识别因果关系, 克服选择性偏差问题, 我们只能将重点放在实验组和对照组的选取上, 精心挑选出一个控制组与实验组进行比较从而识别因果效应。


在接受大学教育和不接受大学教育对个体收入影响的因果推断中, 最好的研究对象就是一对双胞胎, 双胞胎的年龄、性别、父母学历、成长环境等都是一致的, 其中:一个接受大学教育设为实验组, 得到潜在结果Y1i;另外一个不接受大学教育设为控制组, 得到潜在结果Y0i。最终, 两人的收入差距Y1iY0i就是大学教育对个体收入的因果效应。确实早有学者Krashinsky (2000) 采用过同卵双胞胎数据, 在控制各种差异的情况下研究受教育年限、婚姻状况等因素对工资收入的影响。


并且近年来, 基于反事实理论框架和随机化实验思想的因果推断在政策评估方面得到了广泛应用。过去学者在研究政策效应时, 往往只是通过定性分析。倘若在定性分析的基础上可以加入基于经济数据的实证研究, 我们便可以有效提高政策评估的科学性, 并进一步揭示变量间的因果效应。而因果推断则为政策评估提供了基于经济数据的新方法, 从而可以帮助我们更好地识别政策效应。从现有文献看, 巧妙的因果推断方法大概有倾向值匹配 (Propensity Score Matching, PSM) 、双重差分 (Difference in Difference, DID) 、断点回归 (Regression Discontinuity Designs, RDD) 等。这些方法在近两年的经济学顶级期刊上占据了半壁江山, 掀起来一股因果推断识别的新风尚。


(一) 断点回归


断点回归方法最早是由美国心理学家Campbell (1958) 设计出来, Thistlethwaite&Campbell (1960) 正式发表了关于断点回归分析的文章, 在其提出非实验条件下, 断点回归是处置处理效应的一种有效方法。Lee (2008) 提出, 在随机实验不可得的情况下, RDD可以避免统计推断中参数估计的内生性问题, 从而真实反映变量间的因果关系。RDD的主要原理是:存在一个关键变量, 当该变量大于某一临界值时, 接受处理效应, 作为实验组, 而当变量小于临界值时, 则不接受处理效应, 可以视作对照组。如图1所示, 当结果变量y和原因变量x的线性关系在x=c处存在一个断点, 变量x由小于临界值c到大于临界值c, 结果变量y出现了一个跳跃, 且个体在x=c附近时, 其他影响因素没有差别, 那么造成y在c处跳跃的唯一原因就是由x导致的处理效应。所以, 这个跳跃就可以视为在x=c处Di对y的因果效应。


图1 断点回归示意图


用断点回归方法识别政策效应时, 当个体的某一变量的值大于临界值时, 个体接受政策干预, 当其小于临界值时, 个体不接受政策干预。一般来说, 同一个体接受政策干预和不接受政策干预的结果无法同时获得。而在断点回归方法中, 就可以把小于临界值的个体看为一个很好的对照组来反映不接受政策干预时的结果。特别是在变量连续的情况下, 在临界值附近的实验组和对照组样本的差异可以较好地反映政策干预对结果变量的影响。经典案例有Chen et al. (2013) 观察到的一条天然的分割线——秦岭淮河线, 即以秦岭淮河线作为临界线, 其中:淮河以北地区, 政府用燃煤的方式提供暖气, 视为接受政策干预;而淮河以南地区, 并没有供应暖气, 视为未接受政策干预。淮河两岸十分接近的两个地区, 理论上其他各变量可以看作是连续的, 也就是说其他的影响变量在南北两岸没有较大差异, 而南北两岸唯一的区别就是有没有通过燃煤供暖, 所以淮河以南可以作为很好的对照组, 通过与实验组比较, 识别政策干预效应。


Trochim (1984) 综合了前人的理论和方法, 又将断点回归分为两类:一类是确定型 (Sharp RDD) , 个体在临界值一边接受处理效应的概率为1, 在另一边接受处理效应的概率为0;另一类是模糊型 (Fuzzy RDD) , 个体在临界值附近, 接受处理效应的概率则是单调变化的。断点回归虽然是拟随机化实验, 但其结果与随机化实验结果的相似性却极高 (Lee&Lemieuxa, 2010) 。特别是近年来, 在Hahn et al. (2001) 对断点回归策略的识别条件、估计方法等进行理论证明后, 断点回归方法逐渐成为评估政策的重要方法, 并广泛应用于教育领域 (Chiang, 2009) 、社会保障 (雷晓燕等, 2010) 、政府选举 (Ferreira&Gyourko, 2009) 、政府转移支付 (Buettner, 2006;Dahlberg et al., 2006) 、房屋升值 (Greenstone&Gallagher, 2008) 和空气质量评估方面 (Almond et al., 2009;Fu&Gu, 2014;曹静等, 2014) 。


(二) 双重差分


双重差分最早出现在经济学领域是在20世纪70年代 (Ashenfelter, 1978) , Heckman&Robb (1985) 最早提出使用双重差分法评估政策实施绩效, 随后, DID便开始广泛应用于政策评估。Card (1990) 用DID评估了移民政策对工资和就业的影响。Puhani (2000) 评估了波兰1991年实施的失业救济政策对失业持续期的影响。而在我国, 周黎安和陈烨 (2005) 则首先引用双重差分法, 对农村税费改革政策效果进行了双重差分的实证检验。李科等 (2014) 将双重差分应用于金融市场, 研究融资融券制度是否有利于矫正被高估的股价。陈林和伍海军 (2015) 梳理了从周黎安开始的、国内使用双重差分的文献, 对国内的研究成果进行分类和评述, 并指明使用双重差分时必须要注意的问题。梁权熙和曾海舰 (2016) 运用DID研究独立董事制度是否有利于降低公司股价崩盘风险。刘瑞明和赵仁杰 (2017) 研究了匿名审稿制度是否推动了中国经济学进步。王庶和岳希明 (2017) 评估了退耕还林工程的实施对农民增收、非农就业等方面的政策效应。钱雪松和方胜 (2017) 运用双重差分研究了担保物权制度对民营企业负债融资的影响。


双重差分法就是将两个虚拟变量及其交乘项加入到回归方程中, 既能控制样本间不可观测的个体差异, 又能控制随时间变化的不可观测的总体因素影响, 从而可以无偏地估计如政策效果等因果关系。


下面举例简单说明双重差分在政策评估方面的应用。在美国, 劳动者加入工会的现象比较普遍。假设: (1) 在某一政策出台前就已经加入工会的个体Di=1, 而没有加入工会的个体Di=0; (2) 在某一年政府出台了一项政策, 政策出台前Tt=0, 而政策出台后Tt=1。现在, 我们要探究政府出台的政策对劳动者收入的影响。如图2所示, 在政策实施前 (pre) 劳动者个体之间就存在加入工会 (Di=1) 和不加入工会 (Di=0) 的差异, 其收入的条件期望函数分别为E (Y10) 和E (Y00) 。在政策实施后 (post) 劳动者个体间是否加入工会的个体差异仍然存在, 新收入的条件期望函数分别为E (Y11) 和E (Y01)

图2 不同个体在政策前后的作用效果图


通过以上分析, 构造双重差分最基础的回归方程式为:



结合上图, 在A、B、C、D四点的期望结果变量依次为:在A点:E (Y00) =β0;在B点:E (Y01) =β0+β2;在C点:E (Y10) =β0+β1;在D点:E (Y11) =β0+β1+β2+β3。

则要求的双重差分估计量为:

由于不同的个体在政策实施前的收入水平就有差距, 所以双重差分的主要思路不是直接对比样本在政策前后均值的变化, 而是对个体的数据进行回归, 从而对比两类个体在政策前后的薪水变化率有无区别 (第一次差分是同类个体前后自己差分将数值变为增长率, 第二次差分则是两类个体的增长率进行差分) , 以达到判断政策对结果变量的因果效应。


但是双重差分在评估政策时也存在局限性, 其前提条件是接受政策干预的实验组和未接受政策干预的对照组的结果变量随时间变化的路径是平行的, 也就是说两组实验结果的时间趋势应该一致。如图2, 对照组结果变量在政策干预前后的变化趋势为由C点到B点, 如果实验组和对照组一样, 在不接受政策干预时, 那实验组的前后变化趋势应该是由A点到E点。线CB和线AE平行才能确切评估由E点到D点的政策干预效应。若两者的变化趋势不一致, 再应用DID方法就会出现误差, 但现实生活中, 无法根本保证对照组和实验组结果变量时间趋势上的一致性。


(三) 倾向值匹配


倾向值的概念最早来源于Rosenbaum&Rubin (1983) , 是指在控制其他影响因素的情况下, 个体被某个变量影响的条件概率。一般情况下, 在探究原因变量和结果变量关系时, 会受到许多其他因素的影响, 很难测度原因变量对结果变量影响的净效应。例如, 探究上大学和不上大学对未来收入的影响, 年龄、性别等其他因素也会影响到是否上大学对未来收入的影响。这些其他因素的影响被称为“选择性偏差” (Selection Bias) , 通过将其他因素纳入到一个logistic回归模型中, 就可以得到一个预测个体受原因变量影响的概率, 也就是倾向值 (Rosenbaum&Rubin, 1983) 。而此处的匹配是指将受原因变量影响的个体和不受原因变量影响的个体进行配对。


“倾向值匹配”就是将有相同或相近倾向值的两组是否受原因变量影响的个体进行配对。倾向值匹配的主要思想就是将实验组和控制组中具有相同或相近倾向值的个体进行配对, 其他影响因素已经在倾向值匹配的过程中被控制起来, 所以实验组和控制组之间的差异只能是由原因变量引起, 从而可以用控制组中个体结果变量的结果估计实验组个体的反事实结果。通过倾向值匹配, 可以控制或消除选择性偏差, 从而保证研究结果中因果关系的可靠性。例如, 探究上大学和不上大学对未来收入的影响。倾向值匹配就是根据倾向值将上过大学的人和没有上过大学的人一一配对, 倾向值相同或相似保证了个体上大学的概率是相同或相似的, 从而保证了匹配的个体除是否上大学这一变量外, 其他条件如年龄、性别等因素都被控制起来。进行匹配后, 未来收入的差异就只能归于是否上大学, 从而得到是否上大学与未来收入因果效应的净效应。


Rosenbaum&Rubin (1983) 最先提出可以利用倾向值匹配消除混杂因素引起的偏差, 但是并没有得到重视。近几年, 倾向值匹配才被广泛应用各个领域, 并成为政策评估的常用方法。Michael (1999) 对德国东部实施的旨在使劳动力适应社会转型的脱产培训项目进行了PSM评估。Gilligan&Hoddinott (2007) 用PSM评估了2002年在埃塞俄比亚实行的应急食物救援政策的效应。国内学者同样用倾向值匹配的方法进行政策效应的评估, 例如:陈飞和翟伟娟 (2015) 利用倾向值匹配法研究农户土地流转决策的福利效应;孙文凯和王乙杰 (2016) 基于微观面板数据, 将倾向值匹配和双重差分法结合, 研究父母外出务工对留守儿童健康的影响;张天华和张少华 (2016) 在研究国有企业偏向性政策对资源配置效率的扭曲时, 运用倾向值匹配法构建与国有企业特征类似的非国有企业对照样本;王庶和岳希明 (2017) 同时运用了双重差分和倾向值匹配的方法研究退耕还林工程的政策效应;杜兴强和谭雪 (2017) 在研究国际化董事会对公司现金股利分配的影响时, 用倾向值匹配的方法控制了国际化董事会与现金股利之间的内生性问题。国内还很多其他学者对PSM进行了应用 (周康, 2015;刘亚洲等, 2016, 张耀杰等, 2017) 。


传统的统计推断, 即当我们进行完理论分析或者假设推演后, 借助统计学模型进行参数估计, 进而依靠假设检验判断估计结果的显著性, 从而识别所谓的因果关系。首先, 我们无法确定进行的理论分析或者推演的假设的正确性。其次, 由于内生性等问题的存在, 使因果识别的结果变得并不可靠。而兴起的基于随机实验思想的因果关系推断新风尚, 运用反事实理论框架清晰定义因果关系, 利用随机化实验的对照思想进行因果关系的识别, 可以有效克服内生性问题, 消除选择性偏差, 从而得到无偏的估计因果关系。而且因果推断的新方法如RDD、DID、PSM等在政策效应的评估方面得到了广泛应用。



五、结论



清楚辨析变量间是相关关系还是因果关系是进一步研究的基础, 而用传统的统计推断方法识别因果关系时, 存在着模型设定、内生性等问题, 致使统计推断对变量间因果关系的识别很可能并不可靠。于是新的研究范式兴起, 因果推断以随机化实验为基础, 对潜在结果建模, 通过科学的实验设计, 使数据自动呈现因果效应, 尽量避免模型设定或函数形式之类的假设, 从而更好地识别因果关系, 进而计算因果效应。


本文以统计推断和因果推断为主线, 主要阐述了两者间的联系与区别、由传统的统计推断得到的因果关系是否可靠以及什么是基于随机实验思想的因果关系推断新风尚等问题。本文认为:


(1) 随着经济学的研究范式由统计推断向因果推断转变, 结合具体问题来分清相关关系和因果关系显得尤为重要。其中:相关关系仅指二者在变化趋势上存在着某种程度的一致性, 而因果关系强调的是二者之间存在的某种理论逻辑上的关联。如果混淆这两个概念, 则会影响我们的判断, 从而做出错误的决策。


(2) 传统意义上的统计推断是当进行完理论分析后, 借助统计学模型, 利用样本信息对总体进行参数估计, 进而依靠假设检验以判断估计结果的统计显著性, 从而识别所谓的因果关系。但是, 这种统计推断由于内生性等各种问题, 其对因果关系的识别并不可靠。


(3) 目前经济学界的研究范式正逐渐兴起一股因果推断新风尚, 其通过引入反事实理论框架清晰地定义因果关系, 利用随机化实验的思想识别因果效应, 并逐步将断点回归法、双重差分法、倾向值匹配法等引入经济学各领域中, 并进一步识别各类具体问题中的因果关系, 以期求得求因果关系的净效应。


此外, 因果推断的方法在政策评估方面得到了广泛应用, 其基于经济数据, 通过反事实理论框架和随机化实验的思想弥补了传统政策研究时只是定性分析的不足, 可以进一步揭示变量间的因果关系, 从而可以帮助相关研究有效识别政策效应, 提高政策评估的科学性。相信在以后的外生冲击和政策评估类的研究中, RDD、DID、PSM等方法会作用于更多领域并发挥更大作用。


希望通过以上几个问题的分析, 本文想要强调的是:社会科学研究强调的一定是因果关系的识别, 而非统计相关的判断。不论是经典的统计推断, 还是如今热门的因果推断, 只要实验设计得好, 都可以发挥巨大作用, 关键是我们需要搞清楚问题背后的症结所在, 理解问题的本质, 进而选用适当的方法进行科学的探索研究。



参考文献



[1]曹静, 王鑫, 钟笑寒.限行政策是否改善了北京市的空气质量?[J].经济学 (季刊) , 2014, 13 (3) :1091~1126.

[2]陈飞, 翟伟娟.农户行为视角下农地流转诱因及其福利效应研究[J].经济研究, 2015, 50 (10) :163~177.

[3]杜兴强, 谭雪.国际化董事会, 分析师关注与现金股利分配[J].金融研究, 2017, (8) :192~206.

[4]雷晓燕, 谭力, 赵耀辉.退休会影响健康吗?[J].经济学季刊, 2010, 9 (4) :1539~1558.

[5]李科, 徐龙炳, 朱伟骅.卖空限制与股票错误定价——融资融券制度的证据[J].经济研究, 2014, 49 (10) :165~178.

[6]梁权熙, 曾海舰.独立董事制度改革, 独立董事的独立性与股价崩盘风险[J].管理世界, 2016, (3) :144~159.

[7]刘瑞明, 赵仁杰.匿名审稿制度推动了中国的经济学进步吗?——基于双重差分方法的研究[J].经济学 (季刊) , 2017, (1) :173~204.

[8]刘亚洲, 钟甫宁, 王亚楠.新农保对中国农村老年人劳动时间供给的影响[J].人口与经济, 2016, (5) :114~126.

[9]钱雪松, 方胜.担保物权制度改革影响了民营企业负债融资吗?——来自中国《物权法》自然实验的经验证据[J].经济研究, 2017, 5:146~160.

[10]孙文凯, 王乙杰.父母外出务工对留守儿童健康的影响——基于微观面板数据的再考察[J].经济学 (季刊) , 2016, 15 (2) :963~988.

[11]王庶, 岳希明.退耕还林, 非农就业与农民增收——基于21省面板数据的双重差分分析[J].经济研究, 2017, 4:106~119.

[12]张天华, 张少华.偏向性政策, 资源配置与国有企业效率[J].经济研究, 2016, 51 (2) :126~139.

[13]张耀杰, 郭靖, 史本山.ST“戴帽”能够提高公司价值和经营绩效吗——基于倾向值匹配和双重差分模型的因果推断[J].工业工程与管理, 2017, 22 (4) :127~133.

[14]赵西亮.也谈经济学经验研究的“可信性革命”[J].经济资料译丛, 2017, (2) :80~90.

[15]周康.政府补贴, 贸易边际与出口企业的核心能力——基于倾向值匹配估计的经验研究[J].国际贸易问题, 2015, (10) :48~58.

[16]周黎安, 陈烨.中国农村税费改革的政策效果:基于双重差分模型的估计[J].经济研究, 2005, 8:44~53.

[17]Almond D, Chen Y Y et al..Winter Heating orClean Air?Unintended Impacts of China's Huai RiverPolicy[J].American Economic Review, 2009, 99 (2) :184~190.

[18]Angrist J D, Pischke J S.The CredibilityRevolution in Empirical Economics:How BetterResearch Design is Taking the Con out of Econometrics[J].Journal of Economic Perspectives, 2010, 24 (2) :3~30.

[19]Angrist J D, Pischke J S.UndergraduateEconometrics Instruction:Through Our Classes, Darkly[R].NBER Working Paper No.23114, February 2017.

[20]Ashenfelter O.Estimating the Effect ofTraining Programs on Earnings[J].Review ofEconomics&Statistics, 1978, 60 (1) .

[21]Buettner T.The Incentive Effects of FiscalEqualization Transfers on Tax Policy[J].Journal ofPublic Economics, 2006, 90 (3) :477~497.

[22]Campbell D T.Common Fate, Similarity, andother Indices of the Status of Aggregates of Persons asSocial Entities[J].Systems research and behavioralscience, 1958, 3 (1) :14~25.

[23]Card D.The Impact of the Mariel Boatlift onthe Miami Labor Market[J].Industrial&LaborRelations Review, 1990, 43 (2) :245~257.

[24]Card D, Krueger A B.Minimum Wages andEmployment:A Case Study of the Fast-Food Industryin New Jersey and Pennsylvania[J].Social ScienceElectronic Publishing, 1994, 84 (4) :772~793.

[25]Card D, Lee D S et al..Inference on CausalEffects in a Generalized Regression Kink Design[R].Discussion Paper No.8757, January 2015.

[26]Chen Y, Ebenstein A et al..Evidence on the Impact of Sustained Exposure to Air Pollution on LifeExpectancy from China’s Huai River policy[J].Proceedings of the National Academy of Sciences, 2013, 110 (32) :12936~12941.

[27]Chiang H.How Accountability Pressure onFailing Schools Affects Student Achievement[J].Journal of Public Economics, 2009, 3 (9) :1045~1057.

[28]Dahlberg M, Mork E et al..Using aDiscontinuous Grant Rule to Identify the Effect ofGrants on Local Taxes and Spending[R].CESifoworking paper No.1857, November 2006.

[29]Ferreira F, Gyourko J.Do Political PartiesMatter?Evidence from U.S.Cities[J].Quarterly Journalof Economics, 2009, 124 (1) :399~422.

[30]Fisher R A.The Logic of Inductive Inference[J].Journal of the Royal Statistical Society, 1935, 98 (1) :39~82.

[31]Fu S H, Gu Y Z.Highway Toll and AirPollution:Evidence from Chinese Cities[R].MPRAWorking Paper, October 2014.

[32]Gilligan D O, Hoddinott J.Is TherePersistence in the Impact of Emergency Food Aid?Evidence on Consumption, Food Security, and Assetsin Rural Ethiopia[J].American Journal of AgriculturalEconomics, 2007, 89 (2) :225~242.

[33]Greenstone M, Gallagher J.Does HazardousWaste Matter?Evidence from the Housing Market andthe Superfund Program[R].NBER Working PaperNo.11790, November 2005.

[34]Hahn J, Todd P, Klaauw A W.V D.Identification and Estimation of Treatment Effects witha Regression-discontinuity Design[J].Econometrica, 2001, 69 (1) :201~209.

[35]Krashinsky H A.Do Marital Status andComputer Usage Really Change the Wage Structure?Evidence from a Sample of Twins[R].Working paperNo.439, June 2000.

[36]Heckman J J, Robb R.Alternative Methods forEvaluating the Impact of Interventions:An Overview[J].Journal of econometrics, 1985, 30 (1) :239~267.

[37]Holland P.Statistics and Causal Inference[J].Journal of American Statistical Association, 1986, 81 (396) :945~960.

[38]Michael L.An Evaluation of Public-Sector-Sponsored Continuous Vocational Training Programsin East Germany[R].IZA Discussion paper seriesNo.93, December 1999.

[39]Lee D S, Lemieux T.Regression DiscontinuityDesigns in Economics[J].Journal of EconomicLiterature, 2010, 48 (2) :281~355.

[40]Mill J S.A system of logic, ratiocinative andinductive:Being a connected view of the principles ofevidence, and the methods of scientific investigation[M]A system of logic ratiocinative and inductive:University of Toronto Press, 1974:351~367.

[41]Newey W K, West K D.Hypothesis Testingwith Efficient Method of Moments Estimation[J].International Economic Review, 1987, 28 (3) :777~787.

[42]Panhans M T, Singleton J D.The EmpiricalEconomist's Toolkit:From Models to Methods[R].CHOPE Working Paper No.2015~03.

[43]Puhani P A.Poland on the Dole:The Effect ofReducing the Unemployment Benefit EntitlementPeriod during Transition[J].Journal of PopulationEconomics, 2000, 13 (1) :35~44.

[44]Rosenbaum P R, Rubin D B.The Central Roleof the Propensity Score in Observational Studies forCausal Effects[J].Biometrika, 1983, 70 (1) :41~55.

[45]Rubin D B.Comment[J].Journal of theAmerican Statistical Association, 1980, 75 (371) :591~593.

[46]Thistlethwaite D L, Campbell D T.Regression-discontinuity Analysis:An Alternative to the ex postFacto Experiment[J].Journal of EducationalPsychology, 1960, 51 (6) :309~317.

[47]Trochim W M K.Research Design for ProgramEvaluation:The Regression-discontinuity Approach[J].Journal of the American Statistical Association, 1984, 81:395.

[48] White H.A Heteroskedasticity-ConsistentCovariance Matrix Estimator and a Direct Test forHeteroskedasticity[J].Econometrica, 1980, 48 (4) :817~838.


注释

1、如果解释变量测量不准确, 其测量误差项也被纳入到随机干扰项当中, 从而造成估计结果不满足一致性。 


2、由于个体是否参加项目存在自我选择, 故参加项目者和未参加项目者可能存在系统差异, 导致OLS估计结果不满足一致性。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存