政策效应评估的四种方法（Policy evaluation）

计量经济圈 2019-06-30

利用非实验数据进行微观政策效应评估

1．工具变量法

标准的计量经济学提供了一种处理内生性问题的方法———IV 法。

Ehrlich( 1975，1977 ) 运用时间序列数据和截面数据就美国执行死刑对降低谋杀率的影响进行的研究具有典型性。Ehrlich认识到谋杀率与死刑执行率之间的双向因果关系，并试图应用IV来解决其内生解释变量和遗漏解释变量的问题。他选择了此项政策支出的滞后量、总的政府支出、人口、非白人比例等变量作为IV，但并没有解释为什么这些变量是好的 IV，所选出的这些 IV 与内生的解释变量之间又具有怎样的关联。直至 Ehrlich( 1987，1996) 的研究出版，其选择 IV 的考虑及相关的因果识别问题才得到详细的阐述。Angrist ( 1990) 和 Angrist 等( 1991 ) 分别用 IV 研究了参加越战对老兵收入的影响和教育背景对收入的影响，从而充分显现了运用 IV 进行因果推断的价值。 Card 等( 1992a，1992b) 将学生的出生州与出生队列作为 IV，研究了教育投入对教育质量的影响，从而使得教育产出、教育质量领域的研究出现了重大转折。Bound 等( 1995) 指出了 Angrist 等． ( 1991) 研究中存在的弱工具变量的问题，从而将 IV 的效率问题以及 IV 的选取准则引入研究。此后，有关 IV 研究的理论问题都主要集中在如何寻找最优的工具变量上。

工具变量法是一个相对简单的估计方法，但是有两个重要的缺陷:

( 1 ) 工具变量的选择问题。在政策评估问题中，要找出满足条件的工具变量并不容易。在实践中，尤其是当纵向数据和政策实施前的数据可以获得时，研究者多使用因变量的滞后变量作为工具变量。但是，这同样会引发相关性，并不能从根本上解决问题。

( 2 ) 如果个体对于政策的反应不同，只有当个体对政策反应的异质性并不影响参与决策时，工具变量才能识别 ATT、ATE。但这是一个很强的假定，有时研究者不得不假定非理性，或者忽略研究对象的异质性 ( Heckman， 1997) 。

2．断点回归

RD是一种类似于随机受控实验的准实验法。

它的主要思想是: 当个体的某一关键变量的值大于临界值时，个体接受政策干预; 反之，则不接受政策干预。一般而言，个体在接受干预的情况下，无法观测到其没有接受干预的情况。而在 RD中，小于临界值的个体可以作为一个很好的控制组来反映个体没有接受干预时的情况，尤其是在变量连续的情况下，临界值附近样本的差别可以很好地反映干预和结果变量之间的因果联系，进而计算出 ATE、ATT 等政策效应变量。

RD 最早是由美国西北大学的心理学家 Campbell 于 1958 年首先发展设计出来的，但一直没有得到广泛的应用。Hahn 等( 2001) 为断点回归的模型识别和模型估计进行了严格意义上的理论证明，并提出了相应的估计方法。自此之后，RD 在经济学上的应用才开始盛行。到目前为止，对这一方法的研究成果还主要集中在劳动经济学领域。国内学者运用 RD 进行分析的研究还比较少见，余静文等( 2010a) 研究了城市圈所产生的集聚效应、辐射效应，考察了其对地区收入差距的影响; 余静文等( 2010b) 还使用该方法考察了城市圈对区域经济绩效的影响，发现城市圈产生的辐射效应和政府治理结构转变所带来的效应会促进城市圈区域的经济发展。

RD是一种类似于随机实验的方法，也是准实验方法中最具有可信性的方法。Lee( 2008 ) 认为在随机实验不可得的情况下，断点回归能够避免参数估计的内生性问题，从而真实反映出变量之间的因果关系。RD 方法应用的关键假设是要求在断点附近的个体的特征相同，这一假设可以通过统计分析得到检验。由此可见，RD 的吸引力不仅在于它的实验性，还在于它的因果推断可以方便地得到检验。

3．双重差分

近年来，DID在政策评估研究得到了广泛应用。 DID 处理选择偏差的基本思想是: 允许存在不可观测因素的影响，但假定它们是不随时间变化的。

假定不可观测因素 Uit 可分解为 Uit = φi + θt + μit ，其中 φi 是个体固定效应，不随时间变化; θt 是个体所处的共同的环境带来的效应，对于所有个体而言都相同; μit 是个体时点效应。DID 假定实验组和控制组在研究的区间内具有相同的个体时点效应，也就是说 μit 相同，因此通过对截面单位在项目实施前后的结果取差值，就能排除 φi 、θt 的影响。反之，若在政策实施条件下，个体时点效应 μit 不相同，则 DID 就不再是一致估计量。

应用 DID 评估政策效应的基本步骤是利用面板数据建立双固定效应模型并估计参数:

Yit = β0 + β1Tit + β2Ait + β3Tit Ait + εit

其中，Tit = 1 表示实验组对象，反之则表示控制组对象; Ait = 1 表示政策实施后的区段，反之亦然; Tit Ait 是交叉项，其系数 β3 表示实验组对象在接受政策后结果变量的变动程度，反映了政策变动的效应，是目标变量。参数 β1 表示没有政策干预时，实验组与控制组的经济行为如何随时间变动，而参数 β2 则反映实验组和控制组中任何不随时间变动的差异。应用 DID 评估政策效应的一个关键假设是: 当不存在政策干预时，β3 = 0 ，这一假设只有在实验组与控制组性质非常接近时才是合理的。表 1 概括了 DID 方法的基本原理。

Heckman等( 1985，1986) 最早提出使用 DID 方法对社会公共政策的实施效应进行评估，此后对 DID 方法的研究和应用成果层出不穷，典型的有: Card 等( 1990，1994 ) 对移民政策、最低工资制度对工资和就业的影响进行了研究; Puhani( 2000 ) 对波兰 1991 年实施的失业救济政策改革对失业持续期的影响进行了评估; Stewart ( 2004 ) 对英国 1999— 2001 年引入的最低工资制度对就业的影响进行了评估;

Donohue 等( 2005 ) 发现美国与加拿大的谋杀率之间具有相同的变化趋势，从而以取消死刑的加拿大作为控制组，评估了美国恢复死刑制度对降低谋杀率的影响，结果表明美国执行的死刑政策并未对社会谋杀发生率起到遏制作用; Chen 等( 2008) 使用中国 2000 个家庭的数据对世界银行发展项目的效应进行了评估。

国内学者近年来也开始运用 DID 方法对政策效应进行评估，主要的研究有: 周黎安等( 2005 ) 就农村税费改革对农民收入增长所产生的影响进行了评估; 朱宁宁等( 2008 ) 对我国建筑节能政策的实施效应进行了评估; 黄清( 2009 ) 对 2002—2005 年电力行业放松规制的政策效应进行了实证检验和研究; 刘生龙等( 2009) 评估了西部大开发对于西部地区经济增长及中国区域经济收敛的作用; 聂辉华等 ( 2009 ) 使用全国层面的企业数据，胥佚萱等 ( 2011) 使用上市公司数据分别对 2004 年开始在东北地区实行的增值税转型政策的影响进行了研究; 俞红海等( 2010) 基于上市公司数据，对股权分置改革的有效性进行了实证分析; 李楠等( 2010 ) 利用中国工业行业数据，对国有企业改革的绩效进行了评估。

DID 方法允许不可观测因素的存在，而且允许不可观测因素对个体是否接受干预的决策产生影响，从而放松了政策评估的条件，使得政策评估的应用更接近于经济现实，因而应用更广。但是，研究者在应用中也应该充分认识到 DID 方法的局限性:

( 1) 数据要求更加苛刻。DID 方法以面板数据模型为基础，不仅需要横截面单位的数据，还需要研究个体的时间序列数据，特别是政策实施前的数据。因此，相比于 Matching，DID 方法要求更多的数据。

( 2) 个体时点效应 μit 未得到控制。DID 要求很强的识别假设，它要求在政策未实施时，实验组和控制组的结果变量随时间变化的路径平行，这一假设并没有考虑个体时点效应 μit 的影响。由于 μit 的影响，在项目实施前后，实验组和和控制组个体行为的结果变量并不平行，此时应用传统的 DID 方法就会出现系统性误差。

( 3) 未考虑个体所处的环境对个体的不同影响。

DID 方法假定环境因素的冲击对处于相同环境中的个体会产生相同的影响，即 θt 对所有个体都相同。但实际中，实验组和控制组个体可能因为某些不可观测因素的影响，使得其在面临相同的环境因素的冲击时做出不同的反应，此时 DID 的应用就会出现问题。

针对以上问题，国外学者在使用DID的过程中，逐步对其进行了扩展，扩展的方向主要有两个: 一是考虑 DID 中未控制的因素，从而进一步放松其应用条件; 二是将 DID 与 Matching 等其他政策评估方法结合起来，提出新的估计量。比如: Bell 等 ( 1999) 考虑了个体所处的环境对个体的不同影响，提出了经趋势调整的估计量; Heckman 等( 1997 ) 提出了“条件 DID”这一新的估计量 ( conditional DID estimator) ，将 Matching 与 DID 方法结合起来应用，不仅能大大降低选择偏差，且结果更为可信。但不容忽视的是，条件 DID 仍要满足“共同支撑域” 假定。

4．倾向匹配方法

匹配是一种非实验方法，是对于一些没有采用或不方便采用实验方法区分实验组和控制组的数据采用的一种近似实验的方法。匹配方法假定，控制协变量之后，具有相同特征的个体对政策具有相同的反应。换句话说，不可观测因素不影响个体是否接受政策干预的决策，选择仅仅发生在可观测变量上。因此，对每一个实验组个体而言，可以根据可观测特征为其选择一个控制组个体构成反事实。

在实证分析中，根据选择控制组时匹配方法的不同，Matching 又可分为协变量匹配 ( covariant Matching，CVM) 和倾向得分匹配 ( propensity score matching，PSM) 等。其中，CVM 涉及多个协变量，会导致“维度灾难”、计算过于复杂等问题。Rosenbuam 等( 1983) 指出，如果协变量能使得条件独立假设 ( conditional independence assumption，CIA①) 成立，那么倾向得分( propensity score，PS) 作为协变量的一个函数，当然也能使得 CIA 成立。通过将协变量中蕴含的信息转移至 PS 中，PSM 可以克服 CVM 的劣势，成功降维，从而在实践中应用更多。

Rusenbaum 等( 1983 ) 提出的利用 PSM 来消除混杂因素所引起的偏差，在提出之初并没有受到很大关注，但是近些年被广泛应用于医药、经济、政策评估等领域，成为政策效应评价中最常用的方法。 Perkins 等( 2000) 讨论了此方法在流行病药效学上的应用，Gilligan 等( 2007 ) 对在埃塞俄比亚农村实施的应急食品救援政策的效应进行了评估，Sandra 等( 2009) 对法国的一项再就业培训项目的效应进行了评估。国内学者近年来也开始运用 PSM 方法对社会公共政策的效应进行评估。陈玉萍等 ( 2010) 运用 PSM 方法研究了滇西南山区改良陆稻技术的采用对农户收入的影响，解决了应用传统方法分析农业技术效应时，因农户技术采用存在的自我选择而带来的因果干涉问题; 李佳路( 2010 ) 运用 PSM 方法，采用 S 省 30 个国家开发重点县2009 年的农村贫困监测数据，对扶贫项目的减贫效应进行了评估。

PSM 作为非参数方法，不需要对可观测因素的条件均值函数和不可观测因素的概率分布进行假设，因而相比参数方法具有优势。但是，PSM 也有局限性，主要表现为以下几点:

( 1) 极强的前提假设。PSM 的应用必须满足 CIA 和共同支撑域假定，这两个假定合起来称为“强可忽略性”假设。一旦违背这一假定，ATE 和 ATT 就会出现偏误。Heckman 等( 1997 ) 通过假设检验表明当“强可忽略性”假定不满足时，不宜应用 PSM 的方法对政策效应进行评估; Heckman( 2008 ) 通过理论分析认为当存在未观测到的混杂因素时，PSM 方法不仅不能消除系统误差，反而会带来新的偏差; 刘凤芹等( 2009) 运用蒙特卡罗模拟实验的结果也表明 PSM 对强可忽略性假设非常敏感，即使是轻度的违背，PSM 的估计结果偏差也超过 50% ; Kannika 等( 2010) 运用实际数据，对比参数方法与 PSM 方法的结果，进一步验证了 PSM 的应用需要满足“强可忽略性”假定。

( 2) 不能为所有的实验组个体找到控制组个体。匹配方法仅能为处在共同支撑域上的个体找到合适的对照个体。如果对于不同个体而言，处置效应是同质的，那么共同支撑域的假定不会对政策效应的大小造成影响; 反之，如果处置效应是不同质的，共同支撑域的假定使得某些实验组个体很难找到“反事实”，处置效应无法识别。换句话说，如果匹配过程损失了大量的观察值，处置效应的估计量就仅在共同支撑域上具有一致性特征。在异质性响应中，如果实验组个体的处置效应差别很大，估计出的 ATT 就不能代表政策的平均回报。

( 3) 数据量要求极大。Matching 方法往往应用于截面数据，为了保证条件独立假设成立，需要尽可能多地搜集协变量信息，将混杂因素分离出来。同时，为了保证能找到与实验组个体特征最为接近的控制组，研究者也需要收集大量的个体数据，以保证结果的精度。

( 4) 结果的稳健性受到多种挑战。PSM 方法计算得到的 ATE 或 ATT 的稳健性受到多种因素的影响，如干预分配机制方程的设定、匹配算法的选择等。刘凤芹等( 2009 ) 运用蒙特卡罗模拟实验的结果表明，PSM 对误差项分布不敏感，对隐指标方程的误设极为敏感; 在共同支撑域较小时，PSM 对具体匹配方法的选择极其敏感。

综上所述，Matching 的应用必须满足很强的假设前提，并且要具有相当的数据量。如果研究者认为无法验证强可忽略性假定，手头的数据样本又不够大，就必须选用其他的政策评估方法，如 DID 和样本选择模型等，它们都明确允许有未被观测到的混杂因素的存在。

参考文献：

【1】.”Mostly Harmless Econometrics: An Empiricist.s Companion“Joshua D. Angrist

【2】HECKMANJJ．2008．Econometriccausality［J］．InternationalStatisticalReview，52:1-27．

【3】HECKANJ J，H I． 1997． Matching as an EconometricEvaluation Estimator: Evidence from Evaluating a JobTrainingProgramme［J］．TheReview of EconomicStudies，70:605-654．

【4】HECKMANJJ，ROBBR．1985．AlternativeMethodsfor EvaluatingtheImpactofInterventions//JAMESJHECKMAN，SingerB．LongitudinalAnalysisofLaborMarket Data．New York:Cambridge University Press:352．

@计量经济学圈

记录一个我们生活在其中的时代社会，一个非常具有潜力的深度与客观兼具的大号，囊括的主题如下：经济、社会、历史、新闻、世界、计量工具。

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！