用观测数据进行政策效应评估的基本问题和分析框架
凡是搞计量经济的,都关注这个号了
邮箱:econometrics666@sina.cn
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
上一日,咱们引荐了“最新政策效应评估的四种方法”,激发了学者们对政策评估的强烈兴趣。今天,咱们进一步询问:政策效应评估的基本问题是什么?使用非实验数据进行政策评估的大框架是什么呢?
一、政策效应评估的基本问题
1.“反事实”
假定总体中有两组或多组群体,能够在两期或多期观测到其中的个体数据,并且在某些时期某些个体受到了一项新政策 的“干预”(treatment) 。在 政策评估中,通常把接受政策干预的样本称为实验组,把未受政策干预的样本称为控制组。
要估计一项政策的实施效应,一个简单的逻辑就是对所有个体在政策实施前后的结果变量做比较,将差值作为个体的处置效应( treatment effect) ,进而可推知政策实施效应。
在二元选择的情况 下,定义指示变量D,当 Di=1 时,认为个体 i 选择接受政策的影响; 反之,当Di = 0 时则视为个体选择不接受政策影响。Di 由 一系列个体特征因素决定,不同个体之间的选择相互独立。若定义时期 0 为政策未实施的时期,1 为政 策实施后的时期,则个体 i 的处置效应可以写作:
τi = Yi(1) - Yi(0)
但由于道德因素、社会成本等原因,现实中的政策只有极少数采用随机实验的方式实施,研究者可观测到的数据多是非实验数据。这就意味着社会实验政策实施以后,研究者不可能同时观测到同一个体在接受和不接受政策干预时的表现。对于实验组中的个体,研究者无法观测其在未接受政策 干预时的表现; 而对于控制组中的个体,研究者也无法预测其在接受政策干预时的表现。也就是说,存在着两组“反事实”( counterfactual) 。因此,如何 构建“反事实”就成为政策效应评估中的关键。
本文所讨论的各种评估方法的不同,本质上是其构建 “反事实”的方法不同。
2.个体的异质性决策
在政策实践中,个体并非通过随机委派的方式 接受政策干预。多数情况下政策的实施是区域性 的,区域中的个体会预测自己接受政策干预时可能 获得的净收益,进而通过迁移等反应来决定是否接 受政策影响。也就是说,个体存在私人信息,并根据私人信息进行参与决策。
个体的私人信息与个体特征紧密相关,具有异 质性,不仅会影响个体的参与决策,间接影响结果 变量,还可能直接对结果变量施加影响,是混杂因 素( confounding factor) 。如果研究者不能控制混杂 因素对个体结果变量的直接影响,所测得的政策效 应就会出现偏差,称为选择偏差( selection bias) 。不 可观测的混杂因素的存在是选择偏差产生的主要 原因。但在政策评估的实践中,抽样方法、样本选 择等的不规范会使得控制组与实验组的可观测变 量分布并不相同,这时就会出现可观测变量的不匹 配引起的偏差。Heckman 等( 1997 ) 指出,可观测变 量的不匹配引起的偏差比不可观测变量引起的偏 差要大得多。
个体异质性决策以及混杂因素的存在,使得微观政策效应的评估既要解决内生性问题,又要解决混杂因素的干扰问题,传统上仅将结果变量与协变 量和指示变量 D 做简单回归的方法就不再可行了, 必须寻找新的方法来解决这一问题。
二、使用非实验数据构建“反事实”的方法
根据数据产生方式的不同,微观政策效应评估的方法可分为随机受控实验( randomized controlled trial ) 、准 实 验 ( quasi-experiment ) 以 及 匹 配 ( matching) 等方法。
1.随机受控实验
从某种意义上讲,随机受控实验是最可信的一种政策评估方法。它通过将符合项目参与条件部分个体随机地排除至项目之外,为实验组对象提供一个自动生成的控制组。但是,随机受控实验有其自身的局限性:
( 1) 在经济中很少遇到,且实施成本高,时间长;
( 2 ) 不能用于外推,不能轻易用作政策实施前的决策依据;
( 3 ) 实验要求控制组完全不 受政策的影响,但 实际中很难排除政策的溢出效应、替代效应等。基于以上原因,随机受控实验在实践中应用很少。尽管如此,这一方法仍可帮助我 们判断其它评估方法的效力。
2.准实验
准实验方法将政策改革视为一项实验,试图在精 心设计的实验条件下,为实验组找到一个自然产生的 控制 组。准实验方法包括工具变量 ( instrumental variables,IV ) 、双 重 差 分 ( difference-in-differences, DID) 以及断点回归( regression discontinuity,RD) 等方 法。其中,IV 是该领域最早使用的方法; RD 在 2000 年后才开始使用,目前使用还较少; DID 是目前应用 最多的方法,可信度也较高。
3.匹配方法
匹配方法是利用非实验数据进行政策评估时 常用的方法。匹配的目的非常简单,就是要找出足 够的可观测变量,找到与实验组个体足够相近的个体作为控制组,二者结果的不同完全取决于是否接 受政策干预。这样,如果每个实验组个体都可以找 到一个或多个与其具有相同协变量且未参与项目 的控制组个体相匹配,那么实验组的每个个体的处 置效应就可以计算,ATT也可相应地计算出来。
计量经济学方法依托于数据,不同来源的数据具有不同的特征。在微观经济政策评估领域,常处理的数据类型主要有以下几种: 截面数据(cross-sectiondata)、纵向数据(longitudinaldata)和重复截面数据(repeatedcross-sectiondata)。依托非实验数据进行政策评估时,必须根据数据特征选择恰当的评估方法。数据结构某种程度上决定了方法的选择,而数据质量则关乎实证结果的可靠性和正确性。由于随机受控实验在实际中较少遇到,本文将着重探讨准实验方法及匹配等其他方法的原理及使用。
参考文献:
【1】.”Mostly Harmless Econometrics: An Empiricist.s Companion“Joshua D. Angrist
【2】HECKMANJJ.2008.Econometriccausality[J]InternationalStatisticalReview,52:1-27.
【3】HECKANJ J,H I. 1997. Matching as an EconometricEvaluation Estimator: Evidence from Evaluating a JobTrainingProgramme[J].TheReview of EconomicStudies,70:605-654.
【4】HECKMANJJ,ROBBR.1985.AlternativeMethodsfor EvaluatingtheImpactofInterventions//JAMESJHECKMAN,SingerB.LongitudinalAnalysisofLaborMarket Data.New York:Cambridge University Press:352.
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
2年,计量经济圈公众号近1000篇文章,
Econometrics Circle
数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 | 夜间灯光 | 官员方言 | 微观数据 |
计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 |
数据处理:Stata | R | Python | 缺失值 | Stata16版本 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 |
计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。