查看原文
其他

如何科学评估经济政策的效应?

范子英 学术无界 2019-06-30

点击蓝字 关注我们

作者:范子英,上海财经大学公共经济与管理学院教授。

期刊:

2018第3期。

内容提要:一个国家的公共政策会影响全社会的方方面面,政策细则的微小差异都会被无限放大。经济学作为一门入世的学科,一个重要作用就是经世济民,提高公共政策的积极作用,因此基于科学评估方法的政策研究就显得非常重要和必要。本文首先总结和回顾了科学评估方法的基本内涵和要求,并指出现有政策研究中常见的几种错误;其次,本文根据现实世界中的三种公共政策类型,介绍了相应的几种政策评估方法,重点阐述其基本原理和应用条件,并以具体的研究案例进行剖析;最后,本文提出政策研究要有科学研究基础的现实条件和应用空间。

词:政策研究;科学评估方法;公共政策;反事实

1978年以来,经济保持了近40年的高速增长,在由计划经济向市场经济转型的过程中,中国借鉴了其他发达国家的成功经验,同时由于自身的特殊性,也采取了一系列具有中国特色的改革措施。一方面,中国幅员辽阔,地区之间差距巨大,很难实施“一刀切”的政策,中央政策必须充分考虑地方特色;另一方面,中国具有长达数十年的计划经济历史,改革存在严重的路径依赖,增量改革相对来说阻力更小。这意味着,我们的改革经验是在不断摸索过程中积累起来的,每一项公共政策的推出都是经过了充分的事先试验和事后总结,首先这必然要求决策层具有改革的智慧,能够举重若轻挑选出最有效率的改革方向,其次也要求决策层对改革的效果能够达成共识。此时的任务,就是如何科学量化政策的效应,如何确保此项改革试验没有包含其他政策的干扰。

20世纪90年代开始,中国的经济改革逐渐呈现顶层设计的特征,可以说这个阶段的改革任务更加艰巨。顶层设计对每一项政策的目标要求更高,严格来说,这样的改革模式对失败是零容忍的。因此,决策层对改革的效应必须有非常充分的预判。无论是早期的试验性改革,还是近期的顶层设计,都提出了一个共同要求,那就是对政策效应的科学评估和预判。而政策评估,特别是基于试验设计的评估方法,正是经济学近30年来的前沿方向。大力普及、推广科学的政策评估方法,对时下中国的改革显得非常必要。

对这些方法的普及,首先要求相关的政府部门在思想上提高认识,明白错误方法带来的危害,这些危害有时候会导致一些好政策难以落地;其次,各决策机构和地方政府要有较高的包容性,有一些政策的评估,对相应的制度设计要求更高,相关的机构要能够理解这些前提条件,必要的时候还需要配合研究人员对政策进行调整,以满足科学这个重要条件;最后,当面临多个政策之间的优劣选择时,要建立以科学评估为基础的政策选择机制,从而更加精确地制定出相应的政策细节。

本文分三部分逐步展开对科学评估方法的介绍。首先,本文从逻辑上阐述科学评估方法,特别是强调一些基本的逻辑错误;(今天重点阐述内容)其次,参照我国常见的三种改革模式,提出相应的三种常见评估方法,并举实例进行阐述;最后,重点说明这些方法的局限以及应用过程中的谨慎解读。需要特别强调一下,本文所有内容都是初步的介绍,任何一个方法背后都有非常完整的统计学理论作为支撑,读者若对这些初步的介绍感兴趣,可以尝试阅读一些更为专业的知识。如果是决策部门的同志,对基本方法的框架有一个基本了解,应该就足以引起重视,重视才是开展科学评估的前提。

一、科学评估方法的基本逻辑

从科学的意义上来说,评估一项政策的实施效应其背后的基本逻辑应该是:在给定其他条件相同的情况下,实施政策后的表现(例如价格)与假定没有实施政策后的表现的差异。这句话虽然很简单,但其背后的前提条件是非常苛刻的。举一个通俗的例子,假定我们要评估的是大学教育对工资的贡献度,我们可以造一个时空穿梭机器,首先让某人在现实中读大学,然后记录他工作时的收入A,接着我们用时空穿梭机将他再送回去,这次不让他上大学,记录他另一个平行世界中的收入B,则A-B就是此人上大学的教育回报。在政策评估的方法论中,这个例子中的B就是A的完美的反事实对照组(Counterfactual),也就是说,一旦其接受政策干预,则表现是A,如果没有接受政策干预,结果就是B

但是我们知道,上述例子在任何的学科领域都是无法实现的,因为历史都是单线程往前发展的,理论上我们无法构造出一个完美的平行世界,因此我们就无法获得一个政策实施后的反事实对照组。在现实世界中,一个人要么受到政策的干预,要么就是没有收到干预。以上大学为例,现实世界中的某个人,其只可能占据两种状态的一种,要么真的上大学了,要么就没有,我们无法看到一个人上大学状态下的反事实(没上大学),也无法观察到没有上大学人群的反事实(上大学)。因此,如果从一种极致的科学评估的角度来看,严格来说是无法从这个例子中去评估上大学的效应。

    自然而然,我们经常采取的方法是,直接比较那些受到政策干预的人群和未受到政策干预的人群的差别,将这个差别等价于政策实施的效果,这种简单比较的统计方法,其背后包含了一个极其苛刻的要求,那就是用未受到政策干预的人群作为政策干预人群的反事实,这句话的潜台词是说,如果那些受到干预的人群没有收到干预,其结果应该与未受到干预人群的结果是一致的。很遗憾的是,在大多数的现实政策中,这一前提条件往往是无法满足的,从而导致了整个评估结果的巨大偏误。举例说明,医疗卫生支出是政府需要大力进行资助的领域,但是作为决策层来说,任何的决策都是一种权衡和选择,用在医疗卫生领域的多了,用在教育、基建等就必须减少,因此在做具体的决策之前,就需要准确评估医疗卫生对国民健康的改善程度。我们可以采取随机抽样问卷的方式,询问一个人在过去一周是否去过医院,这个问题会呈现两种状态,如果去过医院,则是受到了医疗的干预,如果没有去过,则是未干预组;同时,我们还让接受问卷的人回答其自评健康程度,健康程度分为5档,15分别表示健康程度由差到好。最后,我们将调查的结果分组汇总起来,就得到如下的统计表格。

     正如上一段所说,当我们简单地将处理组(去医院)和控制组(没去医院)进行对比时,其背后隐含的假设是,如果去医院的那些人没有去医院时,他们和那些真正没去医院的人群的健康程度是相同的。我们假定去医院的人是生病了,而没去医院的人则没有生病,前面那句话的意思是,生病的人和没有生病的人,他们的健康程度是相同的。显而易见,这个前提条件是无法满足的,假设那些去医院的人没去医院,他们的健康程度也远低于实际上没去医院的人。因此,没去过医院的人群不能作为去过医院人群的反事实参照组。由于没去过医院的人群的健康程度更好,因此这种简单对比会严重低估医疗的效应。在表1的例子中,健康的效应应该是正向的,但由于低估的程度非常大,超过了理论上的正向效应,简单对比就会得出负向的健康效应。

另一种经常犯的错误是,简单对比政策前后的差异,并将这种时间上的差异等价于政策效应。这种纵向对比,其背后隐含的假设是,一旦没有实施该政策,该时间节点之后的表现应该与之前完全一致,因此将节点之前的表现作为节点之后的反事实参照组。但在实际的经济社会中,至少有两大类因素会使得这个假设不成立。一是时间趋势,即某些因素会随着时间的推移逐步增加或者减少,比如人的年龄、一个国家的CPI等,即使没有相应的政策干预,这些因素也会呈现一定的时间趋势,因此政策干预前的CPI并不能作为干预后的反事实参照组。二是共同冲击,这类因素往往是在国家层面统一实施的宏观调控,共同冲击会使得我们关注的指标也发生变化,而这种变化往往与政策效应是混合在一起的,很难将其单独分离出来。

我们以2011年实施的房产税试点政策为例,来说明纵向对比的偏误。20112月份,为了遏制房地产价格过快上升的势头,我国开始在部分城市进行房产税的试点,选择了上海和重庆两个试点城市。与其他税种不同,房产税是在持有环节征收,等价于增加了房屋的持有成本,理论上与提高利率的作用渠道是类似的,可以挤出一部分投资性的需求,进而发挥调节房价的作用。当然,房产税还有其他更加重要的作用,例如为地方政府筹集可持续收入等等,因此该税种自试点开始就被寄予厚望。但实际结果看上去却是不尽人意的,决策层和舆论界都认为房产税试点没有起到遏制房价的作用,这种结论的来源正是简单的纵向对比。如图1所示,重庆的房产税试点从20112月开始,但是我们并没有看到重庆房价在试点时出现过下降,相反,试点当年的房价反而上涨了11%,看上去重庆的房产税政策并没有使得重庆的房价下降,因此,就得出房产税无效的结论。

这种简单的对比是错误的,房价没有下降并不代表房产税没有效应,两者不可以简单地等价。按照科学意义上的评估方法,房产税的效应应该是比较重庆实际房价和假设没有房产税时的房价,当我们简单对比房产税前后的实际房价时,就隐含了一个重要的假设,那就是假设没有房产税时,重庆2011年的潜在房价水平应该跟2010年相同。但由于存在时间趋势和共同冲击两个因素,重庆2011年的潜在房价水平应该远远高于2010年。通俗来说,有房产税时的重庆房价上涨了11%,假设没有房产税,重庆的房价可能上涨了15%,此时4%的差距(15%-11%)才是房产税对房价的遏制效应。现实世界中,我们是无法知道假设2011年没有房产税时的重庆房价,不过我们还是可以大体上用其他城市的房价对重庆的趋势进行判断,与重庆相邻的成都市,其2011年的房价上涨了13%,是大于有房产税的重庆市的房价上涨幅度的,趋势上来说,重庆的潜在房价上涨幅度应该是超过11%,房产税政策是有效果的。因此,简单进行纵向对比,严重低估了重庆房产税政策的效应。

政策评估的科学方法,其本质上是要找到反事实参照组。反事实参照组要满足两个基本条件:一是要保证呈现反事实的特征,即一旦实验组没有受到政策影响,实验组的结果应该与反事实组是完全一致的;二是反事实参照组不能受到实验组的影响,即那些受到政策干预的人群不能把这种影响传递给其他人,理论上是允许实验组内部的互相影响,但如果这种影响外溢到参照组,无论这种外溢是主观还是客观原因,都会导致对政策效应估计的偏误,一般情况下都是低估了政策的效应。例如在房产税的例子中,重庆和上海实施了房产税之后,如果这些城市居民可以非常容易地到其他城市购房的话,那么在重庆和上海的房产税政策的效应就外溢到了其他城市,不过幸运的是,由于大多数城市都对非户籍居民采取限购房产的政策,因此房产税的外溢效应是比较小的。

显然,按照穿越剧的方式构造反事实参照组是不现实的,不过我们还是可以基于这样科学的视角,采取其他类似方法来构造一种近似的穿越剧。常见的构造方法有两类:一是通过数据筛选的方法,二是随机试验的方法。数据筛选的最佳例子是同卵双胞胎的数据,这一数据构造借鉴了医学和药物学的科学方法。在药物进入临床应用阶段,需要对药物的实际效果进行评估,因此需要招聘一些志愿者来服用药物,但是不能简单根据志愿者报名的情况直接进行药物试验,因为我们无法排除志愿者自身的特征对药物作用的影响。因此,在最理想的情况下,药物公司需要招聘一些同卵双胞胎的群体,给予双胞胎的其中一个服用药物,而另一个则不服用,在一段时间之后再评估他们的各项指标。不过,这里面还要进一步排除心理因素的作用,即那些服用了药物的双胞胎个人可能因为自我心理暗示,导致实际作用大于药物作用,这样也会高估药物作用。因此,一个完美的实验,除了需要双胞胎的组别之外,还不能让参加的那组人干扰药物实验,如果这样的话,则还需要进行安慰奖检验(Placebo test)的设计。具体来说,就是要给予双胞胎组别同时服用,其中双胞胎的一半服用真实药物,另一半服用一种外形无差别的糖丸,双胞胎的两方都以为自己服用了药物,心理干扰因素的作用对两方同时存在,他们事后的差异就完全是药物的作用。

第二种构造反事实参照组的方法是随机试验,更准确地说,是随机干预实验(Randomized ControlledTreatment, RCT)。该方法最近几年在发展中国家非常盛行,由于其相对清晰和简单的实验设计,也被世界银行大范围应用于一些扶贫项目的效应评估。这一方法的核心在于随机二字,采用的是统计学的原理,即如果可以用随机的方法来选择哪些人群接受政策干预的话,同时保证受政策干预的人群数量足够大,那么从统计学上,就可以将随机分组的结果等同于政策效应。我们同样以表1的就医为例,如果采用随机试验的方法,应该是针对那些有就医需求的所有人群,通过抛硬币的方法来决定是否可以去医院,例如当抛硬币为正面时,就可以上医院,如果为反面,则不能上医院,由于抛硬币的正反面结果是一个随机冲击,因此对那些有就医需求的人群通过抛硬币的方法,就是一种随机分组,我们事后来评估有就医需求并去医院(正面硬币)和有就医需求并没有去医院(反面硬币)的健康差异,就是医疗对健康的实际改善程度。

这两种构造反事实组的方法虽然能够满足科学评估的要求,但在政策评估方面的应用性不强。同卵双胞胎的数据筛选方法局限于就业和收入方面的应用,例如可以评估教育(上大学)或党员身份对收入的影响,但由于绝大部分同卵双胞胎都在同一个辖区,大多数的政策又是对该辖区进行全覆盖,因此很难找到同一组双胞胎受不同政策影响的数据。随机试验方法的应用性比数据筛选方法好一些,但也存在另外两个问题:一是面临伦理难题,例如前面的就医例子,采用抛硬币的方法,就是一个伦理问题;二是很多随机试验,在操作过程中很难完全满足随机性的要求,为了操作便利性,一些随机试验并不是在个体层面随机筛选,而是在村镇甚至更加总层面的随机筛选,这就在一定程度上损害了该方法的科学性。

预告

   二、常见的几种评估方法和案例剖析

三、科学评估法的应用前提和要点


资源仅供资源仅供学术交流使用,严禁商用!如有侵权,请联系小编微信:18242038046

推文期数:2018135

责任编辑:姚春宇 卢雅焱 刘亮

推文审核:张天舒 梁龙武 骆丹云

总审核:学术无界顾问团

下期预告:

往期回顾

ENVI实用技术分享(三)

ANUSPLIN插值专题系列-插值脚本编写及后期处理

ANUSPLIN插值专题系列—线性插值及研究区站点提取

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存