悦茶丨包特:西蒙斯对“基本无害的计量经济学”的批评合理吗?
作者简介
包特,新加坡南洋理工大学副教授。
本文首发于 “经济学家茶座 Teahouse” 公众号。
全文3699字,阅读约需9分钟
「西蒙斯对“基本无害的计量经济学”的批评合理吗?」
昨天偶然看到“计量经济学圈”公众号发布了一个今年8月林道诺贝尔经济学家得主会议(Lindau Nobel Prize Laurate Meetings)上西蒙斯(Christopher Sims)对以安格里斯特(Joshua Angrist)为代表的强调以自然实验或准自然实验实现因果识别的“基本无害的计量经济学”的批评。
众所周知,安格里斯特、卡德(David Card)和因本斯(Guido Imbens)因为其在计量经济学因果识别的重要开创性贡献,以及随之掀起的“可信度革命”共同获得2021年诺贝尔经济学奖。而西蒙斯则因为开创了向量自回归方法,和以此对宏观计量经济学以及政策评估的巨大贡献和萨金特(Thomas Sargent)一起获得2011年诺贝尔经济学奖。
从某种意义上来说,如果林道经济学诺奖得主论坛可以看作是经济学界的世界“华山论剑”,那么以西蒙斯为代表的宏观计量经济学宗师和以安格里斯特为代表的微观计量经济学宗师的交锋就好比金庸小说里的西毒战北丐,又或是东邪与郭靖过招。
作为经济学后辈“吃瓜群众”,我们可以从这次激烈又精彩纷呈的论争中获得什么样的启示呢?是基本无害的计量经济学如今真的变得“有害”了?还是西蒙斯等老一辈经济学家廉颇老矣,在用过时的旧眼光看待新问题?
那肯定首先要看看二人论争的内容和主线是什么。
我个人的理解是:总的来说,西蒙斯认为通过自然实验或准自然实验的方法进行因果识别看起来是种很粗糙的方法。它在很多的时候获得的更像一个“点估计”,但对于背后的统计分布细节缺乏细致的描绘和讨论,因而可能遗漏很多对于严谨的因果识别来说非常重要的细节。
同时,自然实验可能常常把处理效应假设成简单的线性关系,忽略因果关系中非线性和在实验发生前和发生后随时间发生的变化。
为了让他的讨论更具体形象,西蒙斯以卡德和克鲁格(Alan Krueger)关于美国最低工资和失业率关系的微观计量研究为例说明了自己对自然实验框架的担忧。传统经济学理论认为,劳动力市场和商品市场一样,强制提高价格会导致需求降低,产生失业。
卡德和克鲁格创造性地利用新泽西和宾夕法尼亚交界地带作为自然试验场,他们通过观察在一次新泽西州最低工资上涨,宾夕法尼亚州不变的情况下,交界地区的两个州的快餐业雇佣行为的变化指出,最低工资的上涨不但不会提高失业率,反而会降低失业率。但西蒙斯指出,这一自然实验可能不满足实验研究必须满足的可比性条件。
首先快餐业雇佣两种工人,长期工和短期工,二者的就业周转率截然不同,如果新泽西州和宾夕法尼亚州餐厅雇佣两种工人的比例不一样,那么即便最低工资本身并不显著影响企业对两种工人中任何一种的雇佣决策,也可能因为两种工人比例不同,产生总雇佣量或失业率上反而出现显著结果(类似统计学上常说的“辛普森悖论”,在分组比较中看起比率显著更高的一方,在总评中反而成为总比率更低的一方,或者反过来也一样。)。
其次,就业率和失业率可能具有时间序列自相关,也就是后一期的失业率受到前一期失业率的影响,如果不好好控制前一期失业率,也可能使得估计的系数产生严重偏误。
西蒙斯通过自己对卡德-克鲁格数据的分析指出,如果控制了以上因素,最低工资对就业影响的系数虽然为正,但是并不显著。也就是说,提高最低工资虽然没有增加失业,但也不会像卡德-克鲁格说的一样降低失业。
对于西蒙斯的这些批评,我的总体看法是:它们具有方法论上的重要价值,但从政策含义和学术贡献评价上来说,它们并未动摇实验研究方法的价值。或者说,它们更应该被看作对“基本无害计量经济学”的改进建议,而丝毫不会贬损其价值。
首先,从政策评价来说,对于经济体来说,最重要的就是总失业率,而不是具体一个门类的失业率。如果一项政策没有显著提高每个异质性群体的就业率,但显著提高了总就业率,这就是一个好政策。或者说,即便提高最低工资不会降低失业率,只是让失业率保持不变,这也意味着这可能是一个在经济下行期不坏的政策。
同时,从长期来看,新泽西和宾夕法尼亚餐馆雇佣长期和短期工人比例不一样,很可能本来就是两个州不同的劳动市场政策导致。即便西蒙斯的结果无懈可击,也只是证明了,提高最低工资导致失业率下降,或者至少不上升的机制可能就是通过改变长期和短期工人比例实现的。这个结果完全可以看成卡德-克鲁格结果的拓展研究和机制分析,而不是否定。
其次,无论是宾夕法尼亚和新泽西在各种工人比例上不可比,还是在时间序列上不可比,都只是说明了,在寻找自然实验的时候,百分之百剔除他因导致、内生性是很难的,而不是说实验方法本身不可靠。
事实上,作为以受控实验室实验(controlled lab experiment)作为主要研究方法的实验经济学者,我认为西蒙斯对自然实验的批评不但不支持他自己常说的“经济学不是实验科学”的论点,反而说明了为了进行严谨干净的因果推断,相对更加可控,能保证几乎完美可比性的实验室实验和实地实验(field experiment)是自然实验以及其他实证方法的重要补充手段。
但同时,面对国际国内近些年对“基本无害计量经济学”的热烈追捧,甚至在一些学习者把它变成了一种僵化教条,我也想说两句我的担忧。
正如西蒙斯在自己讲座开头所说:世界上有很多种刀,比如,有不怎么锋利的餐刀,也有锋利的猎刀。人不能用猎刀给面包涂黄油,也不能用餐刀分割鹿皮或者野猪皮。
也许,从西蒙斯看来,基本无害的计量经济学是餐刀,他的“犀利计量经济学”(sharp econometrics)是猎刀。但除了餐刀和猎刀,世界上还有很多种其他的刀,比如柴刀、美工刀、青龙偃月刀。猎刀的持有者看餐刀不够锋利,餐刀的持有者可能有时也会鄙视柴刀做工粗糙,甚至“不算刀”。
近些年,很多经济学界同仁和我或直率,或委婉地表示过:自从基本无害计量经济学流行以后,很多国内和国际期刊产生了一种“唯因果识别”倾向。
即一篇论文拿过来,不管话题新不新,结果显不显著,现实意义大不大,上来就问:用双重差分法了吗?用工具变量了吗?找断点了吗?如果这些“基本无害计量经济学”教科书里提到的技术文章里都没有用,那么对不起,直接拒掉。因为在这些审稿人眼里,没有工具变量、双重差分或者断点,只有OLS(最小二乘法估计),就意味着因果识别不干净,有内生性,结论不严谨,不是好论文。
但事实真的是这样吗?柴刀虽然缺乏抹黄油的精细,也没有分割鹿皮的气势,但柴刀就没有柴刀的用吗?或者进一步,一个不允许使用柴刀,所有人不得不像“杀鸡用牛刀”一样,用餐刀和猎刀砍柴,或者大家干脆因为“不能用柴刀”的戒律而不去砍柴的世界真的好吗?
对此我个人的理解是,是不是应该根据论文采用的计量分析方法是否满足了论文自身研究目的的需要进行评价,而不是根据是否使用了原封不动地套用了某种因果识别方法。
比如,如果一个话题还很新,不存在政策断点,也没有目前已知的好的工具变量,在这种情况下,如果文章研究问题的内生性在直觉上就不严重,而且作者用其他方法尽可能处理了内生性问题。那么是不是就应该根据论文本身故事的有趣程度和结果的新颖程度作为评价的主要维度,不过度纠缠因果识别和内生性?
毕竟,经济学多少最重要的诺奖级发现其实也都是从OLS结果开始的。经济学发展史其实反复向大家证明了:砍柴刀,甚至烧火棍用得好,有时也一样可以起到玄铁重剑的效果。
具体到中国经济学,我其实也能理解,我国经济学研究界目前对于“基本无害的计量经济学”等数量方法的热情本来是由一种健康的,因为之前较长时间内在量化方法上落后于西方的追赶意识和见贤思齐意识推动的。
用网络流行语来说,这或许也可以称为一种科研领域的“火力不足恐惧症”。但我们也不应该忘记,中国经济学要发展,要对世界产生影响力和贡献,除了扎实的数理训练,中国经济学者的长久比较优势更在于中国地大物博产生的丰富经济实践和区域差异、中国几千年悠久历史孕育的思想文化遗产以及当代中国日新月异的变化带来的冲击和思想火花。
而要把这些元素作为新事物带进经济学框架,就不避免地要面临所有创新者必然面对的,开始时的“穿新鞋不跟脚”和“缺东少西”。
这个时候,如果过于强调在方法上和既有框架的严丝合缝,就可能造成新事物和创造力被扼杀,不利于学科的真正健康发展。
所以,相关大学和科研机构管理者、期刊和有识之士可能需要高超的智慧把握一种平衡:既要注意在学校教学训练期间的严格训练,立好标准和规范;也在实际研究的评价中,增加包容性,鼓励多样性,不拘一格支持原创和原创人才。
最后,做一个希望是多余的澄清:以上讨论当然不是对“基本无害计量经济学”本身的批评。相信安格里斯特、卡德和因本斯等经济学家本人,并不想把自己提出的研究方法不分具体情况地强加给所有人,所有领域。我所担心的是对基本无害的计量经济学方法不做调整和具体问题具体分析地生搬硬套到具体问题上。
正如列宁说,如果超越了具体的成立条件,哪怕是多走一步,真理也可能变成谬误。
基本无害的计量经济学当然无害,在自己的研究中尽其所能实现干净漂亮的因果识别当然是经济学者对自己在学识和态度上应有的要求,但如果把它强行供起来,变成“八股文”一样的条条框框,甚至不用来要求自己,专门苛责别人,就不仅无益,而且可能有害了。