统计计量 | 经济学实证研究路在何方？

数据Seminar 2022-12-31

收录于合集

来源：经济资料译丛 2013 年第 2 期
作者：赵洪春，获美国南加州大学经济学博士学位，现为华中科技大学经济学院经济系讲师。
作者电子邮箱：zhaohongchun@hust.edu.cn
作者对王俊杰、张丽娜、马克、刘延洁出色的助研工作表示感谢。本文得到华中科技大学“国家级建设高水平国际化课程”项目的资助。
本文转载自公众号学术苑

Part1引言

上世纪八十年代初，ChristopherSims （1980）、David Hendry（1980）和EdwardLeamer（1983）对当时的实证经济学提出了尖锐的批评。这些批评都指出当时的实证研究结果难以取信于人。而缺乏可信性的原因，一是对因果关系识别的理解甚少，二是计量推断往往对附设的模型设定和误差项分布不稳健。自那时起，实证经济学在三个方向取得了显著的进展。除了稳健的经济计量推断之外，还有基于设计的实验主义实证研究方法和基于经济学模型的结构性实证研究。尤其是基于设计的实验主义方法已广泛应用于发展、教育、环境经济学、卫生、劳动和公共财政等诸多微观经济学领域的实证研究和政策分析。同时，其在宏观经济学和产业组织中的应用也有若干有益的尝试^[1]。实证经济学的新进展也把对实证经济学的很多思考推向深入。比如，实验主义方法在多大程度上提高了实证经济学的可信度？敏感性分析能否解决有限样本带来的困扰？在结构性实证研究中，如何看待基于回归的计量方法和基于计算的定量方法？这些思考发生的背景是，实证经济学越来越关注如何设计好的实验或者发现有效的自然实验，而与经济学理论渐行渐远，并且引发了很多涉及实证经济学基本问题的争论^[2]。在深入思考之后，人们不禁要问：合理的实证经济学研究方法是什么？本文在梳理这些思考的基础上发现，这些思考不仅把经济学实证研究推向深入，也为其未来的发展方向提供了新思路。具体而言，首先，基于设计的实验主义方法虽然是回答在具体情境下因果效应是否存在的终极武器，在概念上能够可信地估计平均干预效果，能够回答“有没有”的问题。但是，这种方法本质上独立于经济学理论，无法解答“为什么”的问题。其次，敏感性分析不是解决有限样本带来的问题的终极方案，而更多的实验和自然实验是当前积累可靠信息的必要途径。最后，在结构性实证研究中，基于回归的计量方法需要借助统计相关性沟通模型与数据，而不能直接联系二者。即便某些识别条件是基于理论的，回归分析的估计结果也只是赋予统计相关性以因果性的解释。而基于计算的定量方法首先是基于经济学理论的，能够直接把数据和模型相结合，其中的因果关系先验地由经济学理论决定。基于上述讨论，本文尝试厘清实证经济学中一些谜题，抛砖引玉。另外需要强调的是，尽管实验主义方法不能解决“为什么”的问题，该方法仍然是提供可靠经验证据的科学方法，实为构建经济学理论不可或缺的基础工作。

Part2实验主义方法与可信的经济解释

识别因果关系是实证经济学的一大重要课题。自上世纪八十年代以来，实证经济学在这一方面取得了很多成绩。实证经济学家把随机控制试验和“自然”实验等多种技术应用于因果关系的识别，形成了实验主义方法。实验主义方法声称已经能够令人信服地识别变量间的因果关系，并且这种方法比其他形式的实证研究更有优势。具体而言，实验主义方法的优势是能够识别特定情境下的因果效应，从而成功地解决了可信的经济推断中的“有无”问题。此外，其基本思路是做实验，简洁透明，一目了然。而且，其对因果关系的识别并不依赖于任何特定的经济机制，且具体的技术手段在统计上也更稳健。因而，对于那些能够采用实验和自然实验的问题，实验主义方法在统计的可靠性方面优于其他任何方法（Imbens和Angrist，1994）。总之，实验主义方法是对实证经济学的一大贡献，在诸多领域有着广泛的应用^[3]。不过，这种方法能否解决经济推断的另一大问题，即：能否可信地由观察到的现象推断出背后的具体机制呢？目前的研究表明，正是在这一方面，实验主义方法乏善可陈，难有作为。具体而言，有以下几点不足。第一、由于无法识别数据背后的机制，因而不能做出有用的政策评估和福利分析（Heckman，1997；Rosenzweig和Wolpin，2000；Heckman和Urzua，2010；Deaton，2009）。这首先表现为估计结果对“异质性”敏感。所谓异质性其实是指因果关系中含有多种机制，因而在具体情况下估计结果取决于此时何种机制居于主导地位，以及样本中哪些个体对所选择的用于识别的外生冲击做出了反应^[4]。异质性直接导致了外推有效性问题，使其政策评估能力大打折扣。比如Angrist和Lavy（1999）发现：班级规模减少10个人能提高成绩约0.2到0.3个标准差。但这个结论能否推广到中国呢？或者这个结论在中国仍是合理的吗？此外，对数据背后机制的忽视，也使其无法直接回答与福利相关的问题。仍以Angrist和Lavy（1999）为例，即便接受小班确实有利于提高学生成绩这个定性结论，由于不知道小班作用的具体机制，我们仍然无法回答缩小班级大小是否比增加教师工资以提高教学质量，或者改善学生的营养和健康状况更能有效地提高学生成绩。第二、实验主义方法对存在策略性行为和涉及一般均衡的因果关系无能为力。可控实验与局部均衡中的“所有其他条件不变”的概念一致，由此识别的因果效应在概念上与局部效应（partial effect）完全一致。如果存在策略性行为，那么有时候变量之间的关系会随着博弈均衡的改变而发生质的变化。类似的，一般均衡考虑市场之间的相互影响，也无法做到所有其他条件不变。此时，人们对现象背后的机制更关心，而实验主义方法恰恰不能回答这些问题。不仅如此，其在实际操作方面也困难重重。第一、随机控制试验代价高昂，而自然实验也并不容易获得。例如，“师生成绩比率”（Student/TeacherAchievement Ratio，STAR）实验前后花费了1200万美元；国民健康保险实验的花费高达1.5亿美元。某些情况下，随机控制试验由于涉及伦理问题而不可行。因此，除非有充分的理由需要通过实验去获得相关信息，否则实验是不必要的。另一方面，为了寻找自然实验，实证经济学家不得不从最引人瞩目的研究方向转向一些微不足道的研究题目。James Heckman曾经声称：“在我们这个行当的某些地方，讨论水平已经沦落到《纽约客》文章的水平了”^[5]。举例来说，在劳动经济学中不少有影响的或者有说服力的自然实验研究，由于受到上述限制，在许多重要问题上仍未达成广泛一致，成就有限。Keane （2010）发现：通过实验主义方法或多或少达成一致的结果仅有寥寥5项：（1）Frisch工资弹性大约等于1；（2）邻居的好坏对收入没有影响；（3）小班能提高学生的表现；（4）死刑不改变谋杀率；（5）服兵役减少了退伍后的收入。这说明实验主义方法关注的是具体案例，积累具有普遍学术价值的结论的速度较慢。第二、实验与自然实验方法在操作中也困难重重，难以保证满足实验所要求的条件。比如，在随机控制试验中难以做到真正的随机。例如Miguel和Kremer（2004）在利用实验研究蛔虫对入学率的影响时，按照学校名称的字母顺序将学校“随机”地分组。但这并不是真正的随机化，因为政府或非政府组织分配资源时，也可能按照字母顺序分组。因而，入学率的变化有可能并非完全源于实验干预，还有可能源于其他资源的差异。另一个例子是Angrist（1990）使用征兵“彩票”号码作为工具变量分析越战对退伍士兵收入的影响。这个工具变量并不能完全解释当事人是否会服兵役，因为一个抽到签的人是否去参军还取决于其机会成本。如果服兵役的代价过高，有些人会千方百计地逃兵役。在关于班级大小与学生成绩的研究中，Urquiola和Verhoogen （2009）的研究也表明存在当事人根据机会成本选择不同班级的情况。在宏观领域，识别因果效应就更加困难。Rigobon（2003）提出了一个创新的识别方法，用向量自回归模型中的方差突变作为外生冲击解决识别问题。但是，这种方法也有类似弱工具变量的困难。又比如，在研究外援对经济增长的影响时，Boone（1996）提出的方案为很多后续研究所沿用。他建议用人口的对数作为外援的工具变量，理由是在简单增长模型中人口与经济增长无关，所以人口越多，得到的人均援助就越少。但在这里，对工具变量独立于误差项的解释并不令人信服。综上所述，实验主义方法与结构性实证研究的主要分歧在于实验与自然实验结果是否可以用于政策评估。政策评估的目的是发现某项政策起效的机制，以便将来不同的情形下斟酌使用，因而不仅要求知晓政策有没有效果，而且需要知道其背后的机制。实验主义方法虽然可以识别因果效应是否存在，却不能识别其背后的“因果性机制”，人们需要基于经济学理论的结构性实证研究来讨论这些问题。尽管目前结构性实证研究仍有很多缺陷，不像实验主义方法已经有了成熟稳定的做法，不过它仍是辨识出“因果性机制”的希望所在。实证研究中，实验不能代替理论。

Part3敏感性分析与有限样本带来的困扰

统计推断的核心是用有限样本信息推断总体特征。所以无论是实验主义方法还是结构性实证研究，只要使用回归分析，都只能得到与渐进性质不同的有限样本估计结果。那么，在有限样本偏差可能误导回归结果的情况下，我们能否改善推断的可信度？Leamer（2010）指出，在线性回归中，与解释变量相加和相乘的两种混淆因素都可能妨碍识别因果关系。实验主义方法认为，巧妙的设计会使得相加的混淆因素与感兴趣的变量无关，因而不论是否控制这些混淆因素，回归结果都是无偏的，而且事实上应该是相同的。不过，在实际情形中，二者总是相关的，甚至会偶然地高度相关以致估计有偏，因此有必要加以控制。不过如果需要控制的混淆因素数目庞大，那么在回归分析中完全控制它们就变得不可行了。此时不得不选择控制其中的一部分混淆因素，但又会带来选择计量模型设定的问题。更大的问题来自相乘的混淆因素。它是一个既与样本中的调查对象又与实验设计有关的变量。在自然实验中，随机化是不受控制的。此时，即便工具变量在理论上满足相应的条件，也可能在具体的样本中不理想。同样，在可控实验中，相乘的混淆因素中混杂了哪些机制，取决于该次实现的独特样本，所以总是无法完全摒除相乘的混淆因素对因果效应的影响。Leamer（1983）提出用“敏感性分析”来强化对计量分析结果的信心。Sala-i-Martin（1997）即严格使用“敏感性分析”来寻找稳健的经济增长因素。作者考虑了62个解释变量。除了1960年的GDP、预期寿命和小学入学率这3个初始变量始终在回归中之外，其余59个变量都是待分析的增长因素。选取其中任意一个作为感兴趣的解释变量，剩下的58个变量的不同组合构成不同设定，作为控制变量。在不同设定下反复回归，查看估计结果是否稳健。这样，对每个解释变量都需要做30857次回归，而完整的敏感性分析总共需要做超过两百万次增长回归。最终，敏感性分析结果只发现了一个稳健的解释变量，即“人口中受儒家文化影响的比例”。这其实是说1960年以来东亚经济体一直在增长。在这个例子中，敏感性分析未能发现有价值的稳健的政策变量，表明其有很大的局限性。实验主义方法则主张通过做严格的实验与自然实验，寻找更多证据，最终拼出一幅更一般的图景。比如，Joshua Angrist和他的合作者们通过一系列研究表明服兵役会降低退伍后的收入，并且认为这些证据支持了人力资本理论，因为退伍老兵在服役期间没有积累平民社会的经验，因而生产率更低（Angrist，1990；Angrist和Krueger，1994；Angrist和Johnson，2000）。由此可见，尽管代价高昂，做更多（自然）实验确能增加对某个问题的认识。目前的研究中仍没有解决有限样本偏差的终极方法。敏感性分析虽然较直接，但并非一个可行的解决方案。在对潜在机制尚无定论或者判断仍不完整时，通过严谨的实验和自然实验来积累可信的实证证据，的确有助于了解某种影响是否存在及其大小如何，不失为一个办法。

Part4计量方法和定量方法在结构性实证研究中的作用

前文提到的很多结构性实证研究仍在或多或少地使用回归方法。回归分析本质上是分析变量间的统计相关性。当它与经济学理论相结合后，就将理论与数据间接地联系起来。基于回归的计量方法采取的是归纳的思路。归纳思路知晓现实情况十分复杂，各种机制交织在一起，并表现为各种可观察的现象。为了识别出其中的某个具体的机制，学者们通过各种计量方法、技巧和假设来剔除与这个感兴趣机制无关的其他机制。归纳思路的研究有一个特点，就是对机制之间的联系大体持不可知论的态度。因而，归纳思路试图尽可能少地使用识别假设来约束数据之间的联系，而总是力图构造一个尽可能包罗万象的计量模型。在这个计量模型中，机制相互交织的可能性是庞大的，因而对数据量的需求也是巨大的。回归分析中每控制一个变量即排除了一种无关的机制。不过由于现实十分复杂，需要控制的变量也许是无穷多个，要剔除所有这些无关机制就需要海量信息。此外，排除某种机制可能会特别困难。即便有了更高级的工具，也不能保证好的效果。如此，实证研究的效果究竟如何就是一个疑问了。总之，要想充分地识别机制，归纳思路对理论计量经济学知识和数据的要求都很高。现实困难限制了计量方法的可行性和可靠性。在宏观经济学领域，很多学者放弃了传统的计量方法，转而采用“计算实验” 的技术路线（Kydland和Prescott，1980，1982）。在计算实验中，研究者根据研究的问题构造理论性的模型经济，校准模型使其参数与真实经济中的某些关键特点相吻合；然后改变其中的政策参数重新解出模型经济的均衡路径，并回答所感兴趣的问题。这种基于计算的定量方法直接把理论和数据结合起来，采取的是演绎的思路。举例来说，在一个真实经济周期（Real Business Cycle）模型中，基本因果关系如生产函数、效用函数、效用最大化和竞争均衡的假设都是先验构造的，不过其中的结构性参数如要素份额、贴现因子、折旧率则是通过模型的均衡条件都必须与长期增长处于稳态这个判断相吻合而校准得到的。这种定量方法通过先验地构造基准模型，可以为具体机制如何相互影响提供一个框架，只是其中不同机制的相互影响并非完全任意^[6]。定量方法在货币经济学和宏观经济学中的应用大多使用动态一般均衡（Dynamic General Equilibrium）框架来构造模型经济。这个框架的一大特点是明确含有当事人所面临的各种优化问题。此外，定量方法在产业组织和市场营销研究中也有应用，在其他领域的应用前景也十分广阔。定量方法和计量方法有很多不同点。比如，在对待数据和理论间的关系上就有根本的不同。因为定量方法中的因果关系是先验构造的，这种方法没有提供因果关系存在与否以及大小如何的直接证据，只是要求其中的结构性参数必须与现实世界中最重要的事实相一致。在使用数据上，与计量方法不同，定量方法并非从数据中识别因果效应，而是通过模型评估因果效应。比如，在宏观经济学中，实证研究一般根据可被反复观察到的稳定的事实证据推断模型中结构性参数的取值。一旦确定结构性参数，参数化模型就成为一个人造的数据生成过程（data-generatingprocess），可以创造与真实数据可比的数据序列。通过调整模型中的政策变量，可以模拟出在某个具体情境下变量间的因果性关系。这种思路不必依赖历史数据的相关性，在理论上克服了“卢卡斯批判”（Lucas，1976）。尽管存在很多差异，结构性实证研究中的这两种方法并不矛盾，而是相辅相成的。在先验地构建模型之前，应该从丰富可靠的经验研究中获取素材；在建构模型之后，为了推断结构性参数的取值，也应当尽可能广泛地考虑相关的实证证据。由于实验主义方法既能够可信地识别变量之间的因果效应，又可以帮助推断结构性参数的取值，在结构性实证研究中实在是大有可为。在政策评估和福利分析中发挥定量方法的优势，在使用数据和推断因果效应时发挥计量方法的长处，把实验主义方法中使用的工具与纯粹的演绎思路相结合，势必将结构性实证研究推向新的阶段。从上面的分析可以看出，实验主义方法“知其然”，而不“知其所以然”；结构性实证研究虽然有希望回答“为什么”的问题，但是在具体操作上并没有比较统一的做法，还有广阔的发展空间。因此，在以经济学理论为基础的结构性实证研究的框架下，将计量方法与定量方法结合起来是一条有希望的新思路。具体而言，是用参数化的定量模型构造变量之间的因果关系，同时使用包括实验主义方法的工具在内的计量方法来估计模型中的结构性参数，以及构造重要的却无法直接观察的变量。这种思路已有许多探索和尝试。比如，宏观经济学中广泛应用各种动态一般均衡模型，就是构造参数化定量模型的结构性实证研究。比如，两篇真实商业周期模型的原创贡献文章，Kydland和Prescott （1982），King和Plosser （1984）即为这方面的典范。此外，使用参数化定量模型的结构性实证研究也可以探讨很多难做实验的领域中的问题^[7]。

Part5结论

实证经济学自上世纪八十年代以来取得了巨大进展。面对当时的诸多挑战，实证经济学家发展和改进了实验主义方法、稳健的经济计量推断和结构性实证研究，提高了可信地推断因果关系的能力。这些新发展不仅改变了计量经济学理论和众多领域中实证研究的面貌，而且加深了对理论和数据之间关系的理解，也厘清了实证经济学中已经解决和很多亟待解决的问题。现在我们已经知道，实验主义方法能够“知其然”，而结构性实证研究是为了“知其所以然”；尽管代价高昂，实验和自然实验比敏感性分析能更坚实地积累可靠的实证证据；以及在结构性实证研究中，计量方法需要和定量方法相结合，以获得新的生命力。虽然实证经济学发展迅速，但是在可信地推断经济行为背后的因果关系方面仍未克竟全功。所以，虽然实证经济学家都致力于更好地将理论和数据匹配在一起，很多经济学实证研究与理论的关系仍然松散，理论与数据仍不协调。使用参数化定量模型的结构性实证研究在概念上可以克服这个困难，并且在多方面已经有了很多尝试。可以预期，未来实证经济学中将有更多采用这种思路的研究。

[1]

Diamond和Robinson（2010）汇集了许多实验主义方法在历史学中的各种应用。

[2]

一次争论是Deaton（2009），Heckman和Urzua（2010）对工具变量法的批评，以及Imbens（2010）的回应。另一次争论是Angrist和Pischke（2010）对包括工具变量法在内的实验主义方法的评价，以及Leamer（2010），Keane（2010），Sims（2010），Nevo和Whinston（2010），Stock（2010）的回应和反驳。

[3]

例如，估计结构性参数，如Oettinger（1999），Fehr和Goette（2007）估计跨期替代弹性；比较和检验两种对立的经济理论，如Karlan和Zinman（2009）识别道德风险和逆向选择两种机制；以及研究历史进程和宏大问题，如Nunn（2008）研究非洲奴隶贸易对非洲国家长期经济增长的影响，Deschenes和Greenstone（2011）研究气候变化对能源消费和死亡率的影响，Rajan和Subramania（2008）研究外援对经济增长的影响。

[4]

比如，Donohue和Wolfers（2005）中的结果对不同工具变量的反应不同。

[5]

参见网址：http://www.minneapolisfed.org/publications_papers/pub_display.cfm?id=3278，美联储明尼阿波利斯分行对James Heckman的采访。

[6]

真实经济周期理论本身并未试图解释真实世界的所有方面，但是这个框架很灵活，足以讨论形形色色的复杂现象。比如，在真实经济周期模型中，Alessandria和Choi（2007）讨论了异质性厂商的含义，Krusell和Smith（1998）讨论了不完全市场的含义。

[7]

早在1972年，Shoven和Walley（1972）就用一个静态一般均衡模型来模拟税收对公共财政的影响。即便在回归方法盛行的劳动经济学中，Kambourov和Manovksii（2009）也开始使用模拟方法研究工人职业流动的机制。实证产业组织中厂商的动态变化十分复杂，回归方法几无用武之地，Hopenhayn和Rogerson（1993）即采用模拟方法研究了这个问题。此外，在国际贸易和金融学中都有崭新的应用，如Cosar，Guner，和Tybout（2010）讨论关税对离职率和工资分布的影响，Chatterjee，Corbae，Nakajima和Río s-Rull（2007）讨论了消费者破产的问题。

参考文献

星标⭐我们不迷路！想要文章及时到，文末“在看”少不了！

点击搜索你感兴趣的内容吧

往期推荐

软件应用 | 给你的图形化个妆：Stata绘图常用选项汇总-下篇

付定享优惠转发得数据

软件应用 | 给你的图形化个妆：Stata绘图常用选项汇总-上篇

软件应用 | Stata：面板数据缺失值与多重补漏分析-twofold

热点资讯 | 北京大学国家发展研究院博士后招聘启事

统计计量 | 内生性解决办法大全！！！

统计计量 | 关于DID平行趋势检验基准组的选择

数据Seminar

这里是大数据、分析技术与学术研究的三叉路口

推荐 | 青酱

欢迎扫描👇二维码添加关注

点击下方“阅读全文”了解更多

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

统计计量 | 经济学实证研究路在何方？

Part1引言

Part2实验主义方法与可信的经济解释

Part3敏感性分析与有限样本带来的困扰

Part4计量方法和定量方法在结构性实证研究中的作用

Part5结论

参考文献

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

当“上帝”变为“老天爷”

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

呼吁四川大学澄清：1998年1月，川大有多少个“姜涛与爱人程月玲”？

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

生成图片，分享到微信朋友圈

统计计量 | 经济学实证研究路在何方？

Part1引言

Part2实验主义方法与可信的经济解释

Part3敏感性分析与有限样本带来的困扰

Part4计量方法和定量方法在结构性实证研究中的作用

Part5结论

参考文献

您可能也对以下帖子感兴趣