计量模型好坏的评价标准,经济研究如是说

查看原文

其他

计量模型好坏的评价标准,经济研究如是说

王美今、林建浩计量经济圈 2019-06-30

欢迎投稿(荐稿)计量经济圈，计量相关都行

邮箱：econometrics666@sina.cn

编辑:@计量经济圈(ID: econometrics666);来源:计量经济学应用研究的可信性革命,《经济研究》2012

下面这篇文章分成二部分，第一部分是关于因果推断和宏观计量的纠葛，第二部分是模型adequacy的检查。如果不喜欢第一部分的内容，可以直接跳转到关于model adequacy checking的部分。

因果关系的识别和推断

一项经济学经验研究，应该与一个清晰的、表述确切的目标相联系，只有了解构建一个模型的初衷，我们才能对其做出评价( Granger，1999)。而在诸多目标之中，因果关系的推断是核心。因果关系首先是一个哲学概念，但哲学上迄今没有给出普遍、严格、可量化的定义，社会科学对因果关系的测度更多地是基于某一角度的考虑。例如，计量经济学中广为采用的 Granger 因果关系检验就是从变量之间的预测关系来检验因果关系。如何定义因果效应并进行有效识别则成为可信性革命第二次和第三次大讨论的核心话题。

(一) 有效识别因果关系的困难之处

Stock ＆ Watson( 2007)指出，因果效应( casualeffect)可以定义为，在一个理想的随机化控制实验中，一个给定的行为或处理对某一结果的影响。Wold( 1969 )明确指出，计量经济学想成为一种基础创新的科学方法，关键在于必须克服由于缺少实验所带来的局限性。在实验室条件下，先验控制某因素的效应与后验分离出该因素的效应，其结果是等价的。而现实中得到的数据大多是观测数据，我们若想在计量经济学也取得这种等价性，就必须首先将与“实验”有关的所有非控制因素的效应全部测定并分离出来。

研究者往往通过在回归方程中引入足够多的控制变量来构造一种类似于实验的环境，即获得关注变量的净效应( Woodridge，2003; Stock，2010)。我们认为，这只是获得因果效应的必要条件而不是充分条件。一方面，计量经济学分析的重要环节之一就是如何判断究竟哪些因素与“实验”有关，只要无法确定所有显著有关的变量，我们就面临着误设实验模型的问题，因而也不具备实验科学所要求的基础条件( Hendry，1995)。另一方面，即使是一种因果关系，基于回归模型也很难对其背后的作用机制进行清晰的刻画，或者明确究竟是哪一项机制在起作用。因此，无论是因果效应的存在性，还是其背后的具体作用机制的识别，都需要在研究设计和模型设定中充分考虑。

经验研究中的另一种处理方式是基于描述性计量建模进行明确的因果关系推断。例如通货膨胀持久性研究，有些研究者基于自回归、不可观测成分、状态转移等模型进行了明确的因果论断。但是，这些模型都属于描述性的统计模型，意在刻画通胀的统计特征，唯有以不同形式施加经济假设，建立诸如粘性信息模型、学习模型、Calvo-Rotemberg 模型或者 DSGE 模型，才能解释通货膨胀持久性的经济动力源( Fuhrer，2011)。又如地方政府策略互动行为的研究，往往以空间计量模型中的空间滞后系数度量策略互动行为的方向与强度。部分研究者仅据此进行特定策略互动机制的因果效应阐述是不恰当的，原因是忽视了两个重要的识别问题: 第一，空间滞后关系既可能是地方政府策略互动过程的结果，也可能是某些遗漏的地区特征的外生相关或者对地方政策的共同冲击所致;第二，支出溢出、财政竞争以及标尺竞争等理论假说都可以推导出同样的简化型地方政府政策反应函数，空间滞后模型本身不能识别哪种机制在起作用。我们认为，对于描述性建模工作，模型结果的相关背景或者可能原因的阐述是有必要的，但不能过度推广甚至是错误推广其经济含义。

(二) 因果关系识别方法的新近发展

对因果关系的推断是经济学研究的重中之重，而在非实验条件下进行因果关系的有效识别又是难之又难。然而，这一事实并不排斥我们科学地进行计量经济学研究的可能性，追求更为明确、透明化的识别策略则是努力的目标。由于对哪些因素有利于透明化、识别所需的假定以及经济理论扮演的角色有着不同的见解，对因果关系的识别发展出两个方向: 一是基于实际实验与准实验方法; 二是结构计量建模。

1．实验与准实验(自然实验)方法

实验学派已成为经济学经验研究的一个新潮流( Angrist andPischke，2010)，这些方法往往用于对一个项目、政策或一些其他的干预或处理的影响进行研究。理想的随机化控制实验为使用实际数据进行因果效应的计量经济分析提供了一个理论基准。其中心思想是通过从一个总体中随机地选取个体，然后随机地对部分个体进行处理，进而测度因果效应。处理的随机分配可以保证处理的水平独立分布于结果的任何其他影响因素，由此消除了遗漏变量偏差的可能性。此时，处理水平X 对 Y 的因果效应就是条件期望 E ( Y X = x)与 E ( Y X = 0 )之差，其中 E ( Y X = x)是处理组中处理水平为 X 时 Y 的期望值，E ( Y X = 0 )是控制组中 Y 的期望值。如果某一处理对所有成员都一样，那么 X 就是二元变量，因果效应可用处理组与控制组之间的样本平均结果之差来估计。而且，随机分配下这种因果效应等同于单变量的回归模型 Y = β₀ + β₁ X + u 的斜率系数，OLS 估计量β^{^}₁就是因果效应的一致估计。

由于理想的随机化控制实验所具有的对因果关系推断的优势，越来越多的研究者进行了实际实验; 有些实际实验存在着道德与成本问题，研究者转而将其思想应用于基于观测数据的准实验。前文认为普通的回归分析本质上是一种相关推断，那为什么实验框架下的回归分析却可以进行因果推断呢? 关键的差别就在于上述的随机分配思想。问题是，现实中的实验和准实验，都与理想的随机化控制实验存在或多或少的差距。目前国内应用该建模思路的研究存在大量错误，根源就在于对这些方法的适用范围和隐含假定缺少认识。如果随机化失败，处理部分地以主体的特征或偏好为基础，那么实验结果反映的既是处理效应，也是非随机分配效应;即使处理的分配是随机的，但个体并不总是完全遵守随机化实验协议，实际得到的处理也可能不是随机的。而且，实际实验和准实验还可能存在损失问题、实验效应、工具变量可靠性、控制组个体的匹配等问题，它们的叠加将使得情况变得更加复杂。

虽然实际实验和准实验方法得到了广泛的应用，但我们必须看到这些方法本身的局限性，并不是所有的经济学领域都具备实际实验或准实验的条件; 而且，这些方法更多地是验证因果效应的存在性及程度，对于背后的作用机理则多少显得无能为力，根本原因在于这其中没有多少经济理论(结构)。

2. 结构建模方法

Reiss ＆ Wolak( 2007)区分了非结构计量经济模型(或称描述性模型)以及结构计量经济模型。非结构模型基于正式的统计模型，揭示数据( 经济变量)之间的统计特征与统计关系，经济理论的作用仅限于选择被解释变量和解释变量，或者为变量间的关系提供可能的经济学解释，最终模型是以变量的联合分布的某些特征展现出来。所谓结构计量经济模型，则明确地将经济理论模型与统计模型相结合，从而有效识别出定量的经济因果关系; 结构建模是计量经济学区别于统计学以及统计学与其他学科交叉研究的集中体现。

我们认为，过去十年是结构计量建模的复兴时期。之所以说是复兴，是因为既有继承，又有发展。事实上，早期基于凯恩斯主义理论的大型宏观联立方程模型就是一种结构模型。但是，这些模型一方面未能体现理性预期以及经济主体的行为特征等微观基础，因而受到了“卢卡斯批判 ”;另一方面在统计假定上又未能考虑数据特征，使经济理论处于一种超检验的地位，从而阻断了建模者根据数据信息逻辑一致地修改结构模型的可能。20 世纪 80 年代随着宏观经济学中 RBC 模型框架的兴起以及随机效用等微观计量模型的发展，结构建模有了新的进展，而过去十年计量方法的快速进步则使得模型高度结构化。现在所谓的“结构”是指在经济行为主体的动态最优化过程中，刻画偏好、技术、禀赋以及制度等因素的深层参数( Heckman，2000; Reis and Wolak，2007 )，从而使得模型具有坚实的微观基础; 而且包含了更多的统计结构，变量的动态结构以及不可观测效应都得到高度重视。

以微观经济学的动态均衡建模为例，按照行为主体的互动类型，可以分为单经济主体的动态局部均衡模型、多经济主体的动态一般均衡模型以及动态博弈模型( Aguirregabiria andMira，2010 )。在宏观经济学中，DSGE 模型成为新的研究范式，该类模型严格依据一般均衡理论，刻画了包括对行为主体所处环境、决策行为的一系列决策规则以及决策时所面临的不确定性，并在动态优化背景下构建经济主体行为方程，最终获得以非线性期望差分方程组为形式的模型均衡关系式，同时利用有关方法进行均衡的计算以及模型参数的估计。结构模型方法最大的优点在于，结构参数有着明确的经济含义，这使得实证结果也有相应的经济解释。而且，通过反事实分析可对新政策进行评估，相比实验方法，结构建模的效用最大化框架使得福利分析成为可能，政策比较和最优政策选择有了可靠标准。

(三) 经济理论在因果效应识别中扮演什么角色?

洪永淼( 2007)曾指出:统计方法与工具，不管是数理统计还是经济统计，均不能确认经济变量之间的数量关系是否为因果关系。因果关系的确认，必须借助于经济理论的指导。问题在于如何指导呢?

目前流行的回归分析对经济理论的应用主要体现在以下两个方面 :

其一，为变量的选择提供依据，或者通过施加回归模型参数的约束而将理论本身作为研究对象。这里需要再一次强调的是，即使回归模型的变量有相关经济背景，仍然只是提供了一种潜在的、可能的因果解释，而不是结构模型中深层参数直接的因果效应。例如，为研究拍卖的中标额和投标者数量的均衡关系，非结构建模将中标额对投标人数进行回归，在标准的统计假定下，该回归模型给出了给定投标人数时对中标额的线性预测。结构计量建模则在风险厌恶程度、追求预期利润最大化以及和人信息分布等假定下，得到给定投标人数目、中标额的条件密度和条件期望。

其二，是在实证研究前面附加一个理论模型，然后说明后面的实证模型是对该理论模型的验证，或者认为这样的实证模型设定就有了依据。然而，这并不是真正的结构建模，理论模型中的结构参数在各种“演化”之后在实证模型中已不见踪影:如果没有进行实证模型参数与结构参数之间的识别则未能根本解决因果效应的有效识别。

在经济理论与计量分析相结合的过程中，还存在一种现象，将理论模型的某些概念等同于统计概念，均衡方程与协整方程就是一个典型。经济模型中的均衡往往是一系列假定之下得到的经济变量关系的结构方程，而协整体现的是变量间某种长期稳定的统计关系，这种等同至少在以下三个方面存在问题: 第一，即使变量之间不具备经济意义上的均衡关系，仍然可能具有协整关系; 第二，均衡关系往往存在于多个时间序列之间，仅对其中部分时间序列进行协整检验进而得到的协整方程是不完全的，并不是变量之间均衡关系的真实反映;第三，经济理论的均衡有着丰富的含义，包括一般均衡与局部均衡、跨期与期内均衡、长期均衡、博弈均衡等，并不是所有均衡都能通过协整检验来验证，或者说协整未能体现其含义。忽视这种区别，一方面是导致 DSGE 模型均衡的计算以及动态博弈模型马尔可夫精炼均衡的计算等前沿领域没有得到重视，另一方面却出现了“为均衡而协整”的泛滥现象，协整似乎成为一种普遍关系了。

对于因果效应的推断，我们认为，不同的建模方法是一种互补，而不是相互替代。越来越多的经济学家(例如 Granger，2001; Reiss and Wolak，2007; Acemoglu，2010; Keane，2010 )认为必须在宏观经济学、发展经济学、产业组织、劳动经济学等各个领域的经验研究中引入更多的经济理论 ( 结构) ，才能从本质意义上解释因果效应背后的逻辑链条与作用机制。结合因果推断这一重要研究目标，我们更加推崇上述的结构计量建模，实现理论建模与经验分析的统一; 但在卫生经济学、社会经济学等领域，理论数理化相对滞后，一些命题的提出并没有经过严格的数理模型推导，甚至是依赖于直觉，此时实验与准实验方法则应是其因果推断的选择。那么，在承认各种建模思路合理性的前提下，如何在各自的建模框架下保证其统计推断的可靠性呢? 这涉及到一项研究可靠性的另一根本问题———模型的统计适切性评价。

模型的统计适切性评价

计量分析中，参数估计与参数约束关系检验是我们获得有关经济规律一般性结论的归纳论证过程，其可靠性依赖于统计量的良好性质，而这些良好性质的获得又依赖于计量经济模型这个载体中的各种设定。问题在于，这些设定在实际应用中并不必然得到样本数据的支持。如果统计推断建立在各种未得到数据支持的设定之上，其结论将是危如累卵。因此，在 Pesaran ＆ Smith( 1985)提出的评价计量经济模型的三个标准中，模型在统计上的适切性( Statistical Adequacy)逐渐成为最主要的标准。当一个模型的各种假定得到数据的支持时，我们称该模型在统计上是适切的，或者说是正确设定的( White，1994; Geweke et al．，2006; Spanos，1999; Cameron and Trivedi，2005)。

对模型统计适切性的重视，是计量经济学提高其应用可靠性的需要，由此形成第三次大讨论的另一核心议题。计量经济学家从两种思路解决这一难题。一种简单的想法就是，找到稳健的计量模型方法，使得统计适切性不依赖于特定的模型设定。另一种思路则是，找到合适的方法证明自己所依赖的假定是合理的，由此形成了模型选择和模型设定检验两种模型评价思路( Geweke et al．2006)。实证研究中，对于稳健推断、模型设定检验和模型选择的应用也存在重视不够或认识模糊的问题，以下是本文的一些看法。

首先，我们要强调经济分析不能代替统计适切性评价。例如，对于可能存在内生解释变量的回归模型，研究者往往根据理论分析、直观判断或者已有文献结论等先验经验信息，找到工具变量进行IV 估计，进而根据 Hausman 检验判断是否确实存在内生性问题。如果工具变量的可靠性只停留在经济意义层面，而没有通过模型设定检验进行甄别，由此得到的推断结论很可能是误导性的。以教育收益率的经典实证研究( Hayashi，2000)为例，使用不同的工具变量集，得到的检验结果截然不同。原因在于上述做法忽视了 Hausman 检验要求 IV 估计量具有一致性的隐含条件，而这是在工具变量符合与扰动项正交且与内生解释变量( 强) 相关等严格假定之下才能得到的理论结果，在实证研究中并不必然成立，必须通过模型设定检验进行验证。

其次，稳健推断方法与模型评价体现的是对统计适切性的不同要求，各有所长。以回归模型的非球形扰动问题为例，White( 1980 )与 Newey ＆ West( 1987 )的稳健标准误方法受到越来越多经验研究者的青睐，Angrist ＆ Pischke( 2010)甚至认为稳健标准误方法的诞生使得异方差以及序列相关这些设定检验变得不再重要，相应的 GLS 方法将退出舞台。Leamer( 2010 )指出这种认识是有失偏颇的，稳健标准误方法与设定检验及相应的 GLS 方法体现的是对统计适切性的两种不同要求，前者只是要求得到可靠的置信区间范围，后者则更进一步要求有效的点估计。当研究者只关注参数约束检验时，稳健标准误方法足以保证其可靠性; 如果关注的是某些政策效应的比较，就涉及参数估计值的具体大小，此时 GLS 的有效性显然更为重要。此外，以施加较少约束的稳健推断方法代替模型设定检验这一做法还可能限制我们对客观经济世界的进一步探索。Sims( 2010)就认为对面板数据的条件异方差进行建模并使用 FGLS 可以比稳健标准误方法获得更多的经济信息，一个明显的例子就是随机系数模型可以同时体现异方差的来源以及个体的异质性特征。

再次，对于完整的模型评价而言，模型设定检验和模型选择都具有重要意义，但前者更为关键。在许多时间序列分析中，包括单位根检验、Granger 因果关系检验和 VAR 建模，我们经常只看到研究者根据 AIC 或 BIC 等信息准则来确定最优滞后阶数，并未见有关模型设定检验，这种以模型选择替代模型设定检验的做法是危险的。在模型选择过程中，需要先确定一个模型族{ f( z;θ_i)，θ_iΘ，z ^νⁿ，i= 1，…，m}，所有的备选模型都享有同等的地位，然后在特定的标准下挑出最佳模型f(z;θ_k)。Lehmann( 1990)、Spanos( 2010)认为这其中隐含着两种可能错误:一是正确的模型 f( z;θ₀)可能不包括在模型族中，更重要的是没有考虑选择可能犯错的概率，这恰恰没有体现在形成新的具有不确定性的知识时，对这些新知识存在错误的可能性进行度量的要求。而模型的设定检验有原假设和备择假设的区别，其结论是基于分布和犯错概率的推断结果。即使通过模型选择得到的最优模型也不能保证所有的设定都得到数据的支持，对那些关系到估计和推断性质的模型设定问题还必须进行严格的设定检验。相比模型选择，模型设定检验是关系到计量经济分析过程可靠性的更为根本的步骤，如时序分析中的模型选择就只是在平衡拟合和简洁性之间的选择，并不能保证残差必然满足独立同分布假定。

最后，我们强调模型设定检验并不是对数据的重复使用或者数据挖掘。对于给定的数据 Zⁿ ，通常需要用于两种检验: ( 1)参数约束关系检验;( 2)对于设定模型 M_θ( z)可靠性的检验。因此，有人质疑这是否对数据进行了重复使用。Spanos( 2010 )对此给予反驳:一是上述两种检验是对数据 Zⁿ 所提出的两个不同问题，二是这两种检验具有不同的边界。具体而言，参数约束检验假定 M_θ( z)在统计上是适切的，问题的探究仍然在其边界内;而模型设定检验考察的问题是数据 Zⁿ 是否由M_θ( z)所刻画的随机机制所产生，问题的探究已经超越 M_θ( z)的边界。也有学者指责模型设定检验本质上也是一种数据挖掘。实际应用中，数据挖掘的含义很宽: 一种是指建模者为了证实某种先验理论而有意掩盖或摒弃与理论相悖的数据信息，这是不可取的;一种是指为了使计量模型通过一系列设定检验而反复修正模型形式的做法，此时只要建模者将模型设定检验的过程明朗化、严谨化和系统化，便是可取的建模方法(韩德瑞和秦朵，1998)。

在计量模型统计适切性评价中，稳健推断、模型设定检验与模型选择都发挥了重要作用，这些不同方法的使用一定程度上也依赖于研究目的。其中，模型设定检验是最为关键的步骤，每一种模型方法下都有相应的模型设定检验问题。如果设定检验的结果暴露出问题，就应当重新考虑模型的设定，重新进行检验，直至通过检验。这一过程可以概括为“模型设定———模型估计———模型设定检验———模型再设定”，设定检验这种内在的一致性虽然不是保证模型正确分析的充分条件，却是合乎科学逻辑的必要条件( Hendry，1995)。我们认为，无论是模型设定还是模型设定检验，都要仔细推敲其具体的应用背景和适用条件，对这些细节的处理是否恰当是一项研究科学性的重要体现，前文列举的忽略扰动项概率分布导致错误的例子，很多就是忽略统计适切性的结果。

计量经济圈是中国计量第一大社区，我们致力于推动中国计量理论和实证技能的提升，圈子以海内外高校研究生和教师为主。计量经济圈六多精神：计量资料多，社会科学数据多，科研牛人多，名校人物多，热情互助多，前沿趋势多。如果你热爱计量并希望长见识，那欢迎你加入到咱们这个大家庭（戳这里），要不然你只能去其他那些Open access圈子了。注意：进去之后一定要看小鹅社群“群公告”，不然接收不了群息，也不知道怎么进入咱们的微信群和计量论坛。

帮点击一下下面的小广告，谢谢支持！

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！