Prof. Lars Peter Hansen
“ What Hansen did with the generalized method of moments is show that when we have more moment conditions than parameters we can best estimate those parameters by giving more weight to the conditions that we have better information about.
——Alex Tabarrok (Marginal Revolution Blog)
” 传统的工具变量法为 2SLS,因为它操作方便,且同时适用于恰好识别与过度识别的情形。然而,2SLS 仅在扰动项同方差的情况下,才是最有效率的。理由很简单,如果每位个体的扰动项方差不相同(比如,大企业的方差一般不同于小企业的方差),则方差小的个体观测值所包含的信息量更大,而 2SLS 却对所有数据等量齐观地进行处理,故在异方差的情况下不是最有效率的。在过度识别且存在异方差的情况下,更有效率的做法是 “广义矩估计”(Generalized Method of Moments,简记 GMM)。该方法由芝加哥大学的 Lars Peter Hansen 教授所提出 (Hansen, 1982),已成为最流行的计量方法之一,Hansen 也因此获得 2013年的诺贝尔经济学奖。顾名思义,广义矩估计为矩估计的推广,故先介绍矩估计。何为矩?简单说,矩就是随机变量之函数的期望。比如,对于随机变量 ,其一阶原点矩为其期望 ,二阶中心矩为其方差 ,以此类推。
更一般地,考虑随机变量 的函数 。显然, 仍为随机变量,其期望 也称为 “矩”(moment)。进一步推广,随机向量 的函数 之期望 ,也称为 “矩”。总之,矩可以视为随机变(向)量的某种特征。矩估计是一种古老的数理统计方法,由统计学的创始人之一 Karl Pearson 于 1894 年提出。
考虑最简单的情形,只有一个待估计参数 ,而且已知以下 “总体矩条件”(population moment condition):显然,如果知道总体期望 ,则可直接求解 。但我们一般不知道 ,而需要通过样本数据进行估计。假定得到样本容量为 的随机样本 ,则可用样本均值(样本矩)来替代上式的总体期望(总体矩),由此得到矩估计量:如果有两个未知参数,则需要写下两个矩条件(比如,一阶矩与二阶矩),然后以样本矩(sample moments)替代总体矩(population moments),并通过求解二元线性方程组得到矩估计量。
工具变量法的矩估计(Method of Moments)
在恰好识别的情况下,可将矩估计运用于工具变量法。考虑以下多元回归模型,共有个 未知参数:
其中,第一个解释变量一般为常数项,即 。更紧凑地,此方程可写为:其中, 与 均为 维列向量。在恰好识别的情况下,记由所有工具变量所构成的向量为 (可以与 有重叠,即外生变量作为自己的工具变量),也是 维列向量。
此总体矩条件也被称为 “正交条件”(orthogonality conditions)。在数理统计中,如果两个随机变量的乘积之期望为 0,则称这两个随机变量正交。
显然,如果两个随机变量中包含一个随机扰动项,则 “两个随机变量不相关” 就等价于 “两个随机变量正交”,比如:其中,扰动项 的期望为 0(只要回归方程有常数项,总可以将扰动项的非零期望归入常数项)。
由于 ,将此表达式代入上式的正交条件,可得更便于估计的总体矩条件:这是一个由 个方程( 的维度)、 个未知数( 的维度)所构成的线性联立方程组,故一般情况下存在唯一解,即矩估计量(Method of Moments,简记MM)。可以证明,此 MM 估计量等价于 2SLS。
然而,在过度识别的情况下,却无法使用传统的矩估计。这是因为,此时 的维度大于 的维度,对参数向量 有过多的约束,使得方程个数大于未知数个数,导致此线性方程组无解。
由于在恰好识别的情况下,矩估计等价于 2SLS;而在过度识别的情况下,矩估计不适用而 2SLS 依然可行,故传统上工具变量法一般用 2SLS。看似已走入死胡同的矩估计,却被 Lars Hansen 起死回生了。假设工具变量 的维度为 ,且严格大于参数向量 的维度 。如上所述,此时样本矩的线性方程组无解。这意味着,找不到 ,能够使得上述样本矩等于 向量。
但 Lars Hansen 来了个脑筋急转弯:虽然无法找到 ,使得样本矩等于 ,但总可以让样本矩尽量接近于 。由于样本矩 为 维列向量,故可用二次型来衡量它到 向量的距离,比如最小化如下目标函数:这个脑筋急转弯价值不菲,三十多年后为 Lars Hansen 带来了诺贝尔奖。更一般地,可用一个 “权重矩阵” (weighting matrix)(可依赖于样本)来构成二次型,定义最小化的目标函数为:其中,因子 不影响最小化。这是一个无约束的最优化问题,目标函数 是 的二次 (型)函数,故可得到其解析解(推导方法类似于 OLS),即 “GMM估计量”。
在恰好识别的情况下,目标函数的最小值正好为 0,故 GMM 估计量等价于 MM 估计量(故也等价于 2SLS),因此 GMM 确实是 MM 的推广。显然,GMM 估计量取决于权重矩阵 。对于 的灵活选择是 GMM 的最大优点之一,因为不同矩条件的强弱程度一般不同。矩条件只是说明 ,但每个矩条件的方差 可以不同,参见下图——
一个强的矩条件意味着其对应的方差较小(上图实线,矩条件1),是一个比较紧的约束,包含更大的信息量,故会通过 得到较大的权重,使得 GMM 估计量更有效率。具体来说,矩条件的协方差矩阵可写为:以残差 (比如,2SLS 残差,因为 2SLS 也是一致的)替代上式的扰动项 ,并以样本均值替代总体期望,可得对此协方差矩阵的一致估计:Hansen (1982)证明,如果让 (方差矩阵的逆矩阵或 “倒数”),则可使得 GMM 估计量的渐近方差最小化,其相应的 GMM 估计量称为 “最优GMM”(optimal GMM)。
自然地,既然存在最优 GMM,一般就不会使用其他的权重矩阵了,故一般所说的 GMM 估计量默认就是最优 GMM。在过度识别的情况下,则可以进行 “过度识别检验”(overidentification test)。考虑以下原假设:
根据 Wald 检验原理,如果总体矩条件正确,则样本矩也应该离 向量不远。以二次型来度量此距离,可证明 GMM 估计量的目标函数 就是检验统计量:其中, 为过度识别的个数。此检验统计量称为 “Hansen's J 统计量”,在异方差情况下也适用。
与 2SLS 的命令类似,执行 GMM 的 Stata 命令为:
ivregress gmm depvar [varlist1] (varlist2 = instlist), igmm
其中,“depvar” 为被解释变量,“varlist1” 为外生解释变量,“varlist2” 为内生解释变量,而 “instlist” 为工具变量。选择项 “igmm” 表示使用迭代 GMM,默认为两步 GMM。
得到 GMM 估计量后,可使用以下命令进行过度识别检验:可以证明,在同方差的情况下,GMM 等价于 2SLS。因此,严格来说,在同方差的情况下,没有必要使用 GMM。然而,现实数据或多或少存在一些异方差(谁能保证所有个体的扰动项方差一定完全相同呢),因此在过度识别的情况下,基本上就是 GMM 的天下。当然,在恰好识别的情况下,一般依然使用 2SLS,因为此时 GMM 与 2SLS 等价。
以上所介绍事实上为 “线性 GMM”(linear GMM),即矩条件为待估计参数的线性函数。更一般地,GMM 也适用于非线性的矩条件(比如,宏观经济学的理性预期假设),称为 “非线性 GMM”(nonlinear GMM)。在Stata中,可通过命令 “gmm” 自行定义矩条件,进行非线性 GMM 估计,详见 “help gmm”。
与最大似然估计(MLE)相比,GMM 并不是最有效率的。但 MLE 要求完全写下样本数据的似然函数(即联合密度函数),而我们对于变量的分布往往没有把握。而对于 GMM 而言,并不要求知道具体分布,属于 “部分设定”(partially specified)的模型,仅使用某些矩条件进行估计,故更为稳健。这也是 GMM 大行其道的重要原因之一。
______________________________
Hansen, Lars Peter. "Large Sample Properties of Generalized Methods of Moments Estimators," Econometrica, 1982, 50, 1029-1054. 陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年。陈强,《计量经济学及Stata应用》,高等教育出版社,2015年。
►一周热文
发布丨精准搜索我们公众号和文章
数据呈现丨划重点 ! 经济学学Python 需要学哪些内容?——数据可视化呈现必知必会的知识点
数据资源丨35个国内外社会科学数据网站资源汇总
统计计量丨工具变量法(三):IV真的外生吗?
软件应用丨经济学专业学习Python之数据处理工具大集合
统计计量丨古老而神秘的因子分析(三)
数据呈现 | 让文稿shinly起来!地图绘制
这里是大数据、分析技术与学术研究的三叉路口
作者:陈强出处:计量经济学及Stata应用推荐:杨奇明编辑:青酱