启研学社由知名学者担任学术顾问,高校师生与企研数据科学团队联合组建,以大数据资源及相关技术助力中国学术与智库研究为宗旨的研究组织。团队当前的主要目标是挖掘经济社会大数据资源在学术和智库领域的应用价值,开展学术大数据治理研究,以及探索大数据分析技术融入中国经济社会研究的可行进路。
如果一个估计量称得上是良好的,那么其满足一致性应该是最低标准。所谓一致性,是指当样本容量趋于无穷大时,估计量依概率收敛于相应的总体参数。试想,若样本容量果真“无穷大”,则不相当于总体已经展示在我们面前了吗?显然,此时很难说还存在什么统计推断问题。这也意味着,如果一个估计量此时还不收敛于真实参数,还不能告诉我们关于参数取值的真相,那么其一定“不靠谱”。
为了证明估计量满足一致性,我们需要引入两个重要假定:第一,误差项的期望值等于零;第二,误差项与解释变量不相关。需要指出的是,这两个假定可以同时由“严格外生性”这个更强的假定派生出来。所谓严格外生性,是指误差项以解释变量为条件的期望值等于零。当严格外生性假定成立时,估计量不仅满足一致性这个最低标准,同时还满足无偏性。更强的结论可以在严格外生性假定下获得,这表明严格外生性确实是一个更强的假定。对于保证估计量的一致性,只需要引入“误差项的期望值等于零”与“误差项与解释变量不相关”这两个更弱的假定。一旦给出这两个假定,如何证明估计量满足一致性属于较简单的数学问题,很多计量经济学教科书都会提供证明过程。然而,令很多初学者困惑的是,教科书中的标准处理方式是,一开始就会“突兀”地给出上述两个假定,从不交待它们最早是怎么被想到的,结果常令人“丈二和尚摸不着头脑”,知其然而不知其所以然。其实,这两个假定的提出是非常自然的。要理解这一点,我们不妨回到基本原理,考察残差的代数性质。为简单计,我们以如下一元线性回归模型为例:教科书会给出关于与的计算公式,而这些公式往往也抓住了初学者的眼球。然而,由于我们早已跨出了大规模手工计算的时代,计算公式具体是什么实际上并不重要。真正值得我们关注的是,这些计算公式背后隐藏着关于残差的两个重要代数性质。不妨回忆一下,我们是通过联立两个正规方程来求解与的。其中第一个正规方程意味着:的样本均值等于0;第一个与第二个正规方程结合在一起意味着:与样本不相关。需要提醒的是,有关的两大性质是“实实在在”的代数性质,不属于假定。换言之,只要对模型(1)进行估计,回归残差就必定满足这两大性质。那么,基于残差所服从的两大代数性质,我们又如何引出“误差项的期望值等于零”与“误差项与解释变量不相关”这两个重要假定呢?要回答这个问题,我们必须回到式(2)与式(1)的关系上来。式(1)是总体回归方程,其中与是未知的参数。式(2)是样本回归方程,其中与分别是对与的估计。显然,如果这种估计满足一致性,那么至少对于大样本而言,残差应该与误差具有良好的近似性。但问题在于,由于与是未知参数,是无法被观测的。与此不同,一旦给定样本,由于可以计算出与的值,是能被观测到的。那么,我们如何保证一个能被观测的变量与一个无法被观测的变量具有近似性呢?解决方案看起来很直接、很“粗暴”,那就是对的性质做出某些假定,而这些假定不过是从数学上对与具有近似性进行了更正式的表述。至此,“误差项的期望值等于零”与“误差项与解释变量不相关”这两个重要假定就呼之欲出了——既然的样本均值等于0,则不妨假定“误差项的期望值等于零”这个相应的总体性质成立;既然与样本不相关,则不妨假定“误差项的与解释变量不相关”这个相应的总体性质成立。如果“误差项的期望值等于零”与“误差项与解释变量不相关”这两个重要假定不成立,均值为0且与不相关的就不可能在样本意义上模拟所具有的统计分布性质,对进行良好的近似。当然这也意味着,与不可能是对相应总体参数的良好估计。很容易理解,当这两个假定成立时,估计本质上属于矩估计。更具体地说,“误差项的期望值等于零”与“误差项与解释变量不相关”分别提供了两个总体矩条件,而“的样本均值等于0”与“与样本不相关”就是相应的样本矩条件。将这两个样本矩条件结合起来,就可以推导出关于与的计算公式。从统计学原理上讲,大数定理保证了矩估计量的一致性。最后补充一点,如果仅为了保证满足一致性,“误差项的期望值等于零”与“误差项与解释变量不相关”这两个假定中的第一个假定,可被放松为“误差项的期望值等于常数”。
点击阅读原文,进入CCAD数据库
·END·
星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!
点击搜索你感兴趣的内容吧
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
文 | 姚耀军
编辑 | 陈杭肖 夏一玮
排版编辑 | 青酱
欢迎扫描👇二维码添加关注
点击下方“阅读全文”了解更多