查看原文
其他

老姚专栏丨极大似然估计并不难理解

姚耀军 数据Seminar 2021-06-03

全文共2146个字,阅读大约需要8分钟


在科学研究中,有一个强调理论应追求简约的奥卡姆剃刀法则,其核心思想经常被浓缩为一句话——

最可能的解释就是最好的解释。

那么,何谓最可能的解释呢?若我们坚持统计学中频率学派的思想,认为某种解释要么正确、要么错误,不存在可用概率来衡量的模糊地带,则最可能的解释就不是指某种解释最可能为真,而是指我们观察到的经验事实在给定某种解释的情况下,最有可能发生。进而,我们认为这种“最可能”的解释对经验现象最具解释力,是最好的解释。
具备一定统计学基础的朋友会立即发现,上述对奥卡姆剃刀法则核心思想的理解其实就是极大似然估计原理。

从数学上看,极大似然估计原理是:若参数取某一值能使样本数据出现的概率最大,则我们就将这一取值作为对未知参数的估计值。

这里的样本数据是我们观察到的经验事实,而不同的估计值可视为一系列竞争性理论假说。极大似然估计意味着,若经验事实在某一理论假说下出现的概率最大,则该理论假说就是最具解释力亦即最好的假说。其背后的直觉可以通过如下一个简单的例子来揭示——

假设装在你口袋里的零钱经常丢失,现在要对这一经验事实做出解释。现存的竞争性解释有两种:其一是,有一个外星人在捉弄你;其二是,你的口袋有个小破洞。请问,哪一种解释是较好的解释?从直觉上看,答案应是第二种。原因是,当你的口袋有个小破洞时,你经常丢失零钱的可能性应该更大。我们很难理解,当一个外星人在捉弄你时,他仅紧盯着你口袋里的零钱不放,而不采取其他捉弄你的方式。

极大似然估计充满直觉与洞察力,但标准的计量经济学教材却主要围绕对线性回归模型的最小二乘法估计而展开。与极大似然估计不同,最小二乘法估计强调理论假说对经验事实的逼近。按照最小二乘法原理,若经验事实在某一理论假说下获得的拟合度最高,则该理论假说就是最具解释力亦即最好的假说。然而可以证明,当线性回归模型的误差项服从正态分布时,模型截距与斜率参数的极大似然估计量与最小二乘估计量完全等价。

从计量经济学基本原理上看,上述等价性其实比较出乎预料。原因在于,最小二乘法估计属于矩估计的特例,而极大似然估计与矩估计的最重要区别在于:前者利用了样本数据的所有信息(亦称全信息法),后者仅使用了样本数据的矩信息(亦称半信息法)。从直觉上看,由于极大似然估计所利用的信息更多,因此其估计更精确,有效性更高,至少在渐进意义上如此。
那么,这种等价性究竟源于何处呢?答案是误差项服从正态分布的假定。我们知道,如果随机变量服从正态分布,那么其一阶矩(期望值)与二阶矩(方差)信息就完全决定了分布的位置与形状。换言之,一旦一阶与二阶矩信息已知,就可以推出整个分布的信息(注意,其他很多分布并不具有这样的性质)。这种等价性具有一个明确的含义:如果极大似然估计具有有效性(可以证明,在一定的正则条件下,极大似然估计确定了一个无偏参数估计量方差的下限,此下限被称为Cramer-Rao下界),那么最小二乘估计也是最有效的。

需要提醒的是,我们不要将上述结论与高斯马尔科夫定理相混淆。高斯马尔科夫定理是指——

若线性回归模型满足高斯马尔科夫假定,则最小二乘估计量为最优线性无偏估计量(BLUE)。亦即,在所有的线性无偏估计量中,最小二乘估计量最有效。

如果在高斯马尔科夫假定基础上再施加误差项服从正态分布的假定(统称为经典线性模型假定),那么基于前文的阐释,应有结论:若线性回归模型满足经典线性模型假定,则最小二乘估计量为最优无偏估计量。亦即,在包括线性无偏估计量在内的所有无偏估计量中,最小二乘估计量最有效。显然,这是一个比高斯马尔科夫定理更强的结论。

极大似然估计经常设定总体服从一个参数未知的正态分布,但若总体分布不是正态分布会有何后果呢?神奇的是,哪怕这是一种误设(即真实的总体分布不是正态分布),我们也可能得到一个满足一致性的估计结果——这被称为拟极大似然估计。追根溯源,这种分布误设不影响一致性的底层逻辑是,大数定理的成立与总体服从何种分布无关。值得指出的是,在线性回归模型框架下,拟极大似然估计的一致性很容易被印证,这是因为:


一方面,正如上文所说,只要设定误差项服从正态分布,那么模型截距与斜率参数的极大似然估计量就与最小二乘估计量完全等价;

另一方面,最小二乘估计量的一致性又与误差项是否服从正态分布没有关系。当然,分布误设即使不影响一致性,但总会存在其他方面的成本,而这主要反映在有效性的丧失上——拟极大似然估计不再满足渐进有效性。

最后要指出的是,之所以矩估计而非极大似然估计成为了计量经济学的Workhorse,主要是因为,通过将复杂的估计简化为一个(看似)简单的寻找矩条件的过程,矩估计有助于将经济学家们从数学中解放出来,更多地专注于矩条件可能蕴含的丰富经济学含义。众所周知,经济学家们青睐有加的工具变量估计(IV)就是一种矩估计。在这里,若矩条件具有丰富的经济学含义,则意味着研究者找到了很好的工具变量——是的,很多经典的经济学实证论文就是因工具变量“出彩”而成为经典。但是,矩估计主要适用于线性模型。一旦遇到非线性模型(例如离散因变量模型、受限因变量模型),登场的主角通常就变成了极大似然估计。作为人工智能的分支,机器学习涉及的模型大多数都是非线性的(例如神经网络模型),故极大似然估计也更盛行于机器学习领域。







企研学术顾问 · 耀军


姚耀军,1976年出生,湖北利川人,浙江工商大学金融学院教授、博士生导师,浙江省高校中青年学科带头人,浙江省首期之江青年社科学者,浙江省“151人才工程”第三层次培养人员,杭州市“十三五”哲学社会科学应用经济学学科组评审专家,企研数据学术顾问。长期从事金融发展理论与实证研究,在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术期刊上发表论文多篇,部分成果被《新华文摘》《中国法经济学研究》《中国经济的转型升级:新结构经济学方法与应用》《高等学校文科学术文摘》《人大复印资料》收录或者转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。



►一周热文

数据呈现丨R与Office珠联璧合:如何实现R制图便捷导入PPT?

机器学习丨机器学习与统计学、计量经济学的区别与联系

统计计量丨一文读懂Stata做格兰杰因果检验命令总结

统计计量丨交互项模型的发现,究竟可信吗?

老姚专栏丨可决系数R方的阴暗面

元旦特刊 | 2020年元旦夜演:用R玩烟花,用心写代码

统计计量丨面板数据主要分析方法汇总









数据Seminar




这里是大数据、分析技术与学术研究的三叉路口




作者:姚耀军审阅:杨奇明编辑:青酱






    欢迎扫描👇二维码添加关注    

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存