老姚专栏丨极大似然估计并不难理解
全文共2146个字,阅读大约需要8分钟
最可能的解释就是最好的解释。
”从数学上看,极大似然估计原理是:若参数取某一值能使样本数据出现的概率最大,则我们就将这一取值作为对未知参数的估计值。
”假设装在你口袋里的零钱经常丢失,现在要对这一经验事实做出解释。现存的竞争性解释有两种:其一是,有一个外星人在捉弄你;其二是,你的口袋有个小破洞。请问,哪一种解释是较好的解释?从直觉上看,答案应是第二种。原因是,当你的口袋有个小破洞时,你经常丢失零钱的可能性应该更大。我们很难理解,当一个外星人在捉弄你时,他仅紧盯着你口袋里的零钱不放,而不采取其他捉弄你的方式。
极大似然估计充满直觉与洞察力,但标准的计量经济学教材却主要围绕对线性回归模型的最小二乘法估计而展开。与极大似然估计不同,最小二乘法估计强调理论假说对经验事实的逼近。按照最小二乘法原理,若经验事实在某一理论假说下获得的拟合度最高,则该理论假说就是最具解释力亦即最好的假说。然而可以证明,当线性回归模型的误差项服从正态分布时,模型截距与斜率参数的极大似然估计量与最小二乘估计量完全等价。
需要提醒的是,我们不要将上述结论与高斯马尔科夫定理相混淆。高斯马尔科夫定理是指——
若线性回归模型满足高斯马尔科夫假定,则最小二乘估计量为最优线性无偏估计量(BLUE)。亦即,在所有的线性无偏估计量中,最小二乘估计量最有效。
”如果在高斯马尔科夫假定基础上再施加误差项服从正态分布的假定(统称为经典线性模型假定),那么基于前文的阐释,应有结论:若线性回归模型满足经典线性模型假定,则最小二乘估计量为最优无偏估计量。亦即,在包括线性无偏估计量在内的所有无偏估计量中,最小二乘估计量最有效。显然,这是一个比高斯马尔科夫定理更强的结论。
一方面,正如上文所说,只要设定误差项服从正态分布,那么模型截距与斜率参数的极大似然估计量就与最小二乘估计量完全等价;
另一方面,最小二乘估计量的一致性又与误差项是否服从正态分布没有关系。当然,分布误设即使不影响一致性,但总会存在其他方面的成本,而这主要反映在有效性的丧失上——拟极大似然估计不再满足渐进有效性。最后要指出的是,之所以矩估计而非极大似然估计成为了计量经济学的Workhorse,主要是因为,通过将复杂的估计简化为一个(看似)简单的寻找矩条件的过程,矩估计有助于将经济学家们从数学中解放出来,更多地专注于矩条件可能蕴含的丰富经济学含义。众所周知,经济学家们青睐有加的工具变量估计(IV)就是一种矩估计。在这里,若矩条件具有丰富的经济学含义,则意味着研究者找到了很好的工具变量——是的,很多经典的经济学实证论文就是因工具变量“出彩”而成为经典。但是,矩估计主要适用于线性模型。一旦遇到非线性模型(例如离散因变量模型、受限因变量模型),登场的主角通常就变成了极大似然估计。作为人工智能的分支,机器学习涉及的模型大多数都是非线性的(例如神经网络模型),故极大似然估计也更盛行于机器学习领域。
企研学术顾问 · 姚耀军
姚耀军,1976年出生,湖北利川人,浙江工商大学金融学院教授、博士生导师,浙江省高校中青年学科带头人,浙江省首期之江青年社科学者,浙江省“151人才工程”第三层次培养人员,杭州市“十三五”哲学社会科学应用经济学学科组评审专家,企研数据学术顾问。长期从事金融发展理论与实证研究,在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术期刊上发表论文多篇,部分成果被《新华文摘》《中国法经济学研究》《中国经济的转型升级:新结构经济学方法与应用》《高等学校文科学术文摘》《人大复印资料》收录或者转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。
►一周热文
数据呈现丨R与Office珠联璧合:如何实现R制图便捷导入PPT?
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
作者:姚耀军审阅:杨奇明编辑:青酱
欢迎扫描👇二维码添加关注