商务统计学基础|第2章 参数估计:极大似然估计
为了方便讨论,我们假设是一个关于的估计量。正如前面我们讨论的那样,它可以是基于全部样本的样本均值,也可以是基于两个样本的样本均值。请问:如何从理论上评价的估计“精度”?一个很自然的想法是:看看和之间的差距不就可以了吗?例如:可以考查它们之间的均方距离,我们也称为均方误差。这个想法虽然有道理,但是无法实施,因为它面临两个挑战。第一、对于实际的数据分析而言,关于总体的参数是未知的。如果我都知道了,哪里还需要做参数估计?第二、即使是已知的,也是一个带有不确定性的随机变量。有时候,这个差异很大,说明估计误差很大,这是否就说明是一个很差的估计量?如果可以,那又如何解释有时候也可能很小呢?毕竟是一个随机变量,各种各样的可能性都是存在的。因此,我们不能用这样一个随机变量来评价一个估计量的好坏,因为它是随机的。但是,如果我们对这个随机估计的误差求期望,你会发现故事突然变了,这就变成了一个确定性的量。假设是一个基于个样本的样本均值,这个样本相互独立且具有相同的分布(即独立同分布),我们会发现。其中取决于服从的分布,在实际中可以视为一个定值。例如,当服从正态分布时,即为。这个公式非常有意思,它说明:如果我们用样本均值来估计总体均值,那么可以用均方误差的期望来评价估计精度。从这个角度看:样本量确实影响了估计精度。随着样本量的增加,估计精度以的速度收敛到。回到前面讨论到的一个朴素直觉:大样本具有高精度。这个均方误差公式就是对这个朴素直觉的一个理论支撑。
简单总结一下,到此为止我们注意到两个事情。第一、对于同一个参数,很可能有不同的估计量(例如:样本均值、样本中位数等)。第二、不同的估计量可以用均方误差的期望来评价其相对优劣程度。那马上又产生了一个新的问题:对于一个给定的总体(例如:正态分布),对于一个给定的参数(例如:总体均值),请问:是否存在一个“最优”的估计量?它的均方误差的期望是最小的(或者某种意义上是最小的)。如果这是存在的,那么该估计量应该具有极其重要的现实意义,因为这意味着:我们不需要盲目地生产创造各种估计量了,只要找到这个最优解,那么参数估计的问题就解决了。相反,只要这个最优解还没有找到,那么科研工作者就还需要继续努力,直到找到这个最优解并能够最终求解出来。幸运的是,这个最优解是存在的,它就是:极大似然估计。为什么极大似然估计是最优估计?这是一个很好的问题。有兴趣的同学,将来可以通过学习高等数理统计学来了解背后的原因。但需要注意,这不是一个绝对正确的结论,因为总有特例不成立。但是,在绝大多数情况下,极大似然估计是几乎最优的。
具体到正态分布的极大似然估计,它是如何定义的呢?这并不是非常好理解,尤其是对于初学者而言。因此,我们先不讨论正态分布,而是讨论一个非常简单的故事,希望你能从这个简单的故事中,洞察极大似然估计的本质。这个故事是这样的。假设有一个大盒子,里面装着100个球。有两种可能性。可能性一:有99个黑球1个白球;可能性二:有99个白球1个黑球。但是具体是哪种可能我们是不知道的。我把手伸进这个黑盒子随机挑选了一个球,拿出来一看发现是白球。请问:我应该对这个黑盒子的实际状态做如何猜测呢?我应该猜可能性一还是可能性二呢?请注意,无论是哪一种可能性,都有可能产生“随机获得一个白球”这个结果。因此,两种可能性都是存在的。但是哪一种可能性更大呢?这个问题不好回答。而另一个类似的问题要好回答得多,那就是:在哪一种可能性下,出现“随机获得一个白球”这个结果的可能性最大呢?答:可能性二。为什么?因为如果是可能性一,随机获得一个白球的可能性是1%。相反,如果是可能性二,那么该现象发生的可能性会是99%。这说明:可能性二是最有可能合理解释“随机获得一个白球”这个现象的假设。如果我们遵循“最大解释合理性”这样一个原则,那么就应该认为可能性二是更合理的一个猜测。而这个猜测就是一个关于可能性一或可能性二的极大似然估计。所谓“似然”,就是发生“随机获得一个白球”这个随机现象的可能性,所谓“极大”,就是要极大化这个可能性。因此产生的估计量就是:极大似然估计。
总结一下,我们也许可以套用一句话去描述极大似然估计的核心,那就是:存在的就是合理的。所谓存在的,那就是已经看到的这个“随机获得一个白球”的现象。所谓合理的,就是要找到一个关于总体的参数设定,让发生这个“存在”现象的可能性最大化。再回到我们正在研究的正态分布。面对两个不同参数和,应该如何估计呢?答:存在就是合理的,这是基本原则。所谓存在,就是已经观测到的个独立同分布的随机变量。所谓合理就是要极大化产生这个随机观测的可能性,而如何度量该可能性就成了关键。考虑一个具体的例子。假设我们从某校抽取了100名学生,测量他们各自的身高,以此来对全校学生总体的身高均值进行估计。身高显然不可能是负数。假设我们先忽略这个事实,并做一个假设,即假设全校所有同学的身高服从的是正态分布,那么均值应该是多少,方差应该是多少呢?设100名学生中第名同学的身高为米。先不考虑其他同学的数据,也不考虑方差,仅仅考虑均值。请问:取什么值的时候,产生的可能性最大?米合适吗?显然不合适,因为从古至今人的身高就没有这么高过。那么米合适吗?显然也不合适,因为身高不可能是负的。如果一定要猜一个均值,哪个均值最合适呢?似乎只能是1.75。为什么呢?因为当时,发生的可能性最大。为什么我们说此时的可能性最大?因为此时概率密度函数的取值最大。请注意,正态分布的密度函数形式为:对于任意给定的方差和样本取值,当时,上述概率密度取值最大。你看,这是不是一种比较有道理的做法。该做法的核心过程就是要极大化发生这个现象的概率密度,秉承“存在就是合理”的基本原则。如果你已经明白上面关于1个样本现象的讨论,那么同样的道理可以用到多个样本上。记住,我们在这里采集了个独立同分布的样本。也就是说,我们采集了100个同学的身高。有的个子很高,有的很矮,更多的是中等水平。他们都来自一个共同的总体,即一个均值为,方差为的正态分布。请问:什么样的,什么样的,才能极大化看到这个数据现象的可能性呢?为此,我们需要构造一个关于所有样本数据的概率密度函数。这不是一个容易的事情。但幸运的是,我们经常可以假设不同个体的身高是相互独立的。这意味着它们的联合概率密度可以通过简单乘法实现。因此我们就有了以下的联合概率密度函数:对,这就是传说中的似然函数(Likelihood Function)。该函数从数学上描述了在一定概率分布假设下(例如:某正态分布),产生某样本现象()的可能性的大小。而一个合理的参数估计(例如:关于和的估计),应该极大化该函数。通过极大化该函数而获得的数值解就是极大似然估计(Maximum Likelihood Estimator)。在实际计算过程中,人们发现似然函数的数值性质非常不好,不好算。原因是大量的连乘会使计算结果以非常快的速度收敛到0,进而失去了比较不同参数设定下函数值大小的可能性。因此,我们需要采用一个数值计算上更加稳定的替代品,那就是对数似然函数(Log Likelihood Function)。对于正态分布而言,其数学形式为:
接着我们考虑如何将该函数值极大化,也就是求该函数取最大值时对应的和的取值。为此,可以考虑对两个未知参数和分别求一阶偏导数,并令其等于0,即:联立求解上述两个方程,我们就得到了正态分布均值和方差的极大似然估计表达式:这个结果意味着,总体均值估计为,方差估计为时,我们抽取到当前样本的可能性最大。和上一节中矩估计的结果相比,我们会发现,对正态分布的均值和方差来说,极大似然估计的结果与矩估计的结果是一样的。由于估计量和都是由样本构成的,因此也是具有不确定性的随机变量。自然而然地,我们就好奇这两个随机变量是怎样变化的。在之前的介绍中,我们刻画随机变量特征的常用工具就是各阶矩,尤其是均值和方差。因此下面我们就来研究估计量和的均值和方差。估计量的均值和方差有如下的计算过程:由上述过程可知,的极大似然估计量的均值正好就是。这意味着使用对同一个正态分布均值进行很多次估计之后,估计结果的“中心位置”正好就是。这种特性也被称为无偏性,因此估计量是正态分布均值的无偏估计。显然,无偏估计不是任意一个统计量都具有的特性,比如估计量的均值就并不等于。这一结论的证明过程如下:因此估计量的均值并不是,而是,显然这个估计量是有偏(Biased)的,因为它的期望不严格等于目标参数。但是和之间的偏差还是很小的,并且当逐渐增大时,将会趋于1,即估计量的期望(某种中心位置),会随着样本量的增加,收敛到目标参数。这是一个美好的性质。既然估计量距离无偏性很近,那么能不能对适当进行改进,从而给出一个无偏的正态分布方差估计量呢?当然可以,而且过程非常简单,只需要将估计量乘上常数即可。由此构造出无偏的正态分布方差估计量如下:接下来一个自然的问题是:估计量本节以正态分布为研究对象,介绍了极大似然估计的思想、理论和计算细节。在学习过程中,还讨论了如何比较不同估计量的优劣性。产生了两个不同的指标:偏差和方差,并最后整合成为一个评价标准:均方误差。最后,以均方误差为标准,对不同的方差估计量做了对比分析。后面我们将学习统计学推断,下一节将从均值的置信区间开始。
- END -
京东购书
当当购书
往期推荐