查看原文
其他

商务统计学基础|第2章 参数估计:极大似然估计

王汉生,王菲菲 狗熊会 2023-07-25
点击上方"狗熊会"关注我们吧!

在上一节中我们介绍了一种估计分布中未知参数的方法:矩估计。而本节中,我们将讨论统计学理论中另一个极其重要的参数估计方法:极大似然估计(Maximum Likelihood Estimation, MLE)。在正式学习这个概念前,你需要先了解一个事实。那就是,对于同一个参数,可能存在很多甚至无穷多个不同的估计量。还是以正态分布为例,假设有个独立同分布的随机变量,请问应该如何估计均值呢?根据前一节的讨论,我们可以用样本均值来估计,这是一个典型的矩估计。但是,聪明的你也许可以再考虑一下,同样是样本均值,为什么非要用这么多样本呢?如果我只用两个样本(例如:第一个和第二个样本),也可以获得一个简化版的样本均值,记作。请问:哪一个估计量更好?我想你一定会脱口而出:显然第一个好。为什么?因为第一个采用的样本更多。但是,如果我再追问:样本量多就好吗?好在哪里?你也许会说:更多的样本会让估计量更加精确。很好,你提到一个关键词叫做:精确。也就是说,我们会认为更加精确的估计量是一个更好的估计量。但是,面对带有随机性的估计量,如何评价它的估计精度是我们首先要讨论的问题。
为了方便讨论,我们假设是一个关于的估计量。正如前面我们讨论的那样,它可以是基于全部样本的样本均值,也可以是基于两个样本的样本均值。请问:如何从理论上评价的估计“精度”?一个很自然的想法是:看看之间的差距不就可以了吗?例如:可以考查它们之间的均方距离,我们也称为均方误差。这个想法虽然有道理,但是无法实施,因为它面临两个挑战。第一、对于实际的数据分析而言,关于总体的参数是未知的。如果我都知道了,哪里还需要做参数估计?第二、即使是已知的,也是一个带有不确定性的随机变量。有时候,这个差异很大,说明估计误差很大,这是否就说明是一个很差的估计量?如果可以,那又如何解释有时候也可能很小呢?毕竟是一个随机变量,各种各样的可能性都是存在的。因此,我们不能用这样一个随机变量来评价一个估计量的好坏,因为它是随机的。但是,如果我们对这个随机估计的误差求期望,你会发现故事突然变了,这就变成了一个确定性的量。假设是一个基于个样本的样本均值,这个样本相互独立且具有相同的分布(即独立同分布),我们会发现。其中取决于服从的分布,在实际中可以视为一个定值。例如,当服从正态分布时,即为。这个公式非常有意思,它说明:如果我们用样本均值来估计总体均值,那么可以用均方误差的期望来评价估计精度。从这个角度看:样本量确实影响了估计精度。随着样本量的增加,估计精度以的速度收敛到。回到前面讨论到的一个朴素直觉:大样本具有高精度。这个均方误差公式就是对这个朴素直觉的一个理论支撑。

简单总结一下,到此为止我们注意到两个事情。第一、对于同一个参数,很可能有不同的估计量(例如:样本均值、样本中位数等)。第二、不同的估计量可以用均方误差的期望来评价其相对优劣程度。那马上又产生了一个新的问题:对于一个给定的总体(例如:正态分布),对于一个给定的参数(例如:总体均值),请问:是否存在一个“最优”的估计量?它的均方误差的期望是最小的(或者某种意义上是最小的)。如果这是存在的,那么该估计量应该具有极其重要的现实意义,因为这意味着:我们不需要盲目地生产创造各种估计量了,只要找到这个最优解,那么参数估计的问题就解决了。相反,只要这个最优解还没有找到,那么科研工作者就还需要继续努力,直到找到这个最优解并能够最终求解出来。幸运的是,这个最优解是存在的,它就是:极大似然估计。为什么极大似然估计是最优估计?这是一个很好的问题。有兴趣的同学,将来可以通过学习高等数理统计学来了解背后的原因。但需要注意,这不是一个绝对正确的结论,因为总有特例不成立。但是,在绝大多数情况下,极大似然估计是几乎最优的。

具体到正态分布的极大似然估计,它是如何定义的呢?这并不是非常好理解,尤其是对于初学者而言。因此,我们先不讨论正态分布,而是讨论一个非常简单的故事,希望你能从这个简单的故事中,洞察极大似然估计的本质。这个故事是这样的。假设有一个大盒子,里面装着100个球。有两种可能性。可能性一:有99个黑球1个白球;可能性二:有99个白球1个黑球。但是具体是哪种可能我们是不知道的。我把手伸进这个黑盒子随机挑选了一个球,拿出来一看发现是白球。请问:我应该对这个黑盒子的实际状态做如何猜测呢?我应该猜可能性一还是可能性二呢?请注意,无论是哪一种可能性,都有可能产生“随机获得一个白球”这个结果。因此,两种可能性都是存在的。但是哪一种可能性更大呢?这个问题不好回答。而另一个类似的问题要好回答得多,那就是:在哪一种可能性下,出现“随机获得一个白球”这个结果的可能性最大呢?答:可能性二。为什么?因为如果是可能性一,随机获得一个白球的可能性是1%。相反,如果是可能性二,那么该现象发生的可能性会是99%。这说明:可能性二是最有可能合理解释“随机获得一个白球”这个现象的假设。如果我们遵循“最大解释合理性”这样一个原则,那么就应该认为可能性二是更合理的一个猜测。而这个猜测就是一个关于可能性一或可能性二的极大似然估计。所谓“似然”,就是发生“随机获得一个白球”这个随机现象的可能性,所谓“极大”,就是要极大化这个可能性。因此产生的估计量就是:极大似然估计。

总结一下,我们也许可以套用一句话去描述极大似然估计的核心,那就是:存在的就是合理的。所谓存在的,那就是已经看到的这个“随机获得一个白球”的现象。所谓合理的,就是要找到一个关于总体的参数设定,让发生这个“存在”现象的可能性最大化。再回到我们正在研究的正态分布。面对两个不同参数,应该如何估计呢?答:存在就是合理的,这是基本原则。所谓存在,就是已经观测到的个独立同分布的随机变量。所谓合理就是要极大化产生这个随机观测的可能性,而如何度量该可能性就成了关键。考虑一个具体的例子。假设我们从某校抽取了100名学生,测量他们各自的身高,以此来对全校学生总体的身高均值进行估计。身高显然不可能是负数。假设我们先忽略这个事实,并做一个假设,即假设全校所有同学的身高服从的是正态分布,那么均值应该是多少,方差应该是多少呢?设100名学生中第名同学的身高为米。先不考虑其他同学的数据,也不考虑方差,仅仅考虑均值。请问:取什么值的时候,产生的可能性最大?米合适吗?显然不合适,因为从古至今人的身高就没有这么高过。那么米合适吗?显然也不合适,因为身高不可能是负的。如果一定要猜一个均值,哪个均值最合适呢?似乎只能是1.75。为什么呢?因为当时,发生的可能性最大。为什么我们说此时的可能性最大?因为此时概率密度函数的取值最大。请注意,正态分布的密度函数形式为:
对于任意给定的方差和样本取值,当时,上述概率密度取值最大。你看,这是不是一种比较有道理的做法。该做法的核心过程就是要极大化发生这个现象的概率密度,秉承“存在就是合理”的基本原则。如果你已经明白上面关于1个样本现象的讨论,那么同样的道理可以用到多个样本上。记住,我们在这里采集了个独立同分布的样本。也就是说,我们采集了100个同学的身高。有的个子很高,有的很矮,更多的是中等水平。他们都来自一个共同的总体,即一个均值为,方差为的正态分布。请问:什么样的,什么样的,才能极大化看到这个数据现象的可能性呢?为此,我们需要构造一个关于所有样本数据的概率密度函数。这不是一个容易的事情。但幸运的是,我们经常可以假设不同个体的身高是相互独立的。这意味着它们的联合概率密度可以通过简单乘法实现。因此我们就有了以下的联合概率密度函数:
对,这就是传说中的似然函数(Likelihood Function)。该函数从数学上描述了在一定概率分布假设下(例如:某正态分布),产生某样本现象()的可能性的大小。而一个合理的参数估计(例如:关于的估计),应该极大化该函数。通过极大化该函数而获得的数值解就是极大似然估计(Maximum Likelihood Estimator)。

在实际计算过程中,人们发现似然函数的数值性质非常不好,不好算。原因是大量的连乘会使计算结果以非常快的速度收敛到0,进而失去了比较不同参数设定下函数值大小的可能性。因此,我们需要采用一个数值计算上更加稳定的替代品,那就是对数似然函数(Log Likelihood Function)。对于正态分布而言,其数学形式为:

接着我们考虑如何将该函数值极大化,也就是求该函数取最大值时对应的的取值。为此,可以考虑对两个未知参数分别求一阶偏导数,并令其等于0,即:
联立求解上述两个方程,我们就得到了正态分布均值和方差的极大似然估计表达式:
这个结果意味着,总体均值估计为,方差估计为时,我们抽取到当前样本的可能性最大。和上一节中矩估计的结果相比,我们会发现,对正态分布的均值和方差来说,极大似然估计的结果与矩估计的结果是一样的。由于估计量都是由样本构成的,因此也是具有不确定性的随机变量。自然而然地,我们就好奇这两个随机变量是怎样变化的。在之前的介绍中,我们刻画随机变量特征的常用工具就是各阶矩,尤其是均值和方差。因此下面我们就来研究估计量的均值和方差。估计量的均值和方差有如下的计算过程:
由上述过程可知,的极大似然估计量的均值正好就是。这意味着使用对同一个正态分布均值进行很多次估计之后,估计结果的“中心位置”正好就是。这种特性也被称为无偏性,因此估计量是正态分布均值的无偏估计。显然,无偏估计不是任意一个统计量都具有的特性,比如估计量的均值就并不等于。这一结论的证明过程如下:
因此估计量的均值并不是,而是,显然这个估计量是有偏(Biased)的,因为它的期望不严格等于目标参数。但是之间的偏差还是很小的,并且当逐渐增大时,将会趋于1,即估计量的期望(某种中心位置),会随着样本量的增加,收敛到目标参数。这是一个美好的性质。既然估计量距离无偏性很近,那么能不能对适当进行改进,从而给出一个无偏的正态分布方差估计量呢?当然可以,而且过程非常简单,只需要将估计量乘上常数即可。由此构造出无偏的正态分布方差估计量如下:
接下来一个自然的问题是:估计量孰优孰劣?有偏估计一定比无偏估计好吗?这并没有一个简单的定论。事实上,一个估计量如果可以通过牺牲一定的偏差换回方差的巨大下降,这也不是不可以的。毕竟,从实际工作的角度,估计误差就是估计误差,无论是由偏差造成的,还是由方差造成的,实际后果都一样。因此,需要一个方法论或者指标,去评价不同估计量的优劣,该指标应该能够综合来自方差和偏差的信息。其实,在本节的开头我们就提到过,可以用来衡量使用估计的误差,即估计精度。同样地,对于一般的估计量(用于估计参数)的估计精度,我们也可以用均方误差来衡量。在均方误差的具体计算中,我们通常先做以下化简:
上述结果表明,我们只需要知道某估计量的均值和方差,即可通过上式计算其对应的均方误差。前面我们已经计算了估计量的均值,接下来还需要计算的方差,过程如下:
上述计算过程中最后一步的代入化简过程比较繁琐,没有兴趣的同学可以考虑略去。这里的核心结论是:。同理,我们可以验证。可以注意到,虽然是有偏估计,但是相对于无偏估计而言,的方差更低一些。将这两个方差估计量的均值和方差带入均方误差的计算公式中,可以得到如下表达式:
请注意,上面的约等号在样本量足够大的时候才成立。除此之外,由于上式中时小于0,因此极大似然估计的均方误差小于无偏估计的均方误差。当然,这个差异非常小,可能没有太大的实际意义。但是,这样的讨论至少可以告诉我们,是否无偏并不是判断估计量好坏的唯一标准。事实上,大量的有偏估计能达到比无偏估计更好的估计精度,这在高维统计学中尤其常见。为了更好地说明这个问题,我们做了一个随机模拟实验。所谓随机模拟,就是利用计算机,根据我们的理论生成相应的随机数,并因此计算相关统计量,进而评价其实际表现的一种常见方法。具体而言,我们假设正态分布中(即标准正态分布),然后考察不同的样本量以及。对于每一个样本量取值,我们随机生成个独立同分布于标准正态分布的随机变量,记作。接着根据前面给出的公式计算它们的,然后再分别计算它们的平方误差为。请注意,这是两个非常不稳定的随机数,其相对大小非常不稳定。因此,我们会多次重复这个实验(例如M次)。在下面的试验中,我们取M=10000,这样就产生了10000个平方误差的取值,简称为平方误差。对这10000个平方误差取均值,就获得了一个均方误差。随着样本量的增加,均方误差会依概率收敛到0。此时,从图形上就很难看到不同估计量的差异了。为此,我们对均方误差又取了一个对数变换,形成了对数均方误差,并以分组柱状图的形式呈现出来(见图2.2.1)。需要注意的是,由于模拟得到的均方误差都小于1,因此取对数后取值就变为负值,图中越短的柱形实际意味着越大的均方误差。从图2.2.1中可以看出两个特点:第一,在各个样本量取值上,红蓝两个柱子基本一致,说明极大似然估计(红色)和无偏估计(蓝色)在均方误差上的差异很小。如果非常仔细地看,极大似然估计的对数均方误差似乎要比无偏估计的小一点点。这与我们前面的理论推导保持一致。第二,随着样本量的增加,柱子高度逐渐上升,说明提升样本量能够明显降低估计误差。例如当样本量从50提升至500时,极大似然估计量的均方误差下降了90%。

图 2.2.1  极大似然估计和无偏估计的对数均方误差的分组柱状图

接下来让我们回到本节开头提到的实际案例:身高估计。我们通过R语言modelr包获得了其中的heights数据集,此数据集来源于美国劳工统计局进行的一项队列研究,其中包含了7006名公民的身高(图2.2.2)、受教育时间、性别等信息。假设这7006名公民的身高服从的是正态分布,根据本节推导的公式可以计算得到:身高均值的极大似然估计为英寸(约1.70米),身高方差的极大似然估计值为=16.664,相应的无偏估计值为。这一结果也同样体现了极大似然估计量和无偏估计量的差异很小。

图 2.2.2  7006名美国公民身高的频率直方图

除了身高之外,该数据集中还包含受教育时间和性别。那么不同性别和受教育时间的人群,身高的均值和方差是否呈现明显差异或者规律呢?为了回答这个问题,我们首先对受教育时间进行分组处理。原始数据中受教育时间从1年至20年不等。剔除该变量上的10个缺失值后,我们将受教育时间分成三个等级:低教育水平(<12年)、中等教育水平(12~13年)、高教育水平(14~20年)。它们在数据中的频数分别为:1058、3195和2743。按照受教育程度和性别进行分组,对每组内的身高数据计算均值和方差的极大似然估计值,将结果绘制于分组柱状图2.2.3中。从图中得到三个结论:第一,男性的平均身高大于女性,这点也是显而易见的。第二,不论男女,随着受教育水平的提高,人们的平均身高没有明显变化。第三,不论男女,随着受教育水平的提高,人们的身高标准差呈现下降趋势。这可能说明高教育水平的人群身高差异更小,更“统一”。不过这样的结论不一定正确,因为也很有可能是随机误差带来的偶然现象。但至少可以说明,均值和方差的估计能够帮助我们在数据中找到一些有趣的结论,发现数据背后的价值。

图 2.2.3  美国公民身高按照性别和受教育程度分组的均值和标准差柱状图

为了体现均值和方差估计的价值,还可以继续研究股票案例。假设想投资股票,摆在我面前的是一系列的单支股票以及上证综指。无论是普通股票还是上证综指,其收益率都具有很强的不确定性。但上证综指作为多支成分股的综合,直观上感觉似乎比普通股票更加稳定。那么事实真的是这样吗?为此,我们获取了2020年全年上证综指(股票代码000001)和西宁特钢(股票代码600117)两支股票每个交易日内的收盘价,并将其计算为日收益率,绘制于下面的箱线图2.2.4中。首先我们比较上证综指和西宁特钢这两只股票日收益率均值的估计量,分别为,二者差异不大。但是从方差角度来看,上证综指和西宁特钢日收益率方差的极大似然估计量为),对应的标准差分别为。显然,西宁特钢日收益率的均值(平均收益率)比上证综指的大一点,但是波动性(风险)要大很多。

图 2.2.4  上证综指和西宁特钢在2020年内日收益率箱线图

本节以正态分布为研究对象,介绍了极大似然估计的思想、理论和计算细节。在学习过程中,还讨论了如何比较不同估计量的优劣性。产生了两个不同的指标:偏差和方差,并最后整合成为一个评价标准:均方误差。最后,以均方误差为标准,对不同的方差估计量做了对比分析。后面我们将学习统计学推断,下一节将从均值的置信区间开始。

- END -



京东购书



当当购书


往期推荐

引言:从不确定性出发

第1章:不确定性的数学表达:连续型数据

第1章:不确定性的数学表达:正态概率密度

第1章:不确定性的数学表达:t-分布

第1章:不确定性的数学表达:指数分布

第1章:不确定性的数学表达:0-1分布

第1章:不确定性的数学表达:泊松分布

第2章:参数估计:矩估计

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存