商务统计学基础 | 第2章参数估计：矩估计

Original 王汉生，王菲菲狗熊会 2023-07-25

点击上方"狗熊会"关注我们吧！

在第一章中，我们学习了各种常见的概率分布。你会发现每种概率分布都有自己的参数。例如正态分布的参数有两个，分别是μ和σ^2。只要确定了这些参数的取值，就可以唯一地确定这个概率分布，从而了解这个分布所有的统计学性质。然而在实际生活中，对于某个感兴趣的研究问题，我们并不知道其真实分布的参数是多少，这时候就需要用到参数估计的方法了。事实上，在第一章我们对此已经有了不少涉猎，但是没有一个系统规范的介绍。因此，我们将在第二章重点介绍参数估计方法。本节，我们将从矩估计开始。

案例1：股票收益率。 假设投资了一只股票，想对该股票未来的收益和风险做一个基本评估。为此，需要对股票收益率的不确定性做出良好的评估描述，进而需要一个概率分布。如果我们能够接受正态分布（当然也可以是t分布）作为一个粗糙的近似，那么该分布的均值μ就描述了我们对该股票长期收益率的预期（期望），而方差σ^2就描述了不确定性的大小，也就是风险。显然这样的收益风险分析是非常粗糙的。例如，在一个不允许卖空的市场上，股价上涨也许是没有风险的，因此相应的不确定性其实不是风险，而是带有不确定性的好消息。所以，也许投资者需要对于该股票在未来一定时间内，发生损失超过某临界值的概率大小有一个评估。在正态分布均值和方差参数的帮助下，可以画出如图2.1.1所示的概率密度曲线。显然，这是一个更有深度的分析结果，虽然不尽完美。

图2.1.1：股票收益率直方图和正态概率密度曲线

案例2：二手房价格。 每个人都对幸福生活有着自己的追求，其中安居乐业是非常重要的一部分，尤其是安居。因此，买房都是每个家庭的重要人生目标之一。买房时，有可能买新房，也有可能买二手房。以二手房为例，给定一个家庭的支付能力，面对众多可能的选择，到底哪一个才是最佳选项？对这个问题的回答牵涉到很多重要因素，而价格可能是其中最重要的因素之一。无论是买方还是卖方，都希望知道：一个房产，在当前特定的时间点，在市场上的公允价格。显然，不可能存在一个绝对正确的最优价格，更可能存在的是一个合理的价格区间。如果能够对这个区间有所描述，那么买卖双方都会对房产的市场价格有一个更合理的认识，并因而促进交易。请问：这样的区间应该如何构造？假设我们面对大量的完全同质（或者非常相似）的房产，知道它们的销售价格。那么也许可以对其对数价格做一个正态性假设（如图2.1.2所示）。如果我们能够接受这个假设，那么房价的分布情况就完全由均值μ和方差σ^2所确定了。进而可以构造一个合理的价格区间，告诉买卖双方，类似房产的价格上界是多少，下界是多少，在这个区间内大家可以做出更加合理的买卖决定。

图2.1.2：对数二手房价格直方图和正态概率密度曲线

案例3：岗位的薪资。 我是一个应用统计学硕士的应届毕业生，想找一份互联网的数据分析师工作，请问：对薪酬应该有什么样的合理预期？显然，不可能有一个唯一正确的确定性预期，毕竟不同行业、不同企业的薪酬水平各不相同。即使在同一个企业，相同的岗位也有一定的薪酬灵活度。如果我可以采集相关岗位的薪酬数据，也许可以对其先做一个对数变换，然后画一个直方图，并尝试用正态分布去做一个近似（如图2.1.3）。如果这个近似是我们可以接受的，那么该岗位的薪酬不确定性就完全由该正态分布的均值和方差所确定。技术上，根据这个正态分布的情况，我们可以构造一个合理的区间，覆盖95%的岗位。这样的区间对于求职者了解市场行情并形成自己的薪酬谈判策略会有一定帮助。

图2.1.3：对数岗位薪酬直方图和正态概率密度曲线

案例4：超市销售额。 假设我是一家超市的主管，希望了解超市中各种商品的销售情况，哪一款商品更热销，哪一款商品无人问津，进而为下次进货作出决策。商品热销不热销，可以通过观察它的销售额在所有商品的销售额中所排的位置来衡量。为此，我们就需要知道大部分产品的销售额在什么样的范围内。我们可以从季度账单中统计出每种产品的销售额，先做一个对数变换，然后画出直方图，并尝试用正态分布做一个近似（如图2.1.4）。如果这个近似是我们可以接受的，那么商品销售额的不确定性就可以完全由该正态分布的均值和方差来确定。根据这一正态分布，可以计算商品销售额超过某个特定取值的可能性有多大，从而帮助超市主管判断每种商品销售额的高低，进而辅助进货决策。

图2.1.4：对数销售额直方图和正态概率密度曲线

基于上面几个案例可以得到几个重要结论。第一、对很多实际问题而言，正态分布可能是一个方便有效的工具，可以对实际数据的分布情况进行近似。当然，在绝大多数情况下，这样的近似并不完美。但是，常常不失其简单有效性。第二、一旦我们接受了正态分布，那么正态分布的两个参数（均值和方差）的估计就变得非常重要。而如何对其进行估计，常见的方法有矩估计、极大似然估计等等，本节将重点介绍矩估计。

在介绍具体估计方法之前，我们首先要理解几个重要的概念。它们分别是：总体 vs. 样本，以及参数 vs. 统计量。什么是总体（Population）？请注意：总体不是所有样本的总和，这是一个错误的定义！数理统计学中所讲的总体，一般是指：产生样本的那个抽象的概率分布，它跟现实世界中的“总体”没有必然联系。因此，总体在现实世界中是不存在的，它仅仅是一个假想的模型。例如，在前面讨论的股票案例中，作为投资者，看到每天收益率的上下起伏，对于各种不确定性如何研究？一个常用的规范方法是：假设这些不确定性之所以会产生，是因为背后有一个概率分布（或者概率模型）在生产这个数据。而这个概率分布（或者模型）就是总体。一旦理解了总体，什么是样本就很清楚了。只要是总体（这个概率分布）生产出来的具体数据，就都是样本。这与样本量大小无关，与是否所有样本都被采集无关。再举一个例子。假设全国人口构成了全样本（记住：不是总体），每个人的收入构成了一个具体数据，这是样本。为了在理论上研究这些样本数据的分布规律，我们会从理论上假设：有一个生产它的概率分布（例如：正态分布），而这个概率分布才是我们的总体。由此可见，很多大数据读物上所宣传的“有了大数据，就知道了总体，不需要样本”的观点是荒唐而可笑的。它们对总体这个概念的理解是错误的。

了解了什么是总体，就可以介绍什么是参数（Parameter）了。首先要确定一点，参数是一个由总体决定的确定性的量。这里有两个关键词：（1）总体决定，而不是样本决定；（2）是一个确定性的量，而不是随机变量。例如，假设我的总体是一个正态分布，那么该分布的均值和方差就是参数，因为它们符合上述基本特征，即由总体决定的确定性量。同样对于正态分布，请问：均值的三次方是不是参数呢？答：是的。因为这也是由总体决定的确定性量。再假设我的总体是泊松分布。我们都知道，泊松分布只有一个参数。只要知道这个参数，那么整个分布就知道了。对于泊松分布而言，显然是一个参数。但是，的平方是参数吗？答：是的。因为这也是由总体决定的确定性量。与参数形成鲜明对比的就是：统计量（Statistics）。什么是统计量呢？统计量是由样本决定的随机变量。这里两个关键词：（1）样本决定，而不是总体决定；（2）因为是样本决定，因此它是一个随机变量，而不是一个确定性的量，因为当样本不同了，它的取值也会不同。还是假设我的总体是一个正态分布，那么该分布的均值和方差就是参数。但是，样本均值和样本方差就是统计量了。

那我们更关心参数还是统计量呢？从前面的案例讨论可以看到，我们显然更加关心参数。因为只要知道了关键参数，整个总体的随机分布规律就知道了。但是，很遗憾的是，在绝大多数情况下，参数是未知的。例如，即使假设股票收益率服从正态分布，我们对其不确定性的理解仍然非常有限。因为，不知道它的均值是多少，方差是多少。请问怎么办？一个自然的想法是：用样本均值去估计总体均值，用样本方差去估计总体方差。这就是我们常说的：参数估计（Parameter Estimation），这是本节和下节将重点讨论的核心内容。简单地说，参数估计是一个退而求其次的结果。但凡能知道真实的参数是多少，人们就不会用统计量（一个基于样本的随机变量）去估计参数（一个基于总体的确定性量）。既然在无奈之下不得不接受参数估计的基本方法，那么有几个重要的理论问题就需要得到合理的解决。第一、给定一个总体（例如：正态分布），请问如何估计参数？有规范的方法论吗？第二、对于一个给定的总体，给定的参数，常常有不同的统计量都可以用来估计该参数。请问：哪一个更好？其中有最优解吗？对于第二个问题，作为一本入门级教材，本书无法涉猎。有兴趣的同学将来学习高等统计学的时候，这是核心内容之一。这里我们将集中精力对第一个问题做一些探讨。

本节将重点介绍一种常见的估计方法：矩估计（Moment Estimator）。为此，我们需要首先对矩（Moment）有一个初步的介绍。矩是关于分布的一个函数，能够度量分布的形态特点。矩可以分为两种：原点矩和中心矩。它们都有不同的阶数，通常用表示。例如，阶原点矩（用表示）是随机变量的次方的数学期望，阶中心矩（用表示）是中心化后（也就是减去均值）的随机变量的次方的数学期望。它们具体的数学定义为：

以正态分布为例，它的前4阶原点矩的计算结果如下：

从中可以看到一个基本规律，那就是：它们都由均值和方差决定的。例如，考虑前两阶矩，可以反解出：

这给我们一个巨大的启发！其实我们关心的核心参数和矩之间有着美妙的数学关系。从理论上讲，只要知道了前两阶矩，就可以知道均值和方差。但是，很遗憾，矩自己也是一个参数，因为它也是一个由总体决定的确定性量，是未知的。怎么办呢？一个简单的想法是，或许我们可以用收集到的样本数据来计算样本矩，用样本矩去“代替”总体矩，也就是用样本矩作为总体矩的估计量——这就是矩估计。人们常常喜欢矩估计，原因就是：矩很好估计，矩天生就是一个特别容易估计的参数。样本矩天然就是对总体矩的一个很好的估计。因此，用样本矩代替总体矩，并进而代入其他参数与总体矩的关系式，便可以估计出其他参数了。当然，需要说明的是，使用矩估计的前提是相应的总体矩存在。样本矩的数学表达式是：

其中是样本阶原点矩，同时是对总体阶原点矩的矩估计；是样本阶中心矩，同时是对总体阶中心矩的矩估计。如果我们要用矩估计方法来估计正态分布的均值和方差，那么只需要用和去代替前文式子中的和。这就得到了均值和方差的矩估计：

对于方差的估计，其实还有一个更简单的方法，因为其实是二阶中心矩，即。因此，可以用样本的二阶中心距来估计，所以有：，这与用样本原点矩所计算得到的结果是一致的。事实上，上述计算过程，并没有要求总体是正态分布，对于存在一阶矩和二阶矩的任意分布都是适用的。可以看到，矩估计方法非常简单、直观，不需要对分布形式做出假设，这也是矩估计的优势所在。而且，根据大数定律，当样本量足够大时，矩估计收敛于参数的真值，这被称为矩估计的相合性。但矩估计也有其劣势，比如受样本极端值的影响较大，因此不够稳健，尤其在小样本场合下，极端值会对估计结果产生很大的影响。已经学习了矩估计的原理和步骤，现在我们回到开头的几个案例，用矩估计对它们各自总体的均值和方差进行估计。对案例1的股票收益率，我们收集了某股票在2019和2020年的日度收益率数据。经过计算，收益率的样本均值为=-0.06（单位：%），样本方差为=4.32（单位：）。我们已经假设了股票收益率服从正态分布，那么样本均值和样本方差便是这个正态分布中均值参数和方差参数的矩估计，根据该参数估计值就可以确定这一正态分布，并画出正态概率密度曲线（如图2.1.1），然后对股票收益率分布做一个粗糙的近似。确定了收益率背后的总体分布，也就可以计算该股票发生损失超过某个临界值的概率大小了。例如，如果想知道收益率小于-5%的概率有多大，只需要计算积分：

因此，在正态假设下，用矩估计方法对该股票收益率小于-5%的概率估计值为0.876%。对案例2的二手房价格问题，假设我们想要在北京市朝阳区购房，为此获得了目前市场上在售的朝阳区二手房的价格数据2864条。假设价格数据进行对数变化后近似服从正态分布，可以计算得到对数价格的样本均值为1.63，样本方差为0.06，它们正是总体均值和总体方差的矩估计。那么，我们就可以用均值为1.63，方差为0.06的正态分布来近似刻画对数二手房价的分布并画出概率密度曲线（如图2.1.2）。假设我们希望构造一个价格区间，能够覆盖市场上90%的二手房的房价水平，那么可以采用如下方法构造：如果对数二手房价格服从均值为=1.63，方差为=0.06的正态分布，那么服从标准正态分布，通过计算或查表可以知道标准正态分布的5%分位数为-1.64，95%分位数为1.64，也就是说，标准正态随机变量有90%的概率落在[-1.64,1.64]内，即。据此可以解出所在区间的上下界：

再代入，，可以得到。这意味着，取对数后的朝阳区二手房价格有90%的概率在1.23和2.03之间，再做指数运算将其还原成房价，即和，因此可以知道，90%的朝阳区二手房价格水平在3.42万元/平方米至7.61万元/平方米之间。对案例3的数据分析岗位薪资问题，我们获得了某招聘网站上北京市的数据分析相关岗位的薪资信息共200条。计算得到对数薪酬的样本均值为3.46，样本方差为0.08，将它们作为总体分布中均值和方差的矩估计。假设对数后的薪资数据服从正态分布，我们便可以用均值为3.46，方差为0.08的正态分布来近似刻画对数薪酬的分布，画出概率密度曲线（如图2.1.3），并根据分布计算出合理的薪酬区间。例如，假设我们希望构造一个薪酬区间，能够覆盖95%的薪酬水平，这个区间同样可以通过标准正态分布的分位数情况来确定。具体来说，已知标准正态分布的2.5%分位数为-1.96，97.5%分位数为1.96，即标准正态随机变量有95%的概率落在[-1.96,1.96]内，即。因此可以求解薪酬对应的区间：

代入=3.46，，得，即取对数后的岗位薪资有95%的概率在2.90和4.01之间，再做指数运算将其还原成原始薪资，可知：95%的数据分析岗位年薪水平在18.17万元至60.34万元之间。对案例4的超市销售额问题，我们获得了某超市在2011年1月所有商品的销售额数据。计算得到对数销售额的样本均值为4.51，样本方差为2.16，因此我们对总体均值的矩估计为：=4.51，总体方差的矩估计=2.16，并用这两个参数所确定的正态分布去刻画对数销售额，可以画出概率密度曲线（如图2.1.4）。假设我们希望知道，商品的销售额有多大的可能性超过100美元？这等价于对数销售额有多大的可能性超过。为此只需计算：

计算结果表明，商品的月销售额有47.31%的概率超过100美元。

本节介绍了矩估计的思想、理论和步骤，并结合实际案例介绍了它的应用场景。相信经过本节的学习，你已经对矩估计有了一定的掌握。一句话简单概括一下，矩估计就是用样本矩代替总体矩。虽然本节使用的例子都是假设数据服从正态分布，但其实矩估计不要求对总体的分布形式做出假设。那么有没有什么其他的估计方法，需要对总体的分布形式做出假设呢？下一节将要介绍的极大似然估计，就是这样一种方法。- END -

京东购书

当当购书

往期推荐