商务统计学基础 | 第1章:不确定性的数学表达:正态概率密度
概率密度函数是我们理解数据不确定性的一个根本性工具。从理论上讲,只要知道了概率密度函数,我们就知道了关于数据的一切规律(不是知道数据本身)。因此,前辈学者投入了巨大的心血和精力,发展了大量的适合不同类型连续型数据的概率密度函数。它们的特点各不相同,适用的场景各不相同,性质也各不相同。这是咱们接下来学习的重要内容。而这一节,我们将从最重要的一个概率密度函数开始,那就是:正态分布(Normal Distribution)。
在正式学习之前,先跟你小小八卦一把。请问你知道正态分布还有什么别名吗?对,你说对了,正态分布还有一个别名叫做:高斯分布(Gaussian Distribution)。不用我说你也知道这是为了纪念伟大的数学家高斯。这又是为什么?请看图1,这是以前10元面值的德国马克。上面画了一个伟人的头像,这个人是谁?答:高斯,世界上最伟大的数学家之一,有着数不清的重大贡献。但是,德国人民在纪念这个伟大的数学家时候,不知为何缘故,却独独青睐这个独特的概率分布:高斯分布(或者正态分布)。为此,将高斯分布的概率密度函数也印在了这枚纸币上,就在高斯的右眼角水平的方向上。作为一个普通的统计学工作者,才识学浅,实在无法全面理解高斯在各个领域的卓越贡献。但是,对于高斯分布之于统计学领域的重要性那是深有体会的。
可以不夸张地说,如果没有高斯分布,就没有统计学的极限理论(也称大样本理论)。原因就在于统计学的大样本理论基本上都是建立在中心极限定律的基础上的,而中心极限定律中的那个“极限”就是高斯分布。所以,从这个角度看,高斯分布不是高斯创造出来的,而是他发现的。我们用“发现”这个词,而不用“创造”,就是想表达一个事实:高斯分布表现的是这个世界的一个基本规律,这个规律从古至今一致存在,等待着人们去发现。那么,高斯是不是第一个发现高斯分布的?这个似乎也很难考证,但是人们似乎已经习惯了称其为高斯分布。
那么,高斯分布(或者正态分布)到底有什么用处呢?如前所述,其最大的用处是因为正态分布是统计学中超级重要的定律“中心极限定律”中的那个极限。那么,什么是中心极限定律,那个极限又是什么,请允许我们后面再深入讨论。这里,先探讨另一个关于正态分布的重要应用(也许没有中心极限定律这么重要,但是仍然很重要),那就是对某些连续型数据不确定性的初步描述。这是什么意思呢?咱们还是考虑上次的那个股票数据案例。稍微复习一下。
咱们采集了我国上海证券交易所上海证券综合指数(简称:上证综指)从1997年1月2日到2021年7月22日,共计5951个日度收益率数据,从中我们看到了巨大的不确定性,以及由不确定性带来的投资风险。但是,仅仅感受是不够的,我需要一些更加细致的测量。例如,作为投资者,我希望知道如果购买上证综指,持有1个交易日,然后抛出,亏损的可能性有多大?要给这个问题一个快速的答案并不难。假设未来是历史的重复(这显然是一个巨大的假设,这个假设意味着我们不允许黑天鹅事件出现),那么只要看看历史数据中上证综指日度收益率为负数的占比有多大。这个数字很容易计算,应该大概是47.0%。但是,这个数字仍然太粗糙,我并不满意。作为投资人,我希望知道日度收益率低于-3%的可能性有多大?这个问题似乎也不难,我只要计算一下在几千个历史数据中,日度收益率低于-3%的样本占比是多少,大概是45.9%。
也许我还不满意。我想计算一下,未来日度收益率介于-3.1%到-3%之间的可能性有多少?请不要小看这一点点的收益率差异,当你面对巨大资金投放决策的时候,一点点的收益率差异,可能都是一个巨大的绝对收益差异。因此,我就是需要计算一下收益率介于-3.1%到-3%之间的可能性有多少。于是,我又去5951个历史数据中寻找,有多少历史日度收益率会介于-3.1%到-3%之间?结果发现这个比率是0。原因很简单,咱们一共才有大几千个样本,然后要区分0.1%的收益率差异,这是非常困难的。具体到咱们这个问题中,在历史数据中就没有发现任何一天的收益率介于-3.1%和-3%之间。但是,你能说未来收益率介于该区间的可能性是0吗?答:显然不可能。你的收益率有可能是比-3.1%高,有可能比-3%低,那么理论上讲,日度收益率介于-3.1%和-3%之间的任何一个细小区间的可能性都是存在的。该可能性也许会很小(因为区间长度很小),但是实在难以相信这个概率就是0。你看,一方面实际业务又需要这个概率测量,另一方面简单地基于数数的频率测量方法又不能满足需求。请问怎么办?
为此,咱们仔细研究一下上证综指的直方图。由于我们关注的是大小为0.1%的收益率差异,因此很自然我们希望把直方图画得更加细致一些。例如,我们一不做二不休,干脆画1000跟柱子吧。结果就如图2所示。我们能看到什么?能看到两个趋势。第一个趋势是一个似乎比较连续的趋势,这个趋势告诉我们整个数据中间位置的柱子比较高,两边比较低。这说明,趋向于中间的收益率发生的可能性要高于两边极端的。这似乎非常符合常识预期。第二个趋势是似乎又不是非常连续。常常发现两个紧密相连的柱子高度相差很大,跳跃现象明显。这是怎么造成的呢?很简单,就是因为柱子太多了,造成收益率的分组太细了,然后每个分组的样本量太小了。这就是为什么前面探究收益率在-3.1%到-3%之间的可能性的时候,得到了一个0。
显然,第二个趋势不是我们想要的,因为这个趋势是完全由于样本量太小,数据造成的,不是我们要关注的核心稳定的趋势。与此对应的,第一个趋势是最核心的趋势,是我们要从数据的不确定性中洞察的确定性的规律。第一个趋势对应的就是那个理论上的概率密度函数。如果,我们能够知道这个概率密度函数的情况,那么任何概率(例如:收益率介于-3.1%到-3%之间)的概率都可以被精确计算出来。不管这个概率有多小,一般不会是0,应该是一个更加合理的数字。所以,从上面的讨论中你能形成一个直观的感受吗?为什么概率密度函数是一个更加值得追求的目标,而不是直方图。当然,我们从不否认直方图作为一种数据可视化的工具超级有用,但是它自己似乎不是一个值得追求的理论目标。原因就是它太不稳定,只要分组一多,就很凌乱(例如:前面提到的第二个趋势)。因此,透过数据,洞察概率密度函数,恐怕是一个更加值得追求的目标。
那么,我们应该如何追求概率密度函数这个目标呢?这里又会产生很多种不同的技术方案。一个最简单的方案就是局部平滑(Local Smoothing)。简单地说,就是将局部相邻的柱子高度,求一个加权均值,然后用这个均值作为当前位置概率密度的一个简单估计。这事实上就是图2中红色曲线产生的方式。当然,这依赖于如何定义局部,如何定义权重,会产生不同的局部平滑的方法。但是,整体而言,产生的结果大同小异。这样的方法优缺点如何?
首先,优点非常明显,那就是灵活。不管你的实际数据分布形状如何,只要样本量足够大,局部平滑都可以产生非常不错的、关于概率密度的估计。这事实上是非参数统计学的一个重要研究问题。但是,缺点也非常明显。既然你要灵活,那么需要的参数就比较多,因此需要消耗的样本量就比较大。以咱们的上证综指的数据为例,我们有好几千的数据,所以如果想要采纳一个局部平滑的方法估计概率密度函数,是完全没有问题的,而且效果看起来似乎不错;请见图2中的红色曲线。但是,如果样本量比较小呢?例如,如果只有几百个样本?甚至几十个呢?那就比较糟心了。也许你会说,都大数据时代了,哪里有这么小的样本?你大错特错了。你被大数据的各种媒体宣传洗脑了。事实上,不是特别大的数据更加常见,更加典型。原因很简单,很多数据的采集是以时间为基本单位的。例如:公司的财务运营数据,再高的频率,超不过1个月。因此,再高的频率,财务会计上都可能没有定义了。因此,一个企业一年才12个数据,10年才120个数据点,数据量怎么可能太大?但是,你不能说几十个,几百个数据我就不分析了。实际工作中,如果能对几十个,几百个数据做出非常科学有效的分析,那么对业务的帮助可能是非常大的。因此,我们必须要面对一个问题,那就是在样本量不是特别大的情况下,要对数据背后的那个概率密度函数做出合理的估计,甚至统计学推断。这怎么做?
天下没有免费的午餐。如果在一个样本量不是特别大的情况下,却希望能够准确估计支撑数据不确定性的概率密度函数,我们总得付出点代价吧?天上不会掉馅饼的,没有付出的代价,哪里有莫名其妙的获得?我们准备付出什么代价呢?在回答这个问题前,请再仔细看看图2吧。请问有哪些特征是最重要的?哪些也许是可以凑合一个假设的?第一、这个数据的中心是非常重要的。这个数据的中心在哪里,代表了市场整体的收益率情况如何。第二、这个数据的波动性是特别重要的,这个数据覆盖的区间是-10%到10%,还是-5%到5%,或者更小,这直接意味着对应资产(例如:上证综指)的风险大小。这两个特征(中心位置、以及波动性大小)可能是最重要的。而这个数据的分布形状(中间高,两边低,比较对称),也许可以考虑通过一个合理的函数形式来假设。请问:哪个函数形式能满足这个条件呢?答:其实多极了。任何函数,是关于中心点对称,向两个方向单调下降,趋向于0的函数,大概都能满足咱们的需求。新的问题又来了。既然有这么多不同的选择,请问哪一个函数形式最可爱呀?最有可能被看作是第一选择呢?答:正态分布。不是因为这个分布对实际数据拟合的最好,而是说这个分布对咱们这个特定的数据:(1)能提供一个不错的拟合;(2)而且由于各种原因,它最CUTE,受人欢迎。
为什么正态分布CUTE?因为:它是中心极限定理的“极限”,这个问题咱们后面再详细讨论。这里要进一步回答一个问题:数学上对正态分布是如何定义的?具体的函数形式到底如何?请见下面这个数学公式:
其中代表着目标随机变量的一个具体取值。以咱们的数据为例,这代表着上证综指的一个可能的收益率,该收益率在理论上是可能实现的,但是在实际样本数据中不一定有(例如:-3.05%的收益率)。那么,就刻画了正态分布在该点的概率密度取值。通过等号右边的具体函数表达式我们发现依赖于两个不同的参数。一个是中心位置(也是均值),而另一个是波动性的大小(也是方差)。只要这两个参数定死,那么这个概率密度函数就被唯一确定下来了。为了给大家一个直观的印象,给大家画几个概率密度函数图如下:传统统计学常常定义:所有被关注的个体的总和就是总体。例如:全国普查的对象为所有中华人民共和国公民。那么,所有中国公民就构成了总体,而这个总体的(例如)平均身高就是参数。如果没有做普查,而是做了一个抽样调查,也就是说只获得了总体的一个子集,那么这个子集就是样本,而样本中看到的平均身高就是统计量。这就是我们大多数统计学教科书中关于总体和样本,参数和统计量的定义。
以咱们的案例为例,中国股市就这么几千只股票,这就是我们研究的全体。按照传统的关于总体的定义,这些股票的集合就构成了总体,它们的平均收益率就构成了某种市场综合指数,而该指数按照传统统计学定义就应该是一个参数,而参数是没有不确定性的(除非是贝叶斯学派)。这合理吗?这显然不合理,任何资本市场的任何综合指数的收益率都是上下起伏扣人心弦的。为什么?因为你在沿着时间轴看资本市场,你沿着时间轴看它的过去,看它的现在,赌它的未来。从这个角度看,任何一个特定时间的,所有股票的收益率,都是宇宙无穷历史的一个小小片段(Sample)。在这种情况下,总体又应该如何定义?参数又应该如何定义呢?
不得不说,这是一个非常深刻的理论问题,咱们一门小小的入门课程恐怕没法对此做特别深入的讨论。但是,我想跟你分享一个非常简单、有效、而且合理的定义。我对总体和参数的看法是这样的。第一、统计学是研究不确定性的。第二、因此我们用各种概率分布去描述数据的不确定性。第三、我把这个概率分布(例如:正态概率密度函数)看作是我的总体;第四、任何关于这个概率分布的量被称为参数。第五、任何基于该概率分布生成样本所计算的量为统计量。
简单总结一下,我跟传统统计学关于总体定义的核心区别在这里。传统统计学关于总体的定义跟抽样(Sampling)高度相关。因此,总体和样本是两个完全对立匹配的概念。而我对总体的定义只跟不确定性相关,跟抽样毫无关系。我这里的总体是描述不确定性的那个概率分布,这个分布有可能跟抽样相关(赶巧了),更多的时候它就是对某种不确定性的数学描述和表达,跟抽样毫无关系。按照我的定义,我们会这样理解上证综指这个案例。第一、上证综指日度收益率有着很大的不确定性。第二、我决定用正态分布来描述该不确定性。第三、这个正态概率密度函数(或者它所对应的正态分布)就是总体。第四、而决定该总体的两个量(均值和方差)就是参数。参数有一个特点就是:未知!第五、最后,根据我的模型假设,天的上证综指日度收益率就是该正态分布的一个次独立实现,这构成了我的样本。而我们分析的目标就是:通过对样本的合理分析,能够对两个参数(均值和方差),做出尽可能准确的估计,而那所谓尽可能准确的估计就是:统计量。 具体而言,我们应该怎么做呢?我们应该如何基于样本对总体的参数(均值和方差)做出尽可能准确的测算呢?这非常依赖于我们的目标参数在总体中扮演者什么样的角色。以均值为例,我们不难验证它真的是“均值”,它是总体(这个正态概率分布)的均值。数学上我们会如何表达这个意思呢?首先,我们会定一个新的概念叫做期望(Expectation)。什么是期望呢?给定一个总体(即概率分布),从这个总体中抽取无穷多的样本,这些样本的算术平均数,就是我们关于这个总体(即概率分布)的期望。这个期望会多大呢?请注意,我们的样本是从指定的概率分布(即总体)生成的。因此,如果某个取值附近的概率密度大,那么样本中出现这个值或者近似值的可能性就会更大,否则就会更小。因此,最终这个期望应该是对所有可能取值的一个加权平均,而权重的大小就应该完全由概率密度所确定。因此,我们有最后一个等式的成立依赖于两个事实。首先是一个概率密度函数,因此关于它的积分是1。另外,是一个关于左右对称的函数,因此的积分为0。这说明,目标参数就是一个算术平均值,但是它是基于无穷大的样本量计算的算术平均值。显然,我们不具备无穷大的样本量,我们所具备的就是那个样本。因此,一个很自然的想法是,我可以用个样本的算术平均值来近似估计我们的目标参数。具体而言,我们定义:简单地说,我们定义基于样本的算术平均值(也被称为样本均值)到这里,我们再次回到咱们的上证综指案例。简单复习一下我们获得了哪些进展。
第一、我们决定用正态分布去拟合上证综指的日度收益率分布。
第二、我们学习了如何估计该分布的两个重要参数,它们分别是均值第一种概率密度曲线是红色的曲线,是用的更加复杂的非参数(Nonparametrics)方法产生的。其优点很明显:能够更好地跟随直方图的形状。缺点是:需要比较大的数据量支撑。本案例有接近六千的样本,因此不是问题。但是,如果你面临实际问题的样本量比较小,那么这个方法的稳定性会很差。
第二种概率密度曲线是蓝色的曲线,是用正态分布的概率密度拟合的,该正态分布的均值为京东购书
当当购书
往期推荐