查看原文
其他

商务统计学基础 | 第1章:不确定性的数学表达:正态概率密度

王汉生 王菲菲 狗熊会 2023-06-13
点击上方"狗熊会"关注我们吧!

  

通过上一节的学习,我们理解了看似不确定性的数据,可能也有确定性的规律,而这些规律有可能通过直方图展现出来。如果上帝能否赋予我无穷多的数据,我就能呈现给你超级细致的直方图。所谓超级细致就是直方图中柱子的宽度超级窄,以至于成了一根直线。此外,任何一根柱子的高度,跟它左右邻居柱子的高度几乎完全一样。此时的直方图就变成了一个特别重要的理论工具:概率密度函数

  概率密度函数是我们理解数据不确定性的一个根本性工具。从理论上讲,只要知道了概率密度函数,我们就知道了关于数据的一切规律(不是知道数据本身)。因此,前辈学者投入了巨大的心血和精力,发展了大量的适合不同类型连续型数据的概率密度函数。它们的特点各不相同,适用的场景各不相同,性质也各不相同。这是咱们接下来学习的重要内容。而这一节,我们将从最重要的一个概率密度函数开始,那就是:正态分布(Normal Distribution)

图1:德国马克中的高斯图像与高斯分布

  在正式学习之前,先跟你小小八卦一把。请问你知道正态分布还有什么别名吗?对,你说对了,正态分布还有一个别名叫做:高斯分布(Gaussian Distribution)。不用我说你也知道这是为了纪念伟大的数学家高斯。这又是为什么?请看图1,这是以前10元面值的德国马克。上面画了一个伟人的头像,这个人是谁?答:高斯,世界上最伟大的数学家之一,有着数不清的重大贡献。但是,德国人民在纪念这个伟大的数学家时候,不知为何缘故,却独独青睐这个独特的概率分布:高斯分布(或者正态分布)。为此,将高斯分布的概率密度函数也印在了这枚纸币上,就在高斯的右眼角水平的方向上。作为一个普通的统计学工作者,才识学浅,实在无法全面理解高斯在各个领域的卓越贡献。但是,对于高斯分布之于统计学领域的重要性那是深有体会的。

  可以不夸张地说,如果没有高斯分布,就没有统计学的极限理论(也称大样本理论)。原因就在于统计学的大样本理论基本上都是建立在中心极限定律的基础上的,而中心极限定律中的那个“极限”就是高斯分布。所以,从这个角度看,高斯分布不是高斯创造出来的,而是他发现的。我们用“发现”这个词,而不用“创造”,就是想表达一个事实:高斯分布表现的是这个世界的一个基本规律,这个规律从古至今一致存在,等待着人们去发现。那么,高斯是不是第一个发现高斯分布的?这个似乎也很难考证,但是人们似乎已经习惯了称其为高斯分布。

图2:上证综指日度收益率直方图和概率密度曲线

  那么,高斯分布(或者正态分布)到底有什么用处呢?如前所述,其最大的用处是因为正态分布是统计学中超级重要的定律“中心极限定律”中的那个极限。那么,什么是中心极限定律,那个极限又是什么,请允许我们后面再深入讨论。这里,先探讨另一个关于正态分布的重要应用(也许没有中心极限定律这么重要,但是仍然很重要),那就是对某些连续型数据不确定性的初步描述。这是什么意思呢?咱们还是考虑上次的那个股票数据案例。稍微复习一下。

  咱们采集了我国上海证券交易所上海证券综合指数(简称:上证综指)从1997年1月2日到2021年7月22日,共计5951个日度收益率数据,从中我们看到了巨大的不确定性,以及由不确定性带来的投资风险。但是,仅仅感受是不够的,我需要一些更加细致的测量。例如,作为投资者,我希望知道如果购买上证综指,持有1个交易日,然后抛出,亏损的可能性有多大?要给这个问题一个快速的答案并不难。假设未来是历史的重复(这显然是一个巨大的假设,这个假设意味着我们不允许黑天鹅事件出现),那么只要看看历史数据中上证综指日度收益率为负数的占比有多大。这个数字很容易计算,应该大概是47.0%。但是,这个数字仍然太粗糙,我并不满意。作为投资人,我希望知道日度收益率低于-3%的可能性有多大?这个问题似乎也不难,我只要计算一下在几千个历史数据中,日度收益率低于-3%的样本占比是多少,大概是45.9%。

  也许我还不满意。我想计算一下,未来日度收益率介于-3.1%到-3%之间的可能性有多少?请不要小看这一点点的收益率差异,当你面对巨大资金投放决策的时候,一点点的收益率差异,可能都是一个巨大的绝对收益差异。因此,我就是需要计算一下收益率介于-3.1%到-3%之间的可能性有多少。于是,我又去5951个历史数据中寻找,有多少历史日度收益率会介于-3.1%到-3%之间?结果发现这个比率是0。原因很简单,咱们一共才有大几千个样本,然后要区分0.1%的收益率差异,这是非常困难的。具体到咱们这个问题中,在历史数据中就没有发现任何一天的收益率介于-3.1%和-3%之间。但是,你能说未来收益率介于该区间的可能性是0吗?答:显然不可能。你的收益率有可能是比-3.1%高,有可能比-3%低,那么理论上讲,日度收益率介于-3.1%和-3%之间的任何一个细小区间的可能性都是存在的。该可能性也许会很小(因为区间长度很小),但是实在难以相信这个概率就是0。你看,一方面实际业务又需要这个概率测量,另一方面简单地基于数数的频率测量方法又不能满足需求。请问怎么办?

  为此,咱们仔细研究一下上证综指的直方图。由于我们关注的是大小为0.1%的收益率差异,因此很自然我们希望把直方图画得更加细致一些。例如,我们一不做二不休,干脆画1000跟柱子吧。结果就如图2所示。我们能看到什么?能看到两个趋势。第一个趋势是一个似乎比较连续的趋势,这个趋势告诉我们整个数据中间位置的柱子比较高,两边比较低。这说明,趋向于中间的收益率发生的可能性要高于两边极端的。这似乎非常符合常识预期。第二个趋势是似乎又不是非常连续。常常发现两个紧密相连的柱子高度相差很大,跳跃现象明显。这是怎么造成的呢?很简单,就是因为柱子太多了,造成收益率的分组太细了,然后每个分组的样本量太小了。这就是为什么前面探究收益率在-3.1%到-3%之间的可能性的时候,得到了一个0。

  显然,第二个趋势不是我们想要的,因为这个趋势是完全由于样本量太小,数据造成的,不是我们要关注的核心稳定的趋势。与此对应的,第一个趋势是最核心的趋势,是我们要从数据的不确定性中洞察的确定性的规律。第一个趋势对应的就是那个理论上的概率密度函数。如果,我们能够知道这个概率密度函数的情况,那么任何概率(例如:收益率介于-3.1%到-3%之间)的概率都可以被精确计算出来。不管这个概率有多小,一般不会是0,应该是一个更加合理的数字。所以,从上面的讨论中你能形成一个直观的感受吗?为什么概率密度函数是一个更加值得追求的目标,而不是直方图。当然,我们从不否认直方图作为一种数据可视化的工具超级有用,但是它自己似乎不是一个值得追求的理论目标。原因就是它太不稳定,只要分组一多,就很凌乱(例如:前面提到的第二个趋势)。因此,透过数据,洞察概率密度函数,恐怕是一个更加值得追求的目标。

  那么,我们应该如何追求概率密度函数这个目标呢?这里又会产生很多种不同的技术方案。一个最简单的方案就是局部平滑(Local Smoothing)。简单地说,就是将局部相邻的柱子高度,求一个加权均值,然后用这个均值作为当前位置概率密度的一个简单估计。这事实上就是图2中红色曲线产生的方式。当然,这依赖于如何定义局部,如何定义权重,会产生不同的局部平滑的方法。但是,整体而言,产生的结果大同小异。这样的方法优缺点如何?

  首先,优点非常明显,那就是灵活。不管你的实际数据分布形状如何,只要样本量足够大,局部平滑都可以产生非常不错的、关于概率密度的估计。这事实上是非参数统计学的一个重要研究问题。但是,缺点也非常明显。既然你要灵活,那么需要的参数就比较多,因此需要消耗的样本量就比较大。以咱们的上证综指的数据为例,我们有好几千的数据,所以如果想要采纳一个局部平滑的方法估计概率密度函数,是完全没有问题的,而且效果看起来似乎不错;请见图2中的红色曲线。但是,如果样本量比较小呢?例如,如果只有几百个样本?甚至几十个呢?那就比较糟心了。也许你会说,都大数据时代了,哪里有这么小的样本?你大错特错了。你被大数据的各种媒体宣传洗脑了。事实上,不是特别大的数据更加常见,更加典型。原因很简单,很多数据的采集是以时间为基本单位的。例如:公司的财务运营数据,再高的频率,超不过1个月。因此,再高的频率,财务会计上都可能没有定义了。因此,一个企业一年才12个数据,10年才120个数据点,数据量怎么可能太大?但是,你不能说几十个,几百个数据我就不分析了。实际工作中,如果能对几十个,几百个数据做出非常科学有效的分析,那么对业务的帮助可能是非常大的。因此,我们必须要面对一个问题,那就是在样本量不是特别大的情况下,要对数据背后的那个概率密度函数做出合理的估计,甚至统计学推断。这怎么做?

  天下没有免费的午餐。如果在一个样本量不是特别大的情况下,却希望能够准确估计支撑数据不确定性的概率密度函数,我们总得付出点代价吧?天上不会掉馅饼的,没有付出的代价,哪里有莫名其妙的获得?我们准备付出什么代价呢?在回答这个问题前,请再仔细看看图2吧。请问有哪些特征是最重要的?哪些也许是可以凑合一个假设的?第一、这个数据的中心是非常重要的。这个数据的中心在哪里,代表了市场整体的收益率情况如何。第二、这个数据的波动性是特别重要的,这个数据覆盖的区间是-10%到10%,还是-5%到5%,或者更小,这直接意味着对应资产(例如:上证综指)的风险大小。这两个特征(中心位置、以及波动性大小)可能是最重要的。而这个数据的分布形状(中间高,两边低,比较对称),也许可以考虑通过一个合理的函数形式来假设。请问:哪个函数形式能满足这个条件呢?答:其实多极了。任何函数,是关于中心点对称,向两个方向单调下降,趋向于0的函数,大概都能满足咱们的需求。新的问题又来了。既然有这么多不同的选择,请问哪一个函数形式最可爱呀?最有可能被看作是第一选择呢?答:正态分布。不是因为这个分布对实际数据拟合的最好,而是说这个分布对咱们这个特定的数据:(1)能提供一个不错的拟合;(2)而且由于各种原因,它最CUTE,受人欢迎。

  为什么正态分布CUTE?因为:它是中心极限定理的“极限”,这个问题咱们后面再详细讨论。这里要进一步回答一个问题:数学上对正态分布是如何定义的?具体的函数形式到底如何?请见下面这个数学公式:

其中代表着目标随机变量的一个具体取值。以咱们的数据为例,这代表着上证综指的一个可能的收益率,该收益率在理论上是可能实现的,但是在实际样本数据中不一定有(例如:-3.05%的收益率)。那么,就刻画了正态分布在该点的概率密度取值。通过等号右边的具体函数表达式我们发现依赖于两个不同的参数。一个是中心位置(也是均值)μ,而另一个是波动性的大小(也是方差)。只要这两个参数定死,那么这个概率密度函数就被唯一确定下来了。为了给大家一个直观的印象,给大家画几个概率密度函数图如下:

图3:不同正态分布的概率密度曲线

  从中可以做一些简单的对比分析。黑色曲线是均值为0,标准差为1的标准正态的概率密度曲线,以此为参考系。绿色曲线是均值为-3,标准差为1的正态分布的概率密度曲线。黑色与绿色对比,唯一的区别是均值不同,因此两个曲线的形状完全一样,但是位置不同。在图3中,我们还看到一条红色的曲线,对应的是均值为0,标准差为2的正态分布的概率密度曲线。与黑色曲线相比,它们的均值相同(都是为0),因此两条曲线的中心位置完全相同。但区别是红色曲线更加扁平,这说明红色曲线把更多的概率分配给了正负两个极端。因此,红色曲线对应的随机变量出现正负极值的可能性要比黑色的大。直观上这意味着红色曲线对应的概率分布的变异性更大,与黑色的相比。而方差是对变异性大小的一个基本度量,不见得是完美的,但是最常见常用的。  接下来一个非常自然的问题是:能否用正态密度曲线去逼近图2中的直方图的形状?或者那个基于非参数统计方法估算出来的概率密度曲线(图2的红色曲线)?如果能在理想的精度内达到这个目的,那么这将是一个非常令人鼓舞的结果。因为确定一个正态概率密度曲线太容易了,比画直方图还简单。你只要能够把均值和方差两个参数估算准确,整个概率密度函数就被完全确定了。用什么样的均值和方差,才能够最好地逼近图2中的直方图形状?  为此,我们需要学习一些更进一步的统计学知识。记为样本量的大小。记为来自第天的上证综指的收益率(显然)。为了方便起见,我们常常假设不同的是独立同分布的。在现实世界中,这显然是一个假设,是一个不可能严格成立的假设,但是却是非常有用的假设。为什么有用?因为:任何数据分析方法都需要前提假设。如果不做这个假设,就要做那个假设。不同的假设产生不同的分析方案,并承担相应的后果。独立同分布假设最大的优点是:简单。基于独立同分布假设做出的分析方案常常非常简单,而不失有效性。  回到咱们的案例,具体而言那就是要假设来自不同交易日的上证综指收益率虽然各不相同,但是产生它们的概率分布却是相同的,而且有一个共享的概率密度函数。依赖于具体问题,人们常常对的函数形态做出各种假设(例如:指数型、多项式、正态分布型等)。而就本案例而言,似乎假设是一个正态概率密度函数是一个不错的选择。主要原因有这么几个。第一、从图2看,上证综指日度收益率数据是关于某一个点对称的,这似乎符合正态分布的特征;第二、从图2看,上证综指日度收益率的概率密度应该是向正负轴两个方向快速衰减的,这也比较符合正态分布的特征。当然,你很容易找到更多的不符合正态特征的证据。例如,由于我国股市的涨跌幅政策,因此上证综指的收益率是不可能超过正负10%的,这不符合正态分布可以在实轴上任意取值的要求。但是,这也许不是一个特别大的问题。上证综指作为一个指数,它的波动性相对于单只股票而言是比较小的。因此,收益率靠近正负10%的可能性已经非常小了。当然,这种偏差对实际工作产生的影响到底是否可以忽略呢?答:这得去问实际工作本身。大多数工作对精度要求没有这么高,所以完全没问题。但是,对于追求极致精度的量化投资高手而言,也许这样的偏差是不能忽略的。但是,咱们这里一切先从简单出发,假设我们是可以容忍这种偏差的。  如果我们假设是一个正态分布的概率密度函数,那么就有两个不同的参数需要估计:均值和方差。请注意,咱们这里涉及到两个特别重要的、但是却非常容易搞混淆的概念:参数(Parameter)和统计量(Statistics)。对此,传统统计学教材有大量的定义。一般而言,人们会首先定义什么是总体(Population),什么是样本(Sample)。然后,再定义所有关于总体的量为参数,而基于样本计算的量为统计量。

  传统统计学常常定义:所有被关注的个体的总和就是总体。例如:全国普查的对象为所有中华人民共和国公民。那么,所有中国公民就构成了总体,而这个总体的(例如)平均身高就是参数。如果没有做普查,而是做了一个抽样调查,也就是说只获得了总体的一个子集,那么这个子集就是样本,而样本中看到的平均身高就是统计量。这就是我们大多数统计学教科书中关于总体和样本,参数和统计量的定义。

  以咱们的案例为例,中国股市就这么几千只股票,这就是我们研究的全体。按照传统的关于总体的定义,这些股票的集合就构成了总体,它们的平均收益率就构成了某种市场综合指数,而该指数按照传统统计学定义就应该是一个参数,而参数是没有不确定性的(除非是贝叶斯学派)。这合理吗?这显然不合理,任何资本市场的任何综合指数的收益率都是上下起伏扣人心弦的。为什么?因为你在沿着时间轴看资本市场,你沿着时间轴看它的过去,看它的现在,赌它的未来。从这个角度看,任何一个特定时间的,所有股票的收益率,都是宇宙无穷历史的一个小小片段(Sample)。在这种情况下,总体又应该如何定义?参数又应该如何定义呢?

  不得不说,这是一个非常深刻的理论问题,咱们一门小小的入门课程恐怕没法对此做特别深入的讨论。但是,我想跟你分享一个非常简单、有效、而且合理的定义。我对总体和参数的看法是这样的。第一、统计学是研究不确定性的。第二、因此我们用各种概率分布去描述数据的不确定性。第三、我把这个概率分布(例如:正态概率密度函数)看作是我的总体;第四、任何关于这个概率分布的量被称为参数。第五、任何基于该概率分布生成样本所计算的量为统计量。

  简单总结一下,我跟传统统计学关于总体定义的核心区别在这里。传统统计学关于总体的定义跟抽样(Sampling)高度相关。因此,总体和样本是两个完全对立匹配的概念。而我对总体的定义只跟不确定性相关,跟抽样毫无关系。我这里的总体是描述不确定性的那个概率分布,这个分布有可能跟抽样相关(赶巧了),更多的时候它就是对某种不确定性的数学描述和表达,跟抽样毫无关系。按照我的定义,我们会这样理解上证综指这个案例。第一、上证综指日度收益率有着很大的不确定性。第二、我决定用正态分布来描述该不确定性。第三、这个正态概率密度函数(或者它所对应的正态分布)就是总体。第四、而决定该总体的两个量(均值和方差)就是参数。参数有一个特点就是:未知!第五、最后,根据我的模型假设,天的上证综指日度收益率就是该正态分布的一个次独立实现,这构成了我的样本。而我们分析的目标就是:通过对样本的合理分析,能够对两个参数(均值和方差),做出尽可能准确的估计,而那所谓尽可能准确的估计就是:统计量。  具体而言,我们应该怎么做呢?我们应该如何基于样本对总体的参数(均值和方差)做出尽可能准确的测算呢?这非常依赖于我们的目标参数在总体中扮演者什么样的角色。以均值为例,我们不难验证它真的是“均值”,它是总体(这个正态概率分布)的均值。数学上我们会如何表达这个意思呢?首先,我们会定一个新的概念叫做期望(Expectation)。什么是期望呢?给定一个总体(即概率分布),从这个总体中抽取无穷多的样本,这些样本的算术平均数,就是我们关于这个总体(即概率分布)的期望。这个期望会多大呢?请注意,我们的样本是从指定的概率分布(即总体)生成的。因此,如果某个取值附近的概率密度大,那么样本中出现这个值或者近似值的可能性就会更大,否则就会更小。因此,最终这个期望应该是对所有可能取值的一个加权平均,而权重的大小就应该完全由概率密度所确定。因此,我们有
最后一个等式的成立依赖于两个事实。首先是一个概率密度函数,因此关于它的积分是1。另外,是一个关于左右对称的函数,因此的积分为0。这说明,目标参数就是一个算术平均值,但是它是基于无穷大的样本量计算的算术平均值。显然,我们不具备无穷大的样本量,我们所具备的就是那个样本。因此,一个很自然的想法是,我可以用个样本的算术平均值来近似估计我们的目标参数。具体而言,我们定义:
简单地说,我们定义基于样本的算术平均值(也被称为样本均值),作为对总体均值的粗糙估计。这个估计有多准呢?这是一个绝顶好的问题,这是统计学推断要回答的核心问题之一,咱们后面慢慢讨论。但是,这里不妨先讨论一个朴素的直觉,那就是样本量肯定影响统计量的精度。只要数据产生采集没有问题,样本量越大,精度应该越高。样本量越小,精度显然越差。统计学本身没法帮你解决样本量问题,因为样本量的增加不是统计学问题,是资源投入问题。但是,统计学理论会非常优美地告诉你,样本量和精度之间的数学关系,并进而告诉你:样本量多大才叫大。  接下来,咱们再研究方差如何估计。和前面一样,首先需要理解在总体(即:正态概率分布)中扮演的角色是什么,起到的作用是什么。关于这个问题,咱们前面已经有所讨论。从图3可以看到方差不会影响分布的中心位置(例如均值),它主要影响的是变异性(Variability)。请注意,变异性不是一个严格的统计学概念,它更多反映的是人们朴素的直觉。而统计学理论要承担的一个任务就是把这个朴素的直觉通过合理的数学公式严格规范起来。为此,我们需要再次审视一下图3,对比分析一下黑色和红色两根不同的概率密度曲线。为什么红色对应的概率密度的变异性更大?而黑色更小?原因是什么?原因很简单,同黑色相比,红色的概率密度曲线把更多的概率密度放在了距离中心位置更远的地方。后果就是,红色总体(即概率密度)所产生的样本,跟黑色总体相比,更有可能在距离中心更遥远的地方产生样本观测。  因此,如果能够对“距离中心的位置”,提出一个合理的度量,并对它求期望,就可以获得一个关于变异性的度量。显然,人们关于“距离中心的位置”可以有不同的度量方法。例如我可以考虑绝对差异,然后再求期望。请问这个度量如何?答:很有道理,优点缺点都很明显。优点是:量纲不变。假设原始数据的单位是“米”(测量某种长度),那么均值的单位也是“米”,而绝对差异的单位仍然保持是“米”,其期望仍然是“米”。保持量纲不变这是一个不错的优点,对于后期数据分析结果的解读能提供一些便利。缺点也很明显,那就是绝对值这个函数,不是一个充分光滑,可微可导的函数,会让后期的理论研究,略显麻烦,数学性质也许不会特别的优美。  因此,实际工作中,人们更常用的一个关于“距离中心的位置”的度量是平方差异,然后再求期望。这就是我们常常提到的,关于变异性使用最广泛的测量,方差(Variance)。请注意,方差被最为广泛地使用,一个重要原因是它采用的平方函数是一个充分光滑,可微可导,而且严格为凸的函数。因此,数学性质特别好,后期理论研究更加便捷,而且常常会产生非常优美的理论性质。但是,这绝不是说方差就是绝对最好的关于变异性的测量。它的优点也是他的缺点,特别明显,就是这个平方函数。一旦采用平方后,量纲变了。原来的单位是“米”,现在的单位是“米*米”,请问这是一个什么鬼?因此,方差的解读常常有点小困难。为了克服这个困难,人们又提出一个建议,不如把方差再开一个根号吧,那就产生了标准差(Standard Deviation),即  对于不同的概率分布,都可以计算方差(或者标准差),所产生的结果也各不相同。但是,具体到咱们正在研究的正态分布,请问方差是多少呢?为了回答这个问题,我们按照方差的定义做一个严格的数学计算,详细过程如下。
其中。接下来用分步积分公式做进一步演算,可以有,
由此可见,正态概率密度函数中的那个未知参数,确实就是该总体(或者概率分布)的“方差”,而就是标准差。既然,方差是用总体产生的无穷多样本计算出来的,关于“距离中心的位置”的平方距离的均值,那么基于样本所计算的类似的量,应该可以构成关于该统计量的一个合理估计。于是,就有了下面的样本方差估计量,
这就是关于总体方差(或者标准差)一个常见的估计量。请注意,在更多的教科书中,更多被介绍的样本方差估计量与我这里的有一个小小的区别,那就是分母上应该除以呢,还是除以。人们会考虑后者的主要原因是,在样本方差的计算过程中,会涉及到另一个未知参数(均值)。而为了能够满足实际计算的需要,这个参数被相应的估计量给替代了,这造成了一定的信息损失(也称作:自由度损失)。因此,更加科学的做法也许是除以。从统计学理论的角度看,这样带来的好处是严格无偏性。也就是说,这样计算出来的样本方差估计量的期望跟目标参数完全一致,我这里的版本会产生一点点偏差。但是,我仍然更加偏好我这里介绍的这个估计量(很多地方称其为矩估计),原因就一个:简单。而且只要样本量稍微大一点,除以,还是,其实没有什么差异。如果,都是一个巨大差异了,那说明样本量也太小了,也许小到了不值得分析。因此,在本书后续的一系列理论陈述中,都不在纠结于或者了,永远是怎么简单怎么来。

  到这里,我们再次回到咱们的上证综指案例。简单复习一下我们获得了哪些进展。

  第一、我们决定用正态分布去拟合上证综指的日度收益率分布。

  第二、我们学习了如何估计该分布的两个重要参数,它们分别是均值和方差然后,咱们就实际操作一下,看看效果如何。通过简单计算发现,而。这就确定了一个正态概率密度函数,它的形态如何?跟直方图的形状相似吗?跟之前那个基于大数据量复杂方法估算出来的概率密度曲线相似吗?带着这一堆的疑问,我们将图2再重新创造一下,如图4所示。为了更好的展示,这次我限制直方图柱子的个数为100,这样可以更好地看到两种不同的概率密度曲线的形状。

  第一种概率密度曲线是红色的曲线,是用的更加复杂的非参数(Nonparametrics)方法产生的。其优点很明显:能够更好地跟随直方图的形状。缺点是:需要比较大的数据量支撑。本案例有接近六千的样本,因此不是问题。但是,如果你面临实际问题的样本量比较小,那么这个方法的稳定性会很差。

  第二种概率密度曲线是蓝色的曲线,是用正态分布的概率密度拟合的,该正态分布的均值为,而标准差为。该方法所产生的概率密度曲线,基本捕捉了直方图的基本形状(中间高,两边低,有很好的对称性),但是显然拟合优度不够好。中心位置的高度不够高,而如果仔细观察发现,两边极端位置的概率又似乎偏低。这说明正态分布之于上证综指日度收益率而言,可能无法很好地捕捉分布尾部的极端规律,而这可能正好是金融投资特别关系的情景所在。正的极端分布代表的是超额收益,而负的极端分布对应的是严重损失。这也启发我们去思考,是否有更好的,其他形态的连续分布,能够更好地拟合上证综指的日度收益率数据?答案是肯定的,而且这是相关学术研究的重要内容。受篇幅限制,我们就不再展开讨论。

图4:上证综指日度收益率直方图和两种不同的概率密度曲线

  作为本节的终点,我们可以重新尝试去回答一下最开始提出的问题:上证综指收益率处在-3.1%到-3%之间的可能性有多大?之前通过数频数的方法无法回答这个问题。目前看来正态分布的概率密度似乎也不能很好地拟合真实的分布情况。但是,给定我们目前没有更好方法的前提下,我们尝试用正态分布的方法来解决以下这个问题。因此,我们需要计算一下,对于一个均值为,而标准差为正态分布,取值介于-3%到-3.1%之间的概率有多大?为此,需要计算下面这个积分
  你看,这是一个非常小的,但是不为0的概率。这个概率太小了,以至于通过简单计算频数的方法难以估计。但是,这个概率的估算显然也不可能绝对准确。影响其准确性的原因可能很多。首当其冲的是正态概率密度函数对现实的直方图的逼近程度。虽然不尽完美,也许可以是一个良好的学习起点,希望未来能够做的更好。

京东购书



当当购书


往期推荐

引言:从不确定性出发

第1章:不确定性的数学表达:连续型数据

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存