商务统计学基础 | 第1章:不确定性的数学表达:0-1分布
在前面几节的介绍中,我们谈到了上证综指的日度收益率分布情况,探讨了最适合日度收益率的概率分布。在这个过程中,我们关注的是日度收益率这一具体数值,它的特点在于,你总能在两个取值不同的日度收益率之间,再找到一个可能出现的新的日度收益率。换而言之,上证综指的日度收益率是一个连续随机变量。然而如果我们对每天具体赚了多少钱不太关心,而是关注手机屏幕里收益率那一项是红色还是绿色。那么上证综指的日度收益率就变成了一个只存在两种结果的事件集合:{0:日度收益率为负;1:日度收益率为正(或0)}。例如图1.5.1所示就是1991-2021年部分日度上证综指的正负情况。这就是本节要介绍的0-1型数据。
图1.5.1:1991-2021年部分上证综指日度盈亏情况
从理论上讲,到底什么是0-1型数据呢?简单地说,如果一个随机变量,有且只有两个可能的取值(例如:股票涨跌,性别男女,是否购买等),那么这就是一个0-1型数据。所谓0或者1,这仅仅是一个代码而已。以股票涨跌为例,我们可以用1表示涨,0表示跌。当然,我们也可以用0表示涨,1表示跌,没有任何问题。接下来我们将从实际应用和概率理论两个方面对0-1型数据进行探讨。首先考虑实际应用,请看下面几个0-1型数据的例子。
案例1:股票涨跌。 从投资者的角度来看,如果不考虑具体的涨跌幅度,股票涨跌也可以用一个0-1型随机变量来描述。在金融市场中,股票涨跌具有非常强的不确定性,没有人能够完全精准地预测后一个交易日的股票是涨还是跌。然而,这就意味着股民们只能够听天由命了吗?也不尽然。我们还是可以从海量的股票涨跌历史数据中找到一些规律,从而获取超额收益。比如很多人会用经典的“追涨买跌”策略。其中“追涨”指的是一种顺势的交易手段,当某支股票连续很多天都在上涨时,就增加持仓,追上这一波上涨的势头。“买跌”,顾名思义就是在股票处于下跌趋势的时候,大量买入该股票,期待有一天该股票能够触底反弹。除了这些策略之外,还有另一种策略源于大家对一周内每天股票涨跌的研究。人们发现,在牛市的时候,每周周一的股票上涨幅度比较大,而熊市的时候每周周二的涨幅也比较大。洞悉这种规律的股民就会在牛市环境下,选择周一的前一个交易日买入,到了下一个周一再卖出。当然这些规律在复杂的金融市场都不一定长久适用,但是至少可以说明,对于股票涨跌这种0-1型数据而言,虽然充满了不确定性,但它依然牵动着无数股民的心。
案例2:网购选择。 现代城市居民的生活可以说已经离不开网购了,从衣服鞋子、日化用品、蔬果生鲜到饮料零食,生活中需要的绝大多数物品都能在网络平台订购并送货到家。当我们每一次打开京东或者淘宝时,其实都在不断做着“买或不买”的决定。这一系列决定伴随网络在各大网购平台的数据库里又沉淀成一连串的0-1型数据。我们最终买不买某件商品,和喜不喜欢、质量好不好、银行卡余额,甚至当天心情等种种因素都有关系,再加上有时候还可能患上选择恐惧症。总而言之,在外人看来,我们买不买一件商品实在是充满了不确定性。最关心这种“买或不买”0-1型数据不确定性的是各大电商,他们绞尽脑汁从你的历史浏览和购买记录中总结规律,试图预测你是否购买某件商品。你之前经常购买锅碗瓢盆,他们就猜测你是不是一个家庭主妇?因此判断,当你遇到一套做工精致、评论良好的餐具时,你最终的选择很有可能是“买”。那如果你选择“不买”呢?那也没关系,算法会根据你这一次的购买记录,寻找更深层次的规律。他们可能会发现:你最喜欢在每月的第一天买杯子,在每月的最后一天买碗筷。所以你看,最关心你、最了解你的很可能是电商的推荐算法。电商平台通过对你购买行为中不确定性的研究,找到0-1型数据背后的规律,从而精准地把握你的喜好,并从中获得收益。
案例3:是否出车险。 出险是保险公司进行车险赔付的第一环。当车辆发生保险条款范围内的事故的时候,保险公司就理应进行出险,开始评定车辆受损状况进行理赔。由于是否出险也是一个只有两种可能的随机事件,因此也可以视为0-1型数据。车辆是否出险对应着车辆是否发生事故,而事故发生与否与当时路况、司机行车习惯和精神状态,甚至和许多不可抗力因素都有关联。这就使得是否出车险充满了随机性。谁最关心车辆是否出险呢?当然是谁出钱谁关心。若一位买了车险的客户在一年内发生了多次事故,出险多达十余次,那保险公司可能会后悔:早知道当时就多收点保费了!因此,保险公司迫切地希望可以降低是否出车险的不确定性。通过对用户历史数据的分析,现在的保险公司已经制定出一系列对策来控制风险。例如,不向当年出险次数超过5次的用户出售保险,或是建立复杂的模型来预测未来用户出险的次数,从而制定不同的保费方案,其中很多策略的有效性也在实践中得到了证明。所以你看,对于是否出车险这个充满随机性的事件,人们也非常关心其结果,而且力图通过数据的沉淀,缩小这类0-1型数据的不确定性。
案例4:酸儿辣女。 怀胎十月,一朝分娩,产下的是儿子还是女儿同样充满了非常强的不确定性。因为孩子的性别只可能是男或者女,因此也可以用0-1型随机变量来描述。在老一辈人的传统思想里,儿子是家族传宗接代的希望,儿子生得越多家族越兴旺。当然,现代社会追求男女平等,这种封建思想应该被批判。即使在现代社会中,很多父母对新生儿的性别也还是有所偏好的。有人喜欢儿子,觉得儿子以后更能陪在自己身边;有人喜欢女儿,觉得女儿对父母更加体贴。对新手爸妈来说,对新生儿的性别有期待和偏好也无可厚非。正是因为大家如此关注这件不确定事件的结果,所以出现了各种民间偏方,以及经典的“酸儿辣女”准则,即:如果妈妈在备孕期间多吃酸味的食物,更有可能生儿子;多吃辣味食物,就更有可能生女儿。你可能会问:如果一口辣椒一口醋呢?答:肯定会胃痛。酸味和辣味食物是否能真正影响生儿子还是生女儿的结果,目前还不得而知。但能够知道的是:人们真实地关心着生儿子还是生女儿这件0-1型随机事件的不确定性。
案例5:是否下雨。 明天会不会下雨也可以用0-1型随机变量来描述。由于大气系统是一个异常庞大和复杂的存在,这就导致该系统的其中一个输出——“明天是否下雨”充满了不确定性。人们曾经认为世界万物都可以被精准计算,因此如果知道大气系统中所有粒子的状态就能够预测未来任意一天的天气。然而事实远没有这样简单。19世纪洛伦茨在进行气象仿真计算的时候发现了混沌现象,接着他问出了那个经典的问题:为什么巴西的蝴蝶煽动翅膀会引起德克萨斯的飓风?这个问题其实是在说明,当前大气状况中微小的不确定性,都会随着时间推移而产生极大的不确定性。不确定性就仿佛气象系统的幽灵。但人们还是想要驾驭这种天气的不确定性,因为预测天气实在是太重要了!在山区,连续大雨可能造成山洪暴发、山体滑坡和泥石流等自然灾害;在战争中,冻雨也会影响导弹和飞机的性能。种田养蚕的传统农民更是靠天吃饭,下不下雨对于他们而言尤其重要。
所以,亲爱的同学们,0-1型数据在日常生活中实在是太普遍了,我们无时无刻不在关心着这些0-1型随机变量的表现。甚至,从人类整体来看,我们已经试图去了解、利用、掌握这些随机性背后的原理,从而逐步解释和缩小这类数据的不确定性,这样就可以离这个世界的真理更进一步。接下来,我们尝试从概率理论的角度来理解0-1型数据。如前所述,0-1型数据是一种只有两个可能取值的随机变量。因为它只有两个可能的取值,因此人们只要知道它等于其中一类的概率,就可以完全推算出另一类的概率,并因此获得对整个分布的完整认识。例如,如果我们知道股市明天上涨的概率为70%,那么下跌的概率就一定是30%,反之亦然。定义X是一个只有0和1两个取值的随机变量,那么从概率论的角度看,只要能定义P(X=1)的值,就能够完全确定X的分布情况。同理,只要能定义P(X=0)也完全能够满足需求。为了方便起见,一般的教科书或者学术文献都约定俗称的定义:P(X=1)=p。在这个前提下,我们可以尝试对它的概率学性质作进一步研究。
在概率学性质的层面上,我们首先关注一下它的期望和方差。在计算期望时,我们需要对离散数据的所有可能结果按照各个结果发生的概率做一个加权平均,可以得到:
相应地,关于方差我们有以下计算过程:
我们可以带入几个具体的数值来理解一下上面方差公式的特点。当p=0或p=1时,随机变量X的方差为0。我们知道,方差衡量的是一个随机变量的变异性。当p=0时,P(X=1)=0,即无论做多少次抽样,事件的结果永远是X=0。同理,当p=1时,事件的结果永远是X=1。一列完全相同的数据的变异性自然是0,因此它的方差为0也就不奇怪了。当p=0.5时,X=1和X=0出现的概率均等,按方差函数的特点,此时随机变量的变异性最高。怎么理解这一结果呢?这就好像一个班级里有男生也有女生,当男女比例相等时,整个班级的性别差异最大。当男女任何一方的比例超过0.5,变得更大时,班内学生的性别都更趋于一致,因此整体的性别差异更小。由此可以发现,上述公式得到的方差和实际经验中的理解是一致的。
上面我们探讨的0-1型数据服从的分布叫做0-1分布。了解了0-1分布后,我们可以继续往下思考。还是考虑股市的案例,假设每天的股价涨跌用一个0-1型的随机变量 表示。进一步假设不同交易日之间的股价涨跌是互相独立的(显然这个假设不太合理,但这里请大家暂且接受这个假设),由此马上产生了一个问题:如果我连续观察n天,请问其中有多少天会涨呢?这个问题的实质是在问,随机变量 有怎样的统计学特性。为此,我们定义一个新的随机变量 。可以知道,Y的取值实际上就是股价在n天内上涨的总天数。对这一随机变量的关注是很常见的,为什么呢?简单起见,假设一年有n=200个交易日。假设我每天对某只关注的股票做1个单位资本的投资,等到200个交易日结束的时候,盈利的可能性有多大呢?当然,这还涉及到股价的涨跌幅度。为了简单起见,假设我们不考虑这个因素,只考虑涨跌的方向。那么,200个交易日后,我盈利的可能性有多大呢?为此,我们就要计算一下,200个交易日中涨的天数是多少(或者等价的,跌的天数有多少)。如果,199天都涨,那我肯定投资收益会非常丰厚。相反,如果199天都跌,那一定赔得一塌糊涂。对于这个问题,我们显然没有一个绝对确定的答案,因为这也是一个随机变量,也有不确定性。而我们关心的是,如何描述这个随机变量的不确定性。这就是下面将要讨论的二项分布。
在给出二项分布的概率分布之前,我们可以先严格地计算一下P(Y=k)的概率是多大。显然,k必须是非负整数,而且不能大于n。这就意味着,我们要从n个实验中,找到k个1,同时找到n-k个0。这样的排列组合数有多少呢?答: 。而每一种组合发生的概率是多大呢?答:。因此二项分布的概率分布列如下:
在概率分布列的基础上,我们可以进一步研究二项分布的期望和方差。这里需要先指出二项分布和0-1分布的关系:服从二项分布的随机变量Y,可以视作n个独立且服从相同0-1分布的随机变量X_t的和,也就是 。这一点在常识上也容易理解,假设丢100枚硬币,正面朝上的数量是100个单次投币向上结果的和。因此,在讨论二项分布的期望和方差的时候,我们可以利用上面得到的0-1分布的期望和方差的结论。具体而言,二项分布的期望可以视作是n个0-1分布随机变量期望的和,因此结果为np。除此之外,也可以直接根据期望的定义来计算,具体如下:
相应地,二项分布的方差也可以直接由n个0-1分布的随机变量的方差之和计算得到(注意到n个变量是相互独立的),因此有:。接下来可以思考,上面给出的二项分布的均值和方差受到哪些因素的影响呢?答:二项分布的次数n和概率p。当n确定时,二项分布均值和方差的特性和0-1分布一致:二项分布均值随着p增大而单调增加,二项分布的方差在p=0.5时最大。而当p确定时,随着n增大,二项分布的期望和方差都将单调增加。换而言之,此时一组服从二项分布数据的中心水平和变异性都不断上升,这是怎样一种情景呢?此时的P(Y=k)又会有怎样的变化呢?为此,我们可以先给大家呈现一些数值计算结果。假设p=0.25,图1.5.2绘制了n=1,10,100,1000的时候,二项分布的概率密度柱状图。
可以看到,当n的取值逐渐增大的时候,二项分布的概率密度柱状图越来越像一个正态分布。但是,由于二项分布的均值方差都是爆炸的,随着n增大而越来越大,上面柱状图中的钟形会不断向横坐标的正方向偏移(可以观察不同柱状图中x轴的取值范围)。为了方便比较,我们可以尝试把n取1000时的二项分布随机变量Y,标准化成 的形式,这样Z的期望是0,方差是1。显然,Z不是一个标准正态分布,因为它本质上仍然是一个离散分布。但是我们可以比较一下它的概率密度函数和标准正态分布的概率密度函数,如图1.5.3所示。可以看到,它的概率密度函数非常接近标准正态的概率密度函数。事实上,这体现了统计学中十分重要的中心极限定理的思想。对于中心极限定理的具体表述,这里我们也先不做展开。
接下来,我们回到本节开头提出的例子:股票涨跌。股票涨跌作为一种0-1型数据,其结果时刻受到广大投资者的密切关注。当我们对0-1型数据的不确定性有了一定了解之后,可以以二项分布的视角更深入地分析一下这个例子。在股票涨跌的案例中,为了获得超额收益,很多投资者会使用“追涨买跌”策略。其中,追涨的条件是该股票在历史数据中涨势喜人。那如何量化一支股票的涨势呢?一个简单的方法是从0-1型数据的视角入手,计算历史数据中该股票上涨天数的占比。假如过去30天中,某股票上涨天数达到了25天,那毫无疑问在“追涨”的策略中这只股票值得入手。这种选择背后的假设是,我们认为该股票的未来涨势和历史数据一样,因此我们预测以及期待该股票下个月将会延续5/6的上涨天数占比,从而获得较高收益率。但是,这样的预期真的可靠吗?我们不妨对实际的股票收益率数据进行分析,来检验一下这种预期的可靠性。我们沿用1.4节中使用的2019-2020年上交所的1422只主板A股的日度收益率数据,对股票涨跌情况进行再次分析。
为了探究历史数据中高上涨天数比例的股票是否会在未来具有更高的收益率,我们需要将它们和低上涨天数比例的股票情况进行对比。为此,我们首先将2019年1月1日至2019年6月30日之间共6个月的股票数据作为历史数据;然后,对每支股票,计算其在历史数据的6个月时间里面的上涨天数占比;接下来,将1422只股票按照历史上涨天数占比从低到高等分为10组。例如,上涨天数比例最低的前10%股票为第一组,共有151支,它们的上涨天数占比为0.38~0.46;上涨天数比例最低的前10%至20%的股票为第二组,共有139支,它们的上涨天数占比为0.46~0.48;其它组的分组区间以此类推。
以第一组的151支股票为例,由于这些股票位于同样的历史上涨天数比例区间中,我们可以近似认为这些股票的上涨情况相同,从而把它们当成同样一支股票来分析,当然这种近似仅是一种粗略的分析方法。对于这支股票(代表第一组的上涨情况),我们设 表示该股票在第t天的涨跌结果。由于涨跌只有两种结果,因此 是一个0-1型变量,服从0-1分布。而历史上涨天数可以用 来表示,此时Y服从二项分布。在0-1分布和二项分布中,我们最关心的是概率p值,它代表的是该股票在一天中上涨的概率。那么不同p值的股票在未来一个月中的上涨天数比例表现如何呢?我们可以通过下面的柱状图来感受一下:
图1.5.4展示了按照历史涨跌情况划分的十个组,在未来一个月(也就是2019年7月份)各个股票的平均上涨天数比例。可以看到,2019年7月的整体行情并不乐观。各个分组的平均上涨天数比例均在0.4至0.5之间。即使是历史上涨天数比例排名90%至100%区间内的股票,虽然在过去6个月中取得了0.556至0.615的上涨比例,但在7月份仍然仅获得了0.454的平均上涨天数比例。根据7月份的惨淡情况,我们对未来行情就不太乐观了。因此,我们需要改变之前对于概率p值的估计,即利用7月平均上涨天数比例来更新此时各个区间的概率p值。这时我们对于90%至100%区间内股票的概率p值的估计就更新为0.454。估计了概率p值之后,我们就可以根据二项分布的概率分布列,对未来股票上涨的天数占比计算出现概率。从2019年8月1日到2020年8月1日共有266个交易日,这段区间内股票上涨的交易日占比超过50%的概率是多少呢?我们可以通过下面的式子来计算:
同理可以计算,股票上涨的交易日占比超过60%和70%的概率分别为 和 ,这已经是非常小的概率了,在现实生活中几乎不会发生。由此,从统计学的角度看,我们对未来的股票行情乐观吗?当然不乐观,因为股票上涨的交易日占比超过50%的概率仅为0.059。下面,我们再来验证一下未来的收益率是否确实不太乐观,验证的方式是绘制各组在未来的月度收益率箱线图,如图1.5.5所示。
在图1.5.5中,每个箱体的中线表达的是该组数据的中位数。和平均数相比,中位数受到极端值的影响更小。在2019年至2020年这样一个长周期的测试中,很可能出现一段时间的牛市或是熊市,这会给策略效果的评价造成干扰,因此观察各组的中位数更加合理。图1.5.5表明,不论是选择历史上涨天数比例最低的0%-10%区间股票,还是选择历史上涨天数比例最高的90%-100%区间股票,在未来的月度收益率都有很大比例为负值。并且,这两个区间的中位数没有明显地高于其他区间。这一结果表明“追涨买跌”策略的效果并不理想,同样存在很高的亏损风险。为什么会这样?根据本节关于二项分布的介绍,我们知道对于股票涨跌这类服从二项分布的事件而言,其方差在p=0.5时最大,此时股票涨跌的变异性最大,不确定性最强。可惜的是,股票市场的p大概就是0.5。
简单来说,本节对一种重要的离散型概率分布,即0-1分布,做了系统性的介绍,包括:0-1型数据在生活中的广泛示例,0-1型分布基本的概率表达和理论性质,0-1分布和二项分布的关系。最后,以股票涨跌为例探究了0-1型分布在资本市场的简单应用。请大家注意:0-1型分布是一种超级重要的离散型分布。如果大家有机会深入学习统计学理论(例如:回归分析、机器学习等),那么0-1型分布往往对应的是各种分类问题,而分类问题的应用场景极其广阔。接下来,大家自然而然地会想到:除了0-1型分布,还有哪些常见的离散分布?0-1型分布的结果只有两种可能的取值,因此我们尤其关注其它有多个可能取值的分布。这样的分布存在吗?答案是肯定的。这样的分布不仅存在,而且很多,也很常见。其中尤其值得关注的是泊松分布,它是一种用于描述计数型数据的最常用的概率分布。这也是咱们下一节学习的重点。
- END -京东购书
当当购书
往期推荐