在上一节中,我们留下了一个问题:是否存在不对称的分布?答案是肯定的。其实在生活中,我们常常会遇到数据不对称的情况。请看以下几个现实生活中的案例。案例1:用户留存。 在当前智能手机普及的时代,大部分人的生活都离不开各种移动APP,比如:用电商类APP购买物品,用资讯类APP浏览新闻,用视频类APP看电视剧,用音乐类APP欣赏歌曲……可是你是否知道,当你每次打开这些APP时,你的行为其实都会被APP的后台记录下来。互联网公司为了留住用户,可谓费尽苦心。它们每天都会记录千千万万的用户是否登录,并将数据汇总传输给数据分析部门,分析用户留存与流失情况,辅助用户运营部门作决策。举个例子,假设你下载了一款学英语的APP,一段时间后你仍在坚持使用该APP,那么你会被判断为留存用户;如果你只是三分钟热度,某天之后再也没有打开过这个APP,那么你就会被判断为流失用户,这时候,APP可能会采用给你发送短信或推送弹窗消息等手段,吸引你继续使用APP。从你注册成为用户的那一天,到流失的那一天,就是你的留存时间。每位用户的留存时间是具有随机性的,与个性、兴趣等等各种因素都有关,因此存在一个用户留存时间的分布。这里我们获得了IBM公开的某运营商的用户样本数据,从中选出流失用户并绘制他们留存时间的直方图,如图1.5.1所示。从图中可以看出,这个分布并不是对称的,而且尾部较长,各个区间内的用户比例随着留存时间的递增而递减,大部分用户都是在较短的时间内就流失了。 图1.5.1:某运营商用户留存时间直方图
案例2:企业生存。 “大众创业,万众创新”时代,我国各种中小微企业如雨后春笋般出现。创业的第一步是筹钱。初创企业的资金从哪里来?大部分企业都需要贷款或是寻求投资。企业能否活下去,能活多久,就成为银行和投资机构非常关心的事情。创业一定能成功吗?不是的。这与企业的经营战略、外部生存环境等因素都有关。电影《扬名立万》中的一句台词“十个项目九个凉,商业投资很正常”就幽默地道出了创业的辛酸现实。创业者刚开始往往都满腔热血,但总有些企业因经营不善或是经济寒冬,血本无归。当然,这其中也不乏马云、马化腾这样成功的创业者,从白手起家成长为企业家,不仅实现了个人的财富自由,还提供了就业机会、拉动了国民经济发展。由此可见,不同的企业有不同的存活时间。因此这里也有一个分布——企业生命的分布。有学者通过对我国企业的统计资料进行分析,归纳了企业的生命周期,编制了企业的生命表。图1.5.2即展示了企业生命(单位:年)的直方图。该图显示,企业生命的分布不是对称的,大部分的企业生命都集中在十年以内,仅有少部分企业能保持长青。 图1.5.2:企业生命直方图
案例3:员工流失。 每年秋季和春季,各大企业的校园招聘都开展得如火如荼。大量高校毕业生通过秋招或春招找到了他们的第一份工作,从而开启职业生涯。假设一家企业在校园招聘中招募了100名员工。两年以后,有的人已经跳槽到其他公司以谋求更高的薪水,有的人已经转向公务员或事业单位编制,有的人仍然是该企业忠诚的员工。企业的人力资源管理部门会关心:是什么因素导致了不同员工在职时间的差异?如何改进招聘策略,才能降低员工流失率?为了研究这些问题,人力资源管理部门可以首先研究公司员工的在职时间分布情况。IBM的数据科学家虚构了一份包含1470位员工的流失数据,虽然是虚构数据,无法指导实际业务,但这里我们仍然可以通过观察它的直方图(图1.5.3),了解一下员工在职时间的分布情况。需要注意的是,我们在画图时仅包括了已经离职的237位员工。因为对于仍然在职的员工,我们无法知道他会在什么时候离职,因此无法得到他们确切的在职时间。很明显,图1.5.3展示的分布不是对称的,而且是长尾的。可以看到,绝大多数员工在10年以内就离职了。 图1.5.3:员工在职时间直方图
案例4:车险索赔。 当车辆发生保险条款范围内的事故时,车主会联系保险公司进行索赔。保险公司会评估车辆受损情况,厘定赔付。索赔额与事故的严重情况、车主驾驶行为等等都有关,这是存在随机性的,于是便存在一个索赔额分布。保险公司会对索赔额的分布进行分析,以便在将来更好地制定保费。索赔额的分布是什么样呢?一般来说,大部分事故都是较轻微的事故,索赔额不会太大,巨额赔付一般只占少数。眼见为实,这里我们收集了某保险公司的67,856张车险保单数据,每张保单记录了车辆是否出险,以及出险保单的索赔额大小。我们从中挑选出仅出险一次的4333张保单,绘制它们的索赔额直方图,如图1.5.4所示。可以看到,图1.5.4展示的情况与我们的猜想一致,大部分车险的索赔金额都集中在5000以内,且不同赔付区间内的保单占比随着赔付金额的增大而逐渐递减,这也是一个典型的长尾分布。 图1.5.4:索赔额直方图
案例5:空气质量。 随着全球工业化,大气污染已经成为一个重要的民生议题。常见的大气污染物中,除了最受关注的PM2.5以外,二氧化硫也是一项危害极大的污染物。人们在燃烧含硫的煤或石油燃料时,会排放出二氧化硫。大气中二氧化硫浓度过高时,如果下雨,二氧化硫溶入水中,雨就变成了酸雨,酸雨不仅会腐蚀建筑物,破坏名胜古迹,还会破坏生态环境的酸碱平衡。即使天气晴朗,没有降水,二氧化硫也会进入人的呼吸道,对人的生命健康造成危害。为了治理二氧化硫,大气质量监测机构每天都会实时监测包括二氧化硫在内的各项大气污染物的浓度。可以猜想,大部分时候二氧化硫的浓度应该是较低的,浓度极高的日期应该占比很小,否则世界末日可能就离我们不远了。为了说明这一点,我们获取了2014-2017年国控站点的月均二氧化硫浓度数据,并绘制直方图。如图1.5.5所示,二氧化硫浓度的月均值分布也是一个长尾分布,这也证实了我们的猜想。 图1.5.5:二氧化硫浓度月均值直方图
案例6:视频播放量。 现在网络上有各种各样的视频平台,视频创作者可以自由地在平台上创作,收获自己的观众。有的人仅仅将此作为消遣娱乐的爱好,有的人则将此作为职业,在小有名气后承接广告业务,获得收益。无论哪种情况,每一位视频创作者在发布视频时,都希望自己的视频播放量能达到一定高度。然而现实往往是残酷的,大部分的视频无人问津。视频播放量的分布是什么样的呢?我们获取了网络公开的2021年11月15日哔哩哔哩视频网站影视区所有视频信息的数据,将所有视频的播放量绘制成直方图(见图1.5.6),发现其呈现出了极端长尾的分布形状,绝大多数视频的播放量都集中在50万以内,大于100万播放量的视频占比非常少。由于数量太过悬殊,直方图右边部分的柱子几乎扁得成为了一根线。这显然不是一个对称的分布,而是概率密度随取值增大而递减的、极端长尾的分布。 图1.5.6:视频播放量直方图
案例7:商品在架时长。 你是否有过这种经历?上周还在超市看到的产品,这周已经在货架上找不到了;或是很长一段时间后再去超市,发现超市货架上的商品已经完全换了一轮。超市有专门的人员管理商品的上架与下架,商品的热销程度、与品牌签订的销售合同等因素或许都会影响商品的在架时长。我们在此并不深入讨论到底是哪些因素影响了商品的在架时长,这里只是单纯地观察一下商品在架时长的分布。我们收集了从2010年7月到2013年12月国内某大型连锁超市所有在售的洗发水数据,我们选取其中已经下架的商品,然后统计它们的在架时长,绘制直方图,如图1.5.7。可以发现,这个分布不对称,大部分商品都不能在架上久留,并且商品的占比随在架时长的增加大致呈递减的趋势。 图1.5.7:商品在架时长直方图
以上这些案例说明现实中很多数据的分布都是不对称的,且它们有一个共同点:取值范围是正数,呈现偏态,大部分的样本取值较小,只有少部分样本取值很大。为什么这样的现象会频繁出现呢?其实,前人的“二八定律”已经总结了这个规律。“二八定律”是帕累托提出的关于社会财富分配的研究结论:“20%”的人占有了“80%”的社会财富。请注意,这里的20%和80%不是绝对准确的数字,只是表达了一个典型的数据特征:少数人占据了多数财富,非常不对称。那么,有没有一种分布适合刻画这样的不对称情况呢?这样的分布应该能够保证随机变量是正的、偏态的、长尾的、概率密度随着随机变量取值的增大而减小的。指数分布就是这样的分布。接下来,我们将详细学习指数分布的数学性质。下面给出指数分布的概率密度函数:其中, 。根据函数表达式可以发现,指数分布要求随机变量取值大于0,并且只有一个参数 。确定了 ,便可以确定唯一的指数分布。再考察它的单调性,可以发现, 随着 的增大而减小。以 取0.5,1,2为例画出其概率密度曲线,如图1.5.8所示,从而对指数分布有一个更直观的认识。可以看到,曲线的趋势与前文案例的直方图是非常相似的, 随着 的递增呈指数型递减,且 越小,前期递减的速度越快。如果我们用指数分布来刻画前面案例中的企业生存期,那么生存期 越大,概率密度 越小,也就是说,越长的生存期有着越小的可能性。对于初创企业,创业者和投资人都非常关心的一点是:这个企业生存超过五年,十年,或某个时间 年的概率有多大?这只需要对概率密度函数进行积分就可以了: 。发现了吗?积分结果的形式竟然如此简洁明了!因为这个积分经常被计算,是人们非常关心的一个量,所以它被定义为了一个函数,叫做生存函数,通常用符号 表示。生存函数的含义是生存期大于 年的概率。
图1.5.8:指数分布的概率密度曲线
有了生存函数的帮助,我们可以对初创企业做进一步分析。具体而言,假设有一家已经创立了 年的企业,我们想知道它继续生存超过 年的概率,要怎么计算呢?可以计算如下条件概率: 结果有些出人意料:这与 竟然是相等的!这意味着,企业再多活几年的概率,与企业现在的“年龄”是无关的。企业以前所经历的生生死死都被这个概率分布忘了个精光,而对未来没有任何影响。这是指数分布所特有的一个非常奇妙的性质:无记忆性。该特征在实际数据中有时看起来有一定的合理性,但是更多时候与实际情况相差巨大。但是,这并不太影响指数分布之于实际数据分析的有用性。毕竟,没有任何概率模型之于某一个特定的实际数据而言,是完美的。回到企业生存的例子上,除了企业生存超过某年的概率,创业者和投资人也一定非常关心企业的期望生存期有多长?为此我们可以考察指数分布的一阶矩,也就是期望: 它的形式非常简单,正好等于指数分布的参数 。 时,一阶矩一定是存在的。 越大,会有越大的期望。这与前面基于图1.5.8的直观认识是相符的, 越大,概率密度曲线在前期下降得越慢,因而期望就越大。除了知道企业的期望生存期,创业者和投资人应该也很关心企业生存期的稳定性如何。那么我们可以考察指数分布的二阶矩,计算其方差: 这个形式也非常简洁,是参数 的平方。 时,指数分布的方差一定存在。参数 越大,方差越大。通过对均值和方差的计算,我们发现了一个非常有趣的规律:对于指数分布而言,其方差是均值的平方。或者说,它的均值和标准差是相等的。这说明,对于服从指数分布的随机变量而言,其方差会随着均值的增加而增加。前面提到,指数分布作为一个概率模型,对实际数据而言不可能是完美的,但是可能是非常有用的。请问:有什么用处呢?下面以车险索赔额的案例为例,给大家做一个具体展示。我们使用的是某公司2004和2005年的67,856份车险保单的索赔额数据。在R语言中加载insuranceData包,然后使用命令data(dataCar)便可以获取该数据。我们选出其中出险了一次的4333张保单,然后观察这些保单的索赔额分布。这里每一个样本代表一次出险的索赔额(单位:美元),用 表示。因为 ,我们便可以用样本均值对 进行估计,计算可得该估计量为 。然后,我们可以形成一个参数为 的指数分布的概率密度估计,并与原始数据的直方图放在一起形成一个有趣的对比,如图1.5.9所示。 图1.5.9:车险索赔额直方图及指数分布
从图中可以看到:(1)拟合的指数分布的曲线大致刻画了车险索赔额的分布;(2)但是,刻画得不完美,问题出在:随着索赔额的增加,指数分布概率密度的下降速度比实际数据要缓慢。假设我们可以接受这样一个拟合结果,那么我们可以对索赔额的生存函数做出一个完整的测算,并且和基于数据得到的经验生存曲线进行对比,如图1.5.10所示。在现在的语境下,生存函数的含义是索赔额超过某个值的概率。从中可以看到,用指数分布估算,索赔额超过2000美元的概率大概为0.35,索赔额超过6000美元的概率大概为0.05,索赔额超过10000美元的概率大概为0.006。 图1.5.10:经验生存曲线和指数分布的生存曲线图
前面提到,用指数分布描述索赔额数据,其拟合结果并不令人非常满意。这种不满意是非常可预期的。实际数据的分布情况千奇百怪,而指数分布只有一个尺度参数λ,因此其分布形状的灵活性很差。有没有什么办法让这个灵活性稍微好一点呢?但是同时又不失去一些最重要的基本特征:高度右偏的分布形状。对此,法国数学家Fréchet于1927年提出了威布尔(Weibull)分布。请注意,威布尔分布虽然以瑞典数学家威布尔的名字命名,但并不是由威布尔提出的,只是因为威布尔于1951第一次详细地阐释了这种分布。威布尔分布的基本改进思想如下。我们从指数分布的生存函数出发,其数学形式为 ,而威布尔分布对此作出一个小小的改变,假设 。跟指数分布对比发现,威布尔分布多了一个形状参数 ,因此可以对实际数据的拟合优度获得一定改善。至于改善程度有多大?这个无法获得一个一般化的结论,因为会随着数据的不同而不同。但是,这不妨碍我们先对威布尔分布做一些理论研究。例如,通过对生存函数求导数,并求负数,可以获得威布尔分布的密度函数如下: 然后可以计算其均值为 ,方差为 。当已知均值和方差后,可以反向求解得到 和 。这里 和 没有显式解,但我们可以利用R等计算机软件求得近似解。这就为我们提供了一个非常简单的参数估计方法。后面的进一步理论学习会告诉大家,这就是一个常见的构造估计量的方法:矩估计。矩估计的优点就是:相对简单。但是缺点也很明显:常常不是最优的。对于这个问题的深入讨论属于高等数理统计学的范畴,这里就不再赘述。有兴趣的朋友可以持续关注。再次回到咱们的案例,前面看到简单的指数分布并不能提供非常令人满意的拟合结果,那么威布尔分布呢?为此,我们利用R语言求近似解得到威布尔分布的两个参数估计量如下: , 。请注意,由于这里只能求得近似解,因此将 和 代回均值和方差公式得到的计算结果,与样本均值和方差是有一定差距的。接下来,基于估计的 和 的取值,形成对威布尔分布概率密度的估计,与实际数据的直方图,以及之前得到的指数分布的概率密度估计放在一起,如图1.5.11所示。从中可以看到,威布尔分布对数据的拟合优度得到了明显的提高(虽然仍然不尽完美)。 图1.5.11:车险索赔额直方图及两种分布
基于威布尔分布,我们对车险索赔额的生存函数再次做出估计测算,并与之前基于指数分布的生存函数估计形成对比,如图1.5.12所示。威布尔分布中索赔额超过2000美元的概率大约为0.32,比指数分布估计出的概率0.35要小;威布尔分布中索赔额超过6000美元的概率大约为0.10,比指数分布估计出的概率0.05要大;威布尔分布中索赔额超过10000美元的概率大约为0.04,比指数分布估计出的概率0.006要大很多。实际数据中超过10000美元的比例为0.03,与威布尔分布的结果更接近。从图1.5.12可以看到,相比于指数分布,威布尔分布对真实数据的经验生存曲线的逼近效果要更好,尤其在索赔额 大于12000时,威布尔分布的曲线和经验生存曲线非常贴近。通过图像还可以发现一个规律:在 较小时,指数分布的生存函数大于威布尔分布的生存函数,在 大于两条曲线的交点后(大概2500美元左右),则变成了威布尔分布的生存函数大于指数分布的生存函数。当然,这仅是在本例中拟合出的两个分布呈现的规律,并不是必然。 图1.5.12:指数分布、威布尔分布和经验生存曲线
通过本节内容,同学们首先了解了现实生活中的非对称的数据案例,然后学习了非对称的分布之一,指数分布的概率表达、数学性质和生存函数,在此过程中发现了指数分布的无记忆性。最后,在对车险索赔额的案例分析中,本书引入了指数分布的拓展——威布尔分布,并对比了二者在拟合实际数据时的效果。再回顾一下前面的小节,我们还学习了正态分布和t-分布。截至目前,我们所学的都是连续分布,那有没有离散的分布呢?当然是有的,现实中充满了离散型数据,自然需要离散分布来刻画它们。下一节,我们就将学习一种十分常见的离散分布——0-1分布。- END -