商务统计学基础 | 第1章:不确定性的数学表达:泊松分布
本节中,我们将继续学习离散型数据分布。当大家阅读这一节的时候会发现,之前我们已经学习了6个小节。事实上,“6个小节”的表述体现的就是本节即将讨论的“计数型数据”。计数型数据,顾名思义,就是在计数过程中产生的数据。大家小时候可能都听过一首儿歌:“门前大桥下,游过一群鸭,快来快来数一数,二四六七八。”这里的“二四六七八”是如何产生的呢?答:数数产生的。当夜深人静失眠的时候,你是否有过数羊的经历?“一只羊、二只羊、三只羊、好多好多只羊......”,请问你在做什么?答:数数。而数数产生了计数型数据。作为一种离散型数据,计数型数据的取值一定是离散的。比如,数鸭子的过程不可能产生1.5只的结果。但是,计数型数据同离散的定性数据(例如:不同品牌)又有所不同。计数型数据虽然是离散的,但是是有数量意义的。例如:一只鸭子加上两只鸭子等于三只鸭子。你看,计数型数据是可以做基本的加法运算的。但是,不同的品牌是无法随意相加的。例如:可口可乐(这个品牌)加上王老吉(这也是一个品牌)等于什么?显然这是毫无意义的。计数型数据在我们的实际生活中随处可见,而且常常会涉及到很多重要的场景,描述着这些场景中的不确定性。
案例一:消费者周购买次数。 现代的线下零售业都朝着智慧零售的方向不断发展,而基于数据的运营管理是智慧零售的核心内容之一。为此,各种各样的消费者数据都被自动化的系统忠实记录了下来。从数据中,管理者可以窥探某商品在一定时间内(例如:一周内)被消费者购买了几次;还可以跟踪某消费者在一定时间内(例如:一个月内)光顾超市多少次;还可以记录某消费者在某一次特定的购买行为中,涉及到多少不同的品类,同一个品类涉及到多少个不同的品牌。你看,这都是什么数据类型?答:都是计数型数据。也就是说本质上都是在数数。有了这样的数据,我们就可以研究很多重要的超市运营管理问题。例如:具备不同人口统计学特征(例如:性别、年龄)的消费者,他们的购买行为有何不同?消费者的历史购买记录对于判断他的未来购买次数会有帮助吗?超市的促销政策会有影响吗?等等。
案例二:病人肺部结节个数。 我国是一个肺病大国。根据国家癌症中心的相关统计数据显示,2015年我国新增78.7万例肺癌患者,肺癌位居我国恶性肿瘤发病率和病死率首位。然而,仅有不足20%的肺癌患者可于早期被发现,而晚期肺癌患者术后的5年生存率会从早期的70%降低至16%。因此提高肺癌生存率最有效的方法是早发现、早诊断和早治疗。正因如此,胸片甚至胸部CT进入了大家的体检套餐。这个体检项目的一个重要任务就是检测肺部是否有值得关注的结节。什么是结节?结节就是在影像学上表现为直径≤3 cm 的局灶性、类圆形、密度增高的实性或亚实性肺部阴影,恶性的肺部结节就很可能发展为肺癌。因此,肺部结节的个数是一个重要的临床指标,对于肺癌的早发现具有重要的临床意义。而这又是一个什么样的数据类型呢?答:计数型。当医生面对众多病人的时候,会发现肺部结节的数目有着很大的不确定性。绝大多数人是0,有人1个,有人2个,有人多个。有了这样的数据,我们就可以研究很多重要的医学问题。例如:结节个数会如何影响后期的癌症发展?如果结节对癌症影响巨大,那么又是什么因素在影响着结节的发展?吸烟影响吗?喝酒影响吗?工作类型影响吗?年龄影响吗?
案例三:孩子个数。 我国是一个人口大国。2021中国统计年鉴显示,我国人口总数已经从建国初期的5.4亿增长到2020年末的14.1亿。伴随该成长过程的是我国生育政策的多次重大变化和调整。在建国初期,我国对生育是没有任何限制性政策的。从1978年开始,我国开始执行计划生育政策,将计划生育写入宪法。2013年我国启动实施“一方是独生子女的父母可生育两个孩子”的政策,2015年10月,我国全面实施一对父母可生育两个孩子的政策。直到2021年8月,我国通过修改人口计生法,允许一对夫妻生育三个子女。那么育龄夫妇会做出什么样的选择呢?他们会选择做丁克家族(生育0个孩子),还是习惯成自然地保持独生子女传统(生育1个孩子),或是响应国家号召(生育2个孩子或者更多)?这里有很大的不确定性,这种不确定性通过一个计数型数据(生育孩子个数)记录了下来。有了这样的数据,我们就可以研究很多人口相关的社会科学问题。例如:家庭的经济状况会如何影响生育选择?家庭的教育程度会如何影响?夫妻的年龄情况?等等。
案例四:微博用户单日博文数量。 微博是中文世界最大的网络论坛之一,它不仅仅是几亿用户分享心情和生活的平台,也是各大机构实体和民众的沟通平台。微博的一个重要的运营目标就是要保持甚至提高整个平台的活跃程度。而用户活跃的一个最基本表现就是:博文发表。这是几亿用户在微博这个重要平台上表达个人生活感受的最基本方式之一。对于每个用户而言,每天到底发了几条博文,这也是一个典型的计数数据。不同微博用户有着不同的使用习惯,有的人表达欲旺盛,一天可以发十几条博文;有的人喜欢潜水,一周都不见得发一条博文。因此,对于不同的用户,每天会发表多少条博文,具有很大的不确定性。有了博文发表数目这个典型的计数型数据后,我们就可以研究微博平台的很多运营问题。例如:什么样的因素会影响用户的单日发微博数量?微博界面设计影响吗?用户的粉丝数影响吗?用户是否实名认证影响吗?等等
案例五:论文发表篇数。 我国是一个非常重视教育、重视科学研究的国家。在过去的几十年里,我们国家的科学研究水平在各个领域都得到了长足的发展。根据中华人民共和国科技部统计,我国每年发表SCI论文数目从2000年的3.1万篇增加到2019年的49.6万篇。这些论文中的绝大部分,都是每一个科研人员辛苦努力的成果结晶。显然,不同的科研工作者,在某一个特定的年度(例如:2021年),能发表多少篇论文,这是一个典型的计数型数据。这些数据在很大程度上记录了一个学者的成长历程,对个人的职业成长影响很大。但是,这么重要的数据具有很大的不确定性。不同的学科发表数目不同,同一个学科不同学者发表数目不同,同一个学者不同年份各不相同,同一个年份不同杂志也不相同。这背后有没有系统性的规律可以预测?这就依赖于我们对于论文发表篇数这个计数型数据的理解程度了。有了这个数据,我们就可以研究很多科研产出问题。例如:学者在某学科发表的论文数量是否受到政策对学科倾向的影响?实验室规模有影响吗?不同学科论文数量对实验室条件的依赖程度是否有所不同?等等。
通过上面的案例希望大家体会到,日常生活中其实隐藏着非常多的计数型数据,这些计数型数据在或大或小、从生活到工作的方方面面都被关注、收集和分析着。这些丰富多彩的计数型数据,描述着这个世界不同的不确定性现象,那么我们如何从数学上描述它呢?我们希望有一个概率模型,能够很好的描述计数型数据。请问:这样的概率模型存在吗?我们曾经见过吗?答案是肯定的。就在前一节,我们学习了0-1分布,并进而引申出二项式分布。你看,二项式分布就是一个用于描述计数型数据的概率分布。它所对应的模型就是在数随机抛洒的硬币正面朝上的个数。因此,这是一个天然的、面向计数型数据的概率模型。那么我们是否就可以到此为止了呢?答案是否定的。很遗憾,我们并不是非常喜欢用二项式分布来描述前面提到的各种计数型数据。原因很简单,二项式分布所产生的随机数取值有一个天然的上界。例如,一个人随机抛硬币5次,那么正面朝上的次数一定不会超过5。如果用这样的概率分布去描述一个家庭中生养孩子的个数,是非常不合适的。因为,虽然绝大多数家庭中孩子的个数不会超过5,但是超过5这种可能性是存在的。从数学上讲,一个家庭中出现孩子的个数超过5的可能性非常小,但并不为0。而二项式分布没法以一种非常简单优美的方式达成这个目标,因此我们必须求助另外的计数型概率分布。我们接下来要重点学习的泊松分布就是其中的佼佼者。
泊松分布名称中的“泊松”指的是法国数学家西莫恩·德尼·泊松(Simeon-Denis Poisson 1781~1840)。他于1837年在《关于刑事案件和民事案件审判概率的研究》中第一次引入了这种分布类型,据此对法国法院的错误定罪数量进行了研究。一段时间内法院的错误定罪数量无疑也是一种计数型数据,对它的研究又有怎样的结论呢?泊松发现,如果要让陪审团做出公正的裁决,那么一定需要多数成员都投赞成票,例如在12人的陪审团中赞成票就至少需要为7票。也许在现代看来,这样的结论确实非常朴实和自然,但想要为之建立坚实的概率基础也是不容易的。下面我们给出泊松分布的概率分布列表达式:
直观来看,这一表达式似乎并不美观,指数、阶乘和自然常数都混在一个公式中。但是,当面对更加复杂的科学计算问题的时候,我们常常发现泊松分布的数学性质是非常优美的。例如,它的均值可以通过以下无穷级数计算出来:上面的计算结果表明,泊松分布的均值就是参数,实在是简洁和优美。这使得通过样本数据均值去估计参数λ的过程变得非常直接。根据概率的基本性质,,而,因此我们可以得到的重要结论。上面均值计算公式的最后一步中就需要用到这一结论,同时这也是计算泊松分布方差的核心技巧。我们计算泊松分布的方差如下:我们惊奇地发现:泊松分布的方差(不是标准差)与均值是完全相同的。这是一个优美的数学性质,但是实际数据却往往不是这样的。这也再次说明,所有的统计模型都是对实际数据的一个近似,不可能是完美的。
此外,泊松分布还有一个非常优美的性质:独立可加性。简单地说,假设有两个独立的泊松随机变量和,他们的均值分别是和,那么请问:服从什么分布呢?答:还是泊松分布,而且是一个均值为的泊松分布。但是请注意,这样优美的性质只适合两个独立的泊松随机变量的简单相加。任何小小的偏移都会破坏这个性质。例如:如果和是相关的,结果如何?答:不知道,这要依赖于和是如何相关的,它们的相关性机制是什么。是否服从泊松分布呢?答:不是的,因为只能取偶数,不能取奇数,因此不是泊松分布。如果不是,那么也不是,哪怕和是互相独立的。再进一步,更不可能是泊松分布的随机变量,因为这会产生小数,而任何泊松分布都不会产生小数。但是,如果这里的和是独立的正态随机变量,你会发现,它们的任意线性组合都仍然服从正态分布。因此,正态分布的理论性质更加优美。泊松分布有什么实际应用呢?考虑一个简单的例子。我们通过R语言pscl包,获得了其中的bioChemists数据集。该数据包含915条观测,每一条观测是一位生物化学专业博士生在后3年中发表的论文数量,而这是一个典型的计数型数据,其分布直方图如图1.6.1所示。从中可以看到,发表论文数为0的人数最多,只有极少数博士生能发表9篇论文以上,并且随着论文数量递增,对应博士生人数递减。
从图中可以看到,使用泊松分布估计出的概率和样本数据频率相比有如下特点:第一、整体分布基本吻合。整体趋势大致是,取值小的概率(或者频率)更高,取值更高的概率(或者频率)趋向于更低。第二、少数取值处不尽如人意。主要的不满意之处在于实际数据(红色)出现0的比率要明显高于泊松分布(蓝色)的估计结果。我们会在后面对这个问题作进一步讨论。假设我们暂时接受这个结果,在此基础上可以研究一个有趣的实际问题。目前国内各个高校都非常关注学术发表。很多学校在对博士生的毕业要求中,都明确提到必须发表多少文章。对于一个高校而言,这是一个重要的科研政策。我们可以用泊松分布对该政策可能产生的后果做一个预测性评估。以本案例所呈现的数据为例,假设这群博士生所在的学校对博士生的毕业要求为:需要至少发表两篇论文。那么这些博士生能够成功毕业的概率有多少呢?以及按此概率,915名博士生中预期能有多少名成功毕业?对于这两个问题就可以利用泊松分布的概率密度函数来回答。计算过程为:
结果表明,该校生物化学专业博士生能预期毕业的概率为0.505。相应地,这915名博士生中能成功毕业的数量预估为462名。同理,假设学校的要求是必须发表一篇论文,那么这些博士能够顺利毕业的概率为0.816,能成功毕业的数量预估为747名。
我们再次回到图1.6.2,可以看到一个潜在的问题,那就是实际数据在点的分布比例情况与泊松分布预测的情况差距巨大。具体而言,实际数据表明发表文章篇数为0的博士生比率为30.1%,而模型预测为18.4%。这说明一个标准的泊松分布难以充分表达这个特征,请问如何改进?在正式回答这个问题前,我们先考虑一个类似的虚构案例。假设,这里的不是博士生发表的论文数据,而是有一只可爱的小猫,一早出门钓鱼,晚上回家向老猫交作业,老猫会数一下:你努力一天钓到几条鱼?可能是条,也可能是条,也可能更多,这是一个典型的计数型数据。老猫每天记录了小猫的钓鱼数目,并尝试通过泊松分布来拟合。结果老猫发现一个异常:小猫出现的概率远远超出预期。老猫开始思考:这是为什么呢?老猫认为,小猫钓不到鱼有两个可能。一个可能是小猫认真努力钓鱼了,但是运气不好,因此没有钓到鱼,所以。还有一个可能性是,小猫抓蝴蝶去了,压根没有钓鱼,因此造成了的比率过高。其实博士生发表论文的数目也是服从类似规律的。一个博士生发表的论文数目为0,有两个可能的原因。第一个原因:投出去很多文章,但是运气不好,都被学术期刊拒绝,这是一个很常见的随机现象。第二个原因:研究不顺利,根本就没有文章可以投出去,那当然不可能有任何发表。因此,的比例过高,有可能是这个原因造成的。或者,谨慎地说,这至少应该是一个重要原因。回到老猫的故事,如果老猫的猜测是有道理的,那么这个过程可以通过一个改进后的泊松概率模型来描述。具体而言,老猫假设小猫有一定的概率认真钓鱼,以剩下的概率去抓蝴蝶。如果小猫去抓蝴蝶,那么只可能。除此以外,如果小猫认真钓鱼,那么产生X的规律服从泊松分布。具体而言,数据上可以表达为:这个改进后的模型让的概率得到了一定的放大(或者膨胀)。因此,这个模型也被称为带有零膨胀的泊松分布(Zero-inflated Poisson Distribution),简称ZIP分布或者ZIP模型。在该模型下,我们可以简单验证一下:,因此这个概率值要比一般的泊松回归模型的测算结果要大。在此模型的支持下,可以计算得到:可以看到,相较于普通的泊松分布而言,ZIP分布的均值和方差比较复杂,同时也包含两个未知的参数和。对于这两个未知的参数和如何进行估计呢?这里我们使用极大似然估计的方法。对极大似然估计的具体过程我们将在下一章统一介绍。通过极大似然估计,可以得到ZIP分布的两个参数的估计值为:和。由此我们可以再次对比样本数据分布和ZIP分布,绘制柱状图如1.6.3所示。泊松分布作为一个离散分布,与另外一个连续分布有着密切的联系。这个连续分布就是前面学到的指数分布。它们之间的联系非常密切,而且数学上非常优美。要理解它们之间的美妙关系,可以考虑一个重要的应用场景:排队问题。日常生活中我们每天都在排队,用餐高峰期去餐厅吃饭需要排队等位,去银行取钱需要排队等待。我们在浏览网页的时候,对方服务器也在根据所有请求到来的顺序排序,逐个处理。在运营高峰期的时候,也会出现网页加载等待时间过长的情况,这时候其实我们也在排一个无形的队,等待服务器接受请求。以餐厅为例,从餐厅的角度考虑,他们非常关注单位时间内客户的到达数目,这是一个典型的计数数据。这是该问题的一种表达方式。另外一种完全等价的表达方式是:相邻两个客户之间的时间间隔有多大?这是一个典型的连续数据。如果时间间隔(连续型数据)越小,那么单位时间内的客户数目(计数型数据)就越多,反之亦然。由此可见,连续型数据的时间间隔和计数型数据的客户数目是同一个硬币的两面。如果我们能够给出关于客户时间间隔所服从概率分布的一个合理假设,我们应该可以推导出单位时间内到达客户数目所服从的概率分布。那么核心问题是:时间间隔这个连续型数据的概率分布应该如何假设呢?面对实际数据,我们可能有很多种不同的选择。一个可能的选择是:指数分布。选择指数分布的现实原因可能如下:很多实证研究表明,没有什么分布能够对实际数据做出完美的拟合,但是指数分布似乎是一个不错的起点。如果我们再假设不同客户的不同间隔时间是互相独立的。那么,我们就可以通过一系列的数学推导,计算单位时间内到达的客户数所服从的概率分布。巧了!正好是泊松分布。这是一个非常优美的数学结论,其详细的数学推导超出了本书的范畴,有兴趣的读者可以通过学习随机过程或者排队论相关的教材学习这部分经典内容。
最后,想强调一下,泊松分布不是唯一的用于描述计数型数据的概率分布。即使我们再附加一个条件,要求该概率分布没有自然的上界(例如:传统的二项式分布就有自然上界),这样的概率分布也不唯一。例如:超几何分布和负二项式分布就是两个可能的选择。事实上,也有很多研究表明,对于很多实际数据而言,这两个概率分布有着它们自己独特的优势。为了知识的完整性,下面我们就对负二项分布做一个简要的介绍。
为了更好的学习负二项分布,我们需要一个简单有趣的概率模型。假设我是一个工厂的质量监督员。我的质检工作就是对一条流水线上生产的源源不断的(数学上假设无穷)产品进行质量检验。检查的结果为一个0-1型数据,即“合格”或者“不合格”。显然,没有任何生产线是不生产次品的,无非是次品率高或者低。假设这个生产线的次品率是,那么请问:作为质检员的我,要辛苦检查多少件产品,才能够刚好检查出件次品?这里的“刚好”指的是,最后一次检查的产品正好就是第件次品。假设刚好检查出件次品时,我已经检查了个产品。那么,最后检查的一个产品(第个产品)一定是次品。而剩下的件次品,就发生在前面的个检测中。用表示刚好检查到件次品时检查的产品总数。那么可以计算发生该现象的概率为:显然必须大于等于。如果我们重新定义一个变量。那么这个新定义的随机变量就可以用于描述计数型数据,其最小值为0,没有自然上界。理论上可以验证:对于一个实际数据而言,到底是用泊松分布好,还是负二项分布好,或者其他某种分布更好?很遗憾这里没有一个简单统一的答案。但是,可以确定的是,没有任何分布能够对实际情况作出完美的拟合。我们能够做到的是:在所有可能的概率模型中,寻找效果最好的。这样的解决方案看似有点无奈,但是它比没有概率模型时,人们主要靠主观经验所作出的决策判断,要好很多很多。
最后总结一下,本节介绍了一种常见的数据类型:计数型数据,然后探讨了适合描述计数型数据的概率分布,并对:二项式分布、泊松分布、零膨胀泊松分布、负二项式分布做了讨论。其中的重点是:泊松分布与负二项式分布。到此为止,我们就对几个常见的,也可能是最重要的概率分布(连续型和离散型)做了系统介绍。本章的学习也就到此结束。下一章,我们将进入一个更加有趣的新领域:参数估计。
- END -京东购书
当当购书
往期推荐