为什么宇宙自然的规律就是:一头富有,一头贫穷,而普通人在中间?
大家好,我是科学羊🐑,这里是数学专栏概率论第3季第6篇。
在探索统计学的奥秘时,我们遇到了两种分布模型:泊松分布和高斯分布,它们各自揭示了小概率事件和大概率事件的统计规律。
泊松分布帮助我们理解了稀有事件的出现概率,而今天,我们将聚焦于高斯分布,或者说,正态分布,它是理解大概率事件的钥匙。
中间大,两头小的分布称为正态分布图(高斯分布)
正态分布,有时被称为高斯分布,是一种在自然科学和社会科学领域极为重要的统计分布。
当一个事件发生的概率非常高,接近于1/2的时候,尤其是当我们进行大量重复实验时,结果的分布会呈现一个典型的钟形曲线,即正态分布(Normal distribution),其拉丁文的原意是“正常的分布”。
为什么这么起名?
因为它和我们日常看到的情况比较符合:
比如,一个班上,成绩突出和特别差的。
一个社会,特别富,和特别穷的!
其数学原理是:回到二项分布,假定事件A发生的概率正好是1/2,经过n次试验后它发生k次,我们将它的概率分布画出来就是上面这个图式结构。
当然,这种分布的形状,被数学家棣莫弗和拉普拉斯首次描述,并称之为正态分布。
然而,是高斯通过他对这一分布误差分析的深入,使得这一分布以他的名字命名,展示了科学发现归功于“最后一位发明者”的趣事。
这里补充点:吴军老师在《科技史纲》里面讲过,发明和发现的荣誉常常授予最后一位发明者或发现者,高斯分布也是如此,虽然刚开始并不是高斯发现的,但这个发现是高斯画上了句号。
高斯分布的美在于它使用均值(平均值)和标准差(或方差)这两个参数来描述数据的分布特性,这不仅使得正态分布在理论上具有普遍意义,而且在实际应用中也极为重要。
高斯分布是如何定义的?
比如,n次抛硬币,平均n/2次正面朝上,它的标准差是σ,那么正面朝上的试验结果超过n/2-σ,同时小于等于n/2次的概率就是图中左边第一区域的面积,即34.1%
同样正面朝上试验结果超过n/2次,小于等于n/2+σ次的概率也是34.1%。
那么,正面朝上的总概率就是[n/2-2σ,n/2-σ] 这个区间,即13.6%。
所以最后根据,随机变量X的概率分布和平均值μ,方差σ^2联系起来,就是如今的正态分布表达式:
例如,在评价学生的考试成绩分布时,我们可以使用正态分布来比较不同班级的成绩。即使两个班级的平均分不同,通过分析它们的分布形状和标准差,我们可以更加精确地判断哪个班级的成绩更为优秀。
一班的考试成绩在60~100分之间变化,均值(平均分)为80分。
二班的成绩在70~100分之间变化,均值为85分。
那我们能说二班比一班成绩好吗?
其实这个问题没有那么简单。
我们根据图形来分析:
上图左边标注了80的曲线是一班的,右边标注了85的曲线是二班的。
从这两条曲线可以看出,一班的成绩有一个很小的可能性超过90分。如果一班真实的平均分应该是90分,而二班依然是85分,我们得说一班反而比二班强了。只不过,这种情况的可能性并不大。
这个可能性可以用蓝色画在了图中。同理,二班虽然平均分为85分,但是也存在一个小概率的可能性,它的平均分不到75分,这个可能性用绿色在图中画出来了。
这种比较不仅适用于学习成绩,还广泛应用于科学研究、工程技术、甚至是金融投资领域。
例如,在医学研究中,通过增加样本数量,我们可以减小标准差,从而提高研究的置信度。正是这样的方法论,帮助百健公司证明了他们的阿尔茨海默病药物的有效性。
正态分布的另一个重要应用是在投资决策中的风险评估。
通过分析标准普尔500指数的历史数据,我们可以看到股市的波动性非常大,这种波动性即是投资中的风险。因此,仅仅比较投资的平均回报率是不够的,我们还需要考虑到回报的波动性,即标准差,来做出更加合理的投资选择。
总而言之,正态分布不仅是统计学中的一个基本概念,它还深刻地影响着我们对世界的理解和决策。通过学习和应用正态分布,我们可以更加科学地分析数据,做出更加理性的决策。
好,今天就先这样啦!
科学羊🐏 2024/02/28
祝幸福~
参考文献:
[1].《吴军数学通识讲义》
[2]. 图片来自wiki + 得到app
感恩遇见,喜欢的话点个【在看】👍,有你们的支持是我最大的动力!
往期推荐