河南南阳收割机被堵事件:官员缺德,祸患无穷

极目新闻领导公开“记者毕节采访被打”细节:他们打人后擦去指纹

突发!员工跳楼!只拿低保工资!央企设计院集体罢工!

退休后的温家宝

突发!北京某院集体罢工!

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

统计学基础:一文搞懂“正态分布”

Yun 数据言语 2023-01-19
“正态分布”又名“高斯分布”,是统计学中非常重要的概念,也是从事数据分析的小伙伴们必知必会的知识。
(1)什么是正态分布?
先来看一下百度百科的解释:

随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2),其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

正态分布的函数公式为:


有些深奥,我来翻译一下:如果数据的分布中间高&两端低&左右对称,则数据就服从正态分布,曲线如下:

从百度百科的解释来看,正态分布有2个参数:① μ-平均值决定了图像的位置(对称轴);②σ标准差决定了图像的高瘦矮胖。σ越小,图像越高瘦-分布越集中,σ越大,图像越矮胖-分布越散,如图:


(2)正态分布有什么应用价值?
“正态分布”在数学、物理、医学和工程等领域都非常重要,在统计学的许多方面有着重大的影响力,包含但不限以下应用价值:
①估计频数分布:一个服从正态分布的变量,只要知道了均值和标准差就可以根据公式估计任意取值范围内的频数比例。
补充知识:频数:将全部的数据分成几组后,各组数据的个数叫这组数据的频数。
②判断异常值:通过3σ法则,可以判断哪些是异常值。比如医学应用上,抽血后化验单上每一个指标都有一个参考值范围,超出范围的作为异常值进行辅助诊断病情。
③是许多统计方法的理论基础,比如检验,方差分析和回归分析等。
(3)什么样的数据服从正态分布?
如果一个事物由很多原因造成的,并且没有一个主要原因,那大概率成正态分布,比如人类的身高,成年人的血压,测量误差等,“正态分布”在生产生活中经常出现。
(4)如何判断一组数据服从正态分布?
方法1-图形检验:将数据进行直方图or密度图可视化,看一下分布符不符合定义。
方法2-量化检验:大样本用 KS检验和小样本用SW检验。
以 “KS检验”来简单举个例子:
#导入scipy模块import numpy as npfrom scipy import stats
"""kstest方法:KS检验,参数分别是:待检验的数据,检验方法(这里设置成norm正态分布),均值与标准差结果返回两个值:statistic → D值,pvalue → P值K-S检验的原假设是“样本数据来自的分布与正态分布无显著差异”,如果P>0.05则接受原假设(是正态分布),如果p<0.05拒绝原假设(不是正态分布)。"""s=[7,3,9,8,9,3,7,0,5,0,2,3,7,6,6,6,5,1,20,1,2,8,8,2,0,10,8,0,8,10,3,9,10,3,25,0,1,2,4,0,8,8,7,8,4,3,8,1,0,8,4,6,9,2,9,6,4,2,2,5,3,3,9,2,4,3,4,0,1,8,5,9,8,4,4,4,10,1,2,2,5,0,3,7,3,7,6,7,7,7,3,6,5,7,5,7,3,2,8,7,4,6,2,9,6,4,0,2,6,1,7,9,7,7,6,2,5,1,7,9,0,7,9,9,4,9,1,4,3,1,3,7,3,6,4,6,4,1,2,9,5,1,3,2,4,7,8,7,2,3,4]u = np.mean(s) # 计算均值std = np.std(s) # 计算标准差stats.kstest(s, 'norm', (u, std))
运行结果:
KstestResult(statistic=0.10762299873813391,pvalue=0.05609674858544922)
p>0.05,判定95%置信下数据服从正态分布
然后咱们再看一下这组数据的分布:
import seaborn as snssns.distplot(s)
运行结果如下:

嗯,也算有正态分布那么点意思。

(5)重要概念介绍
① z分数离均值有多少个标准差远,可正可负向。z分数可以用在非正态分布数据上(和数据是什么分布无关)。计算公式=(数值-平均值)/标准差
②正态分布-经验法则(3-sigma法则,68-95-99.7原则)
  • 含义:经验法则是在正态分布中表示68.2%的数值位于离平均值1个标准差的范围内;95.4%的数值位于离平均值2个标准差的范围内;99.7%的数值位于离平均值3个标准差的范围内。

  • 用途:用于对已知平均数和标准差的正态分布数据进行快速推算。
  • 前提:数据必须服从正态分布
还有一个和正态分布相关&非常重要的概念“中心极限定理”,后续再单独介绍。

文章有问题?点此查看未经处理的缓存