统计学基础:一文搞懂“正态分布”
若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2),其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
正态分布的函数公式为:
有些深奥,我来翻译一下:如果数据的分布中间高&两端低&左右对称,则数据就服从正态分布,曲线如下:
从百度百科的解释来看,正态分布有2个参数:① μ-平均值决定了图像的位置(对称轴);②σ标准差决定了图像的高瘦矮胖。σ越小,图像越高瘦-分布越集中,σ越大,图像越矮胖-分布越散,如图:
补充知识:频数:将全部的数据分成几组后,各组数据的个数叫这组数据的频数。#导入scipy模块import numpy as npfrom scipy import stats
"""kstest方法:KS检验,参数分别是:待检验的数据,检验方法(这里设置成norm正态分布),均值与标准差结果返回两个值:statistic → D值,pvalue → P值K-S检验的原假设是“样本数据来自的分布与正态分布无显著差异”,如果P>0.05则接受原假设(是正态分布),如果p<0.05拒绝原假设(不是正态分布)。"""s=[7,3,9,8,9,3,7,0,5,0,2,3,7,6,6,6,5,1,20,1,2,8,8,2,0,10,8,0,8,10,3,9,10,3,25,0,1,2,4,0,8,8,7,8,4,3,8,1,0,8,4,6,9,2,9,6,4,2,2,5,3,3,9,2,4,3,4,0,1,8,5,9,8,4,4,4,10,1,2,2,5,0,3,7,3,7,6,7,7,7,3,6,5,7,5,7,3,2,8,7,4,6,2,9,6,4,0,2,6,1,7,9,7,7,6,2,5,1,7,9,0,7,9,9,4,9,1,4,3,1,3,7,3,6,4,6,4,1,2,9,5,1,3,2,4,7,8,7,2,3,4]u = np.mean(s) # 计算均值std = np.std(s) # 计算标准差stats.kstest(s, 'norm', (u, std))import seaborn as snssns.distplot(s)嗯,也算有正态分布那么点意思。
含义:经验法则是在正态分布中表示68.2%的数值位于离平均值1个标准差的范围内;95.4%的数值位于离平均值2个标准差的范围内;99.7%的数值位于离平均值3个标准差的范围内。 用途:用于对已知平均数和标准差的正态分布数据进行快速推算。 前提:数据必须服从正态分布。