【数据挖掘建模】之常见概率分布总结
1、伯努利分布
伯努利分布又称为0--1分布,如果随机变量X只取0和1两个值,并且相应的概率为:P(x=1)=p,P(x=0)=1-p,且0<p<1,则称随机变量X服从参数为p的伯努利分布。
令q=1-p,X服从参数为p的伯努利分布,则对应的期望和方差如下:
常见的抛硬币实验就是n重伯努利试验,其参数p=1/2。(注意:其中0和1分别表示反面和正面,或者不发生和发生)
2、二项分布
设X表示在重复n次的伯努利试验中出现的次数,即X是可以取0,1,2,....,n等n+1个值的离散随机变量,其分布就是二项分布。用符号b(x.n.p),表示在n次试验中有x次成功,成功的概率为p,对应概率密度函数如下:
对应的期望 E(x)=np ,方差 Var(x)=npq;
这里只要记住,n重伯努利试验服从二项分布,并且伯努利家族是个学霸家族。
3、泊松分布
Poisson分布,适合于描述单位时间内随机事件发生的次数。泊松分布是最重要的离散分布之一,它多出现在当X表示在一定的时间或空间内出现的事件个数这种场合。泊松分布的概率密度函数如下:
参数λ是单位时间(或单位面积)内随机事件的平均发生率,对应的期望和方差均为λ
泊松分布由二项分布推导而来,当二项分布n很大而p很小时,泊松分布近似二项分布。
推导过程如下:其中λ=np
4、指数分布
指数分布(Exponential distribution)是一种连续概率分布,用来表示独立随机事件发生的时间间隔。
概率密度函数如下:
指数分布的参数为λ,则指数分布的期望为1/λ,方差为(1/λ)*2
这里记住,泊松分布是离散概率分布,描述的是在特定时间段内,事件发生的概率,而指数分布是描述事件的时间间隔的概率,是连续概率分布。
5、正态分布
正态分布又名高斯分布,若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
其概率分布函数如下:
正态分布的重要性再怎么强调都不为过,并且自然界中非常多现象都符合正态分布。机器学习中经常动不动假设误差服从高斯分布(中心极限定理),如果研究专门高斯分布估计可以写好多本书,这里就不赘述。
6、卡方分布
卡方分布,若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和
构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。
卡方分布是由正态分布构造而成的一个新的分布,当自由度V很大时,卡方分布近似正态分布。
卡方分析是用来研究两个定类变量间是否独立即是否存在某种关联性的最常用的方法。
对于调查中得到的两个变量的数据,比较观测频数和期望频数之间的差值,差值越小表示实际情况与原假设越相近。
7、T分布
如果一个随机变量是由一个服从正态分布的随机变量除以一个服从卡方分布的变量组成的,则该变量服从t分布。t分布是正态形态,如果某变量服从正态分布,当样本容量小于30或小于50时,该变量呈t分布。
t分布较正态分布顶部略低而尾部稍高:
8、F分布
F分布是由两个服从卡方分布的随机变量之比构成的,
9、假设检验
假设检验的基本思想就是小概率事件反正法,即在一次实验中小概率事件基本不会发生,反证法通过先提出假设(H0),再通过适当的统计方法确定假设成立的可能性的大小。需要从总体中抽取样本进行检验,包括上述三种卡方检验、T检验、F检验都是常用的几种假设检验方法。
10、参数估计
根据从总体中抽取的样本估计总体分布中包含的未知参数的方法,根据样本数据选择统计量去推断总体的分布或数字特征。在机器学习各种算法公式推导中,经常会用到各种参数估计的方法:最小二乘法、极大似然估计法等。
参数估计与假设检验是统计推断的两个组成部分。它们都是利用样本信息对总体进行某种推断。但推断的角度不同。在参数估计中,总体参数在估计前未知,参数估计是利用样本信息对总体参数作出估计。而假设检验则是先对值提出一个假设,然后根据样本信息检验假设是否成立。
来源|互金风控联盟
作者| Patrick
更多精彩,戳这里:
2018开年大课,阅读原文,即可报名