机器学习 | 朴素贝叶斯理论

Original 云朵君数据STUDIO 2022-04-28

收录于合集 #机器学习 68个

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

朴素贝叶斯法是一种直接衡量标签和特征之间的概率关系的有监督学习算法，是一种专注分类的算法。

朴素贝叶斯法实际上用到生产数据的机制，属于生成模型。

联合概率："X取值为x" 和 "Y取值为y" 两个事件同时发生的概率，表示为
条件概率：在"X取值为x" 的前提下，"Y取值为y" 的概率，表示为
全概率：

朴素贝叶斯法对条件概率分布做了条件独立性的假设。这是一个较强的假设：

条件独立假设是用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单，但有时会牺牲一定的分类准确率。

朴素贝叶斯法分类时，对给定的输入，通过学习到的模型计算后验概率分布，将后验概率最大的类作为的类输出。后验概率计算根据贝叶斯定理进行：

将条件独立性假设以及全概率公式带入上面公式得到朴素贝叶斯分类的基本公式：

于是朴素贝叶斯器可表示为：

因分母中对所有都是相同的，则

朴素贝叶斯法所采用的原理为后验概率最大化准则：

如何得到上面的式子，可能有小伙伴们会有疑虑。下面我们慢慢道来。

对于二分类情况，我们可以有：

该式中分母为为全概率，其计算难度随着特征数目的增多而增大，该如何解决本身是一个难题，所幸的是，我们可以在不计算其真实大小的情况下比较分子大小。下面来看看如何操作。

在分类的时候，我们选择和中较大的一个所对应的的取值，作为这个样本的分类。在比较两个类别的时候，两个概率计算的分母是一致的，因此我们可以不用计算分母，只考虑分子的大小。当我们分别计算出分子的大小之后，就可以通过让两个分子相加，来获得分母的值，以此来避免计算一个样本上所有特征下的概率。这个过程，称之为"最大后验估计"（MAP）。在最大后验估计中，我们只需要求解分子，主要是求解一个样本下每个特征取值下的概率，再求连乘便能够获得相应的概率。

朴素贝叶斯的参数估计

极大似然估计

朴素贝叶斯器中，学习意味着估计和

可以应用极大似然估计计算相应的概率。

先验概率的极大似然估计是

设第个特征可能取值的集合为，条件概率的极大似然估计是

式中，是第个样本的第个特征；是第个特征可能取的第个值；为指示函数。

分类算法

先计算先验概率及条件概率

对于给定的实例，计算

确定实例的类

算法实例

漂亮的南柯一小姐姐已到婚配的年纪，云朵君真是操碎了心，为其物色了一堆相亲对象，经过一轮轮选拔后，最终有两个小哥哥胜利脱颖而出。然后到底选择哪位小哥哥，难住了南柯一。为了帮助有选择困难症的南柯一小姐姐，云朵君抽样调查了15对小情侣，来帮助小姐姐做出最终的决择。

因为在众多评判标准中，南柯一小姐姐最看重的前两项分别为长相与财富值两项指标，为了方便，将长相和财富值分别用和三个等级来表示。标签用 1 为嫁， 0 为不嫁来表示。

编号	长相	财富值
1	1	S	0
2	1	M	0
3	1	M	1
4	1	S	1
5	1	S	0
6	2	S	0
7	2	M	0
8	2	M	1
9	2	L	1
10	2	L	1
11	3	L	1
12	3	M	1
13	3	M	1
14	3	L	1
15	3	L	0

根据算法步骤计算如下

先对于1号小哥哥，长相与财富值评分为

因为所以结果即1号小哥哥很遗憾地被淘汰了。

对于2号小哥哥，长相与财富值评分为

因为所以结果即2号小哥哥也被淘汰了。看来小姐姐要孤独终老了。

贝叶斯估计

用极大似然估计可能会出现所要估计的概率值为0的情况，这会使得分类产生偏差。

因此在随机变量各个取值的频数上赋予一个正数，则条件概率的贝叶斯估计为

当时为极大似然估计
当时为拉普拉斯平滑

先验概率的贝叶斯估计是

朴素贝叶斯对连续变量的概率估计

要处理连续型变量，可以有两种方法。

第一种是把连续型变量分成个箱，把连续型强行变成分类型变量。分箱后，将每个箱中的均值当作一个特征上的取值，然后我们计算箱中所占的比例，就是。这个过程的主要问题是，箱子不能太大也不能太小，如果箱子太大，就失去了分箱的基本意义，如果箱子太小，可能每个箱子里就没有足够的样本来帮助计算，因此必须要适当地衡量分箱效果。

第二种更为常见，可以直接通过概率论中来计算连续型变量的概率分布。在分类型变量的情况中，比如掷骰子的情况，我们有且仅有六种可能的结果1~6，并且每种结果的可能性为1/6。此时每个基本的随机事件发生的概率都是相等的，所以可以使用1/N来表示有N个基本随机事件可以发生的情况。

当特征为连续型时，随机取到某一个事件发生的概率就为0。

而随机到某个区间中事件发生的概率就为

而在概率论中来计算连续型变量的概率分布时，使用的是概率密度曲线（probability density function，PDF），即计算某个区间内事情发生的概率就是计算概率密度曲线某段下的面积。

一条曲线下的面积，就是这条曲线所代表的函数的积分。如果定义曲线可以用函数来表示的话，整条曲线下的面积就是：

其中是在上的微分。在某些特定的下可以证明，上述积分等于1。即总面积是1，这说明一个连续型特征的取值取到某个区间之内的概率就为这个区间上概率密度曲线下的面积，所以我们的特征在区间中取值的概率可以表示为：

可以将常量抵消掉，因此就将求解连续型变量下某个点取值的概率问题，转化成了求解一个函数在点上的取值的问题。

在实际问题中，通常会假设满足高斯分布，伯努利分布或多项式分布等等。这些分布对应着不同的贝叶斯算法，计算不同，但本质都是相同的。每个都对应着一系列需要去估计的参数，因此在贝叶斯中fit过程其实是在估计对应分布的参数，predict过程是在该参数下的分布中去进行概率预测。

总结

分类器特征

一种基于概率统计的分类方法，在条件独立假设的基础上使用贝叶斯定理构建算法，能够通过提供后验概率估计来量化预测中的不确定性的概率分布模型。
把目标类视为能导致数据实例生产的因素，朴素贝叶斯分类器也是生成类模型。
使用朴素贝叶斯假设，即使在给定类别标签的条件下，属性也可以很容易地计算高维设置中的类条件概率，常用于文本分类。
对孤立噪声和不相关属性具有鲁棒性。
通过计算其条件概率估计时忽略每个属性的缺失值，来处理训练集的缺失值。
相关属性会降低其性能

贝叶斯定理

贝叶斯定理给出了条件概率与之间的关系。
目标类的后验概率是给定属性的数据实例中观察到类别标签的概率。
给定类别的属性的类条件概率，测量从属于类的实例分布中观察到的可能性。
先验概率独立于观察到的属性值。先验概率捕获了关于类别分布的先验知识。
朴素贝叶斯假设所有属性的类条件概率可以被分解为类条件概率的乘积：(给定类别标签，属性是相互独立的)

由于对于每个都是一样的，所以朴素贝叶斯方程：
在小数据集上仍然可以使用先验概率作为后验概率的估计，通过不断增加更多的属性，可以不断细化后验概率
生成类模型 从数据中学习特征和标签的联合概率分布，而 判别模型 则学习条件概率分布。

求解步骤

拟合和 , 拟合的方法就是直接从样本计算对应频率；
由得出联合概率分布。
由得出后验概率，通过后验概率进行分类。

注：本文部分内容参考李航老师的统计学习方法。

-- 数据STUDIO --

“家属和记者取得联系”：记者的退场意味深长

广州地铁“偷拍门”事件：那个漂亮的女大学生，为啥惹了众怒...

劲爆！为了姜萍两位女CEO互揭老底！

治安处罚中“赌资较大”“情节严重”数额认定的理解与适用（各地标准）

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

机器学习 | 朴素贝叶斯理论

朴素贝叶斯的参数估计

极大似然估计

分类算法

算法实例

贝叶斯估计

朴素贝叶斯对连续变量的概率估计

总结

分类器特征

贝叶斯定理

求解步骤

您可能也对以下帖子感兴趣

编号	长相	财富值
1	1	S	0
2	1	M	0
3	1	M	1
4	1	S	1
5	1	S	0
6	2	S	0
7	2	M	0
8	2	M	1
9	2	L	1
10	2	L	1
11	3	L	1
12	3	M	1
13	3	M	1
14	3	L	1
15	3	L	0

编号	长相	财富值
1	1	S	0
2	1	M	0
3	1	M	1
4	1	S	1
5	1	S	0
6	2	S	0
7	2	M	0
8	2	M	1
9	2	L	1
10	2	L	1
11	3	L	1
12	3	M	1
13	3	M	1
14	3	L	1
15	3	L	0

“家属和记者取得联系”：记者的退场意味深长

广州地铁“偷拍门”事件：那个漂亮的女大学生，为啥惹了众怒...

劲爆！为了姜萍两位女CEO互揭老底！

治安处罚中“赌资较大”“情节严重”数额认定的理解与适用（各地标准）

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

生成图片，分享到微信朋友圈

机器学习 | 朴素贝叶斯理论

朴素贝叶斯的参数估计

极大似然估计

分类算法

算法实例

贝叶斯估计

朴素贝叶斯对连续变量的概率估计

总结

分类器特征

贝叶斯定理

求解步骤

您可能也对以下帖子感兴趣

编号	长相	财富值
1	1	S	0
2	1	M	0
3	1	M	1
4	1	S	1
5	1	S	0
6	2	S	0
7	2	M	0
8	2	M	1
9	2	L	1
10	2	L	1
11	3	L	1
12	3	M	1
13	3	M	1
14	3	L	1
15	3	L	0