一文搞懂数据分析经典模型:朴素贝叶斯
首先恭喜上周实体书抽奖活动的获奖者,获奖名单和领奖方式大家可以去文末找哦!公众号后续还会有更多福利活动,大家要保持期待哦!
某零售企业有三家供货商,记为A1、A2、A3,其供应量和不合格率如下图所示,如果随机从该零售企业中抽取一个产品,其不合格的概率有多大呢?如果抽到的某个产品是不合格的,最有可能是来自于哪个供货商呢?
先验与后验
今天早上我喝了一杯凉水,那么中午我会不会拉肚子?
P(拉肚子|喝凉水)——先验事件当中的条件概率
中午我拉了肚子,那么我早上喝了一杯凉水的概率是多大?
P(喝凉水|拉肚子)——后验概率
朴素贝叶斯概率
如果你看到一个人总是做一些好事,则那个人多半会是一个好人。用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。
贝叶斯的应用
现在我们再去计算开头例子的结果,就可以直接套用全概率公式和贝叶斯公式了:
问题1:随机从该零售企业中抽取一个产品,其不合格的概率有多大呢?
典型的由因及果,可直接使用全概率公式计算,我们将不合格用B表示:
P(B) = P(B|Ai) * P(Ai)
=P(B|A1) * P(A1) + P(B|A2) * P(A2) + P(B|A3) * P(A3)
=(500/1500*10%)+(400/1500*13%)+(600/1500*11%)
= 11.2%
因此,随机从该零售企业中抽取一个产品,其不合格的概率是11.2%;
问题2:如果抽到的某个产品是不合格的,最有可能是来自于哪个供货商呢?
典型的由果及因,可直接使用贝叶斯概率公式计算,我们先求A1供货商的概率:
P(A1|B)=P(A1) * P(B|A1) / P(B)
=(500/1500*10%)/ 11.2%
= 29.8%
同理,我们再求出A2、A3供货商的概率是30.9%、39.3%,所以如果抽到的某个产品是不合格的,最有可能是来自于A3供货商。
总结
在实际的数据分析过程中,我们经常会用到贝叶斯概率的思想,比如我们去分析营销活动的渠道拉新效果,我们不能只针对结果进行分析。按照贝叶斯定律,我们不能忽略导致这个结果的前提条件。
这个前提条件的忽略最终可能影响了我们对整件事情的判断,这个前提条件就是:我们的投放渠道,这就是朴素贝叶斯的本质。
长按二维码关注我
2020-08-29
2020-08-27
2020-08-26
2020-08-25