查看原文
其他

机器学习丨搞定贝叶斯公式,只需记住这5个字

莫凡 数据Seminar 2023-01-01


本文转载自公众号大数据DT

作者:莫凡

来源:华章计算机(ID:hzbook_jsj)



导读

贝叶斯公式预测的核心思想就5个字——“看起来更像”。





01 贝叶斯公式的基本思想


朴素贝叶斯由两部分组成,“朴素”是一种带有假设的限定条件,“贝叶斯”则指的是贝叶斯公式。合起来,朴素贝叶斯指的就是在“朴素”假设条件下运用“贝叶斯公式”。


显然,“朴素贝叶斯”是一条偏正短语,核心和重点是贝叶斯公式。贝叶斯公式与其说是一条公式,更不如说是一种思想。统计学中有两座山头,分别叫频率学派贝叶斯学派,而这两座山头都有各自庞大的学识体系。这里本着现学现用的原则,只拣我们马上就能用的讲。


  • P(X) :这是概率统计中最基本的符号,表示X出现的概率。如在掷骰子的游戏中,P(6)就是指骰子出现数字“6”的概率。这个概率显然为1/6。

  • P(X|Y) :这是条件概率的符号,比上面的概率符号中间多了一竖,代表条件。P(X|Y)的意思是在Y发生的条件下,X发生的概率。它是贝叶斯公式的主角


是不是觉得距离完全了解条件概率还差那么一点点儿?上文我们一起了解了出题老师的心路历程,现在还是继续请这位出题老师补上这最后的一点点吧。


我们用P(D)代表选项D为错误选项的概率,在正确答案均匀分布时,概率值为25%。那么P(D|C)就代表选项C为错误选项时,D为错误选项的概率。这与单纯的P(D)有什么不同呢?


别忘了,这位老师有一点癖好,选择了C为错误选项之后,会顺手把D也作为错误选项。现在的已知条件是选项C已经确定是错误选项了,在这种前提条件下,选项D是错误选项的概率,也即P(D|C)的值就远远超过了25%。这就是条件概率的意义。


对于条件概率,我还要多说一点儿。前面我们说线性模型是“钢铁直男”的典范,相比之下,条件概率以及后面的贝叶斯公式就是“直男们”理解少女之心的一把钥匙。




02 贝叶斯的基本逻辑


作为理科生或者程序员,引以为傲的除了身上的格子衬衫外,我们还有一样很重要的就是逻辑思维,对于很多事,譬如一些女生的流行观点,我们似乎天然地就喜欢抛出一句“真没逻辑”的评价,这也为我们自己挣得了“凭实力单身”的美誉。


如果你也是这样的,那么你需要好好了解一下贝叶斯公式的基本思想。


贝叶斯公式的核心是条件概率,譬如P(B|A),就表示当A发生时,B发生的概率,如果P(B|A)的值越大,说明一旦发生了A,B就越可能发生。两者可能存在较高的相关性。


相关性就是贝叶斯公式要表达的哲学,明白了这一哲学,对于很多事情,特别是女生的流行观点,我们将豁然开朗。譬如很多男生都曾经被女朋友要求在节日送礼物,而理由多半是这么一句话:“我不是在乎礼物,而是在乎你用不用心。”很多男生想不明白:你要我送礼物,又说不在乎礼物,这是什么逻辑?


那么这里我要说:女生说的是有逻辑的!只不过与男生不一样,男生的逻辑偏重因果性,女生的逻辑偏重相关性。


因果性很简单,就是A→B,但如果A和B满足相关性,情况则要复杂一些,譬如最经典的数据挖掘案例“尿布和啤酒”,年轻的爸爸会在买尿布的时候顺便买啤酒,这时尿布和啤酒就呈相关性,如果我们用P(尿布)来表示买尿布的概率的话,一旦P(尿布)的值增加,那么P(啤酒|尿布)的值也会增加。


其意义是,当尿布的销量增加时,啤酒的销量也会增加,这就是相关性,但相关性不是因果性,二者虽然同时增长,但并不存在因果关系。


明白了这一点,男生就能明白女生的逻辑。对于“我不是在乎礼物,而是在乎你用不用心”这句话,我们用公式可以表达如下:


P(用心|送礼物)


那么,根据贝叶斯公式,当送礼物的发生概率越大,也即P(送礼物)的值越大, P(用心|送礼物)的值也就越大,也就表示你对这个女生越用心。这就是女生怎样利用相关性,通过送礼物来考察你是否用心。


好了,我们大致解释了贝叶斯公式。最后要说的是,相关性是建立在统计数据的基础之上的,所以“送礼物”和“用心”到底是否具有相关性,还需要进行社会学的调查




03 用贝叶斯公式进行选择


如果你已经熟悉机器学习算法的套路,一定已经从上面对条件概率的描述中“闻”到了预测的味道。贝叶斯公式预测的核心思想就5个字——“看起来更像”。


在贝叶斯看来,世界不是静止和绝对的,而是动态和相对的,希望利用已知经验来进行判断。用“经验”进行“判断”,经验怎么来?有了经验怎么判断?一句话实际包含了两轮过程。


  • 第一轮的分级:是已知类别而统计特征,即某一特征在该类中的出现概率,是把类别分解成特征概率的过程。

  • 第二轮的还原:是已知特征而推测类别,这里将第一轮的结果用上,是把知道统计情况的特征还原成某一类的过程。


说到这里,就不能不提“先验”和“后验”了,这两个词儿看起来相当哲学,也确实是康德的《纯粹理性批判》中的主角。


对于这里的“验”,主张认知的人将其解释成经验,主张实践的人将其解释成“实验”,在我看来,先验和后验不妨认为是两位诸葛亮,先验这位是事前诸葛亮,后验这位是事后诸葛亮。


就以空城计来说,诸葛亮布阵的时候,是根据司马懿一贯的个性,断定他不敢进城,这是先验。等到司马懿真的来了,在城下犹豫不决,要退不退,诸葛亮一看就知道事妥了,这是后验。




04 贝叶斯版的预测未来


先验和后验是怎么用于预测的呢?这里我想展示一下我在中学时学会的看发型猜女同学的“技术”。


假设我的班上一共有10位女同学,其中一位叫安吉利,中学时女生个子都差不多高,又穿着一样的校服,光看背影猜中谁是安吉利的概率是10%,基本靠蒙了,这就是先验概率,先记作P(安吉利)。


但是有一天我突然发现,安吉利同学特别喜欢扎马尾,不过扎马尾又不是什么独占的发明专利,而且这个年龄阶段的女孩子又都爱扎马尾,所以,不是所有扎马尾的女同学都叫安吉利。


怎么办呢?我又利用上课的时间统计了一下,班上女同学一共有三种发型,扎马尾的概率大概为30%,记作P(马尾)。而安吉利同学真的非常喜欢扎马尾,她扎马尾的概率高达70%,记作P(马尾|安吉利)。


这里我们用上了前面介绍的条件概率,P(马尾|安吉利)的意思是,在女同学是安吉利的前提条件下发型是马尾的概率,在贝叶斯公式中这又称为似然度(Likelihood)。有了这三个统计数据,我心里就有底了,往后见到扎马尾的女同学,有两成多的概率就是我们的安吉利。


其中的奥秘就是贝叶斯公式。也许你已经察觉,扎马尾的女同学中她是安吉利的概率也是一种条件概率,记作P(安吉利|马尾),这就是后验概率。根据贝叶斯公式,我们有:


P(马尾)·P(安吉利|马尾)= P(安吉利)·P(马尾|安吉利)


代入我们牺牲宝贵的上课时间得到的统计数据,则可算出:


P(安吉利|马尾)=10%×70%/30%=23.3%


前面我们说,用先验和后验进行选择判断要分成两个阶段,现在有了似然度就好解释了。先验概率是已经知道的,而我们通过经验或实验要了解的就是这个似然度,知道似然度再加上先验,我们就能知道后验概率了。


可惜的是,虽然贝叶斯公式能够告诉我谁是安吉利,但是它没办法告诉我。为什么安吉利同学会对马尾如此执迷。


关于作者:莫凡,新技术深度爱好者,曾经从事信息安全前沿技术跟踪研究和数据分析工作,在各类信息安全类技术期刊杂志发表文章五十余篇,现转为投身高端知识“白菜化”项目。著有《机器学习算法的数学解析与Python实现》。个人公众号“睡前机器学习”,个人知乎号“木羊”。


本文摘编自《机器学习算法的数学解析与Python实现》,经出版方授权发布。





点击阅读原文进入CCAD数据库



·END·


星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!


点击搜索你感兴趣的内容吧


往期推荐


数据呈现丨用python如何画出好看的地图

统计计量丨计量经济学主要刊物、软件、经济数据网站汇总

推荐丨洪永淼、汪寿阳:数学、模型与经济思想

数据资源丨干货!100个权威经济金融网站,果断收藏!

数据呈现丨疫情期间市值增长top25公司

推荐丨Big R:从数据科学到机器学习和大数据

数据呈现丨工具 Flourish 上手体验 & 将其嵌入PPT中




数据Seminar




这里是大数据、分析技术与学术研究的三叉路口



文丨大数据DT

推荐丨青酱


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存