Points of Significance: 贝叶斯网络
本文系NGSHotpot原创,欢迎分享,公众号转载须授权!
Points of Significance: 贝叶斯网络
简介
Nature methods从2013年9月开始发表月刊Points of Significance系列,该系列主要介绍统计在生物学中的应用,让读者可以更正确的理解及使用统计。有研究发现,在医学类期刊上发表的文章中,有接近半数的统计方法的使用都是不正确的,所以Nature methods推出该系列统计文章,以实用易懂的方式来介绍统计中的一些基本概念。
前言
在介绍了贝叶斯公式、贝叶斯统计之后,我们将在此基础上继续介绍Points of Significance系列:贝叶斯网络。
什么是网络
本段将简单介绍什么是网络,对这部分熟悉的朋友可以直接跳过。我们这里说的网络不是互联网,不是wifi,而是一种图(这个图是什么图?容后介绍)。
网络是由节点(node,vertex)和节点间的边(edge,connection)组成。网络表示的信息量可以很大,比如可以用节点属性(如颜色,大小,形状,名称等信息)表示某个物体、人的特征,边的属性(颜色,粗细,名称等信息)可以表示两个物体、人之间的关系。
网络的理论和应用
网络的理论和应用也很广,比如人们社会关系网络,最著名的例子可能就是Zachary的空手道社团的例子了:一个空手道社团的管理人员和教练发生分歧,然后该社团分成了两个社团,研究者根据社团人员关系建立网络,然后根据网络关系进行网络分成两类,最后发现只有一个社员被错误分类。
大家可能听说过这样的事情,世界上任意两个人要想彼此认识,只需要通过六个人就可以了。在社交网络中,这是对的(当然需要排除掉隐居的等特例),这就是著名的网络的小世界特性,当然并不是所有的网络都有这个特性。
还有一些比较常用的网络,如文章共引用网络,蛋白相互作用网络,基因相互作用网络等等。
网络历史
在数学上,网络被叫做图,《图论》是一门数学类书籍,感兴趣的可以看看。说到图论,不得不说欧拉,欧拉真是一位伟大的数学家,不查任何资料,我也可以直接开口说出他的各种成就:数论里计算比N小且与N互质数量的欧拉公式;几何里多面体边、顶点面关系的欧拉公式;还有微积分方面的贡献及本文要提到的对图论的贡献。
欧拉在某种程度上可以说是图论的创始人,较为出名的就是七桥问题:故事基本是这样的,欧拉某一年到哥尼斯堡的时候,发现当地人在玩一种比较有趣的消遣活动,就是该城市的一条河里有两个小岛,总共有七座桥连接这两个小岛及两岸,当地人就在消遣看是否能从某一个地方出发,且经过所有桥且每个桥只经过一次是否能回到原来出发的地方(当地人真的很有趣,居然玩这种游戏!大家当故事看)。然后欧拉就解决了这个问题,并且提出了一笔画问题及其解法,后来图论就渐渐诞生了。
附一笔画问题,有兴趣的可以思考思考,网上到处都有答案,可以去搜索下:给一个几何图形,是否能通过一笔把该图形画出来(不提笔)。
贝叶斯网络
上面说了这么多,都是废话,下面来今天的正题:贝叶斯网络。当我们做统计推断时,若是研究的变量较多,且变量间关系较为复杂的时候,此时可以联合网络和贝叶斯理论构建贝叶斯网络进行分析。
本文使用的例子都是简化的例子,如下图所示:
若我们考虑两个变量A和B的关系的时候,我们只考虑两种情况就是真或者是假。若A为真,那么A的概率用大写字母A表示为P(A),若为假,则表示为P(a),同样对B分别用P(B)和P(b)表示B的真假的概率。
下面我们再介绍一个贝叶斯网络中会用到的表格:条件概率表格如下
若是上述表格是变量(节点)C的条件概率表格,其意义为:当A为真B为真时,C有90%的概率为真,当A为真B为假时,C有70%的概率为真,当A为假B为真时,C有30%的概率为真,当A为假B为假时,C有10%的概率为真。
贝叶斯网络示例
下图a表示的是5个基因是否被激活的一个基因调控网络,下图b是根据该调控网络构建的贝叶斯网络。
由上图b可以看出,A和B是相互独立的(两个基因间没有连线),A有80%概率被激活,而B只有20%。C旁边的条件概率表说明了C收到A,B基因状态的影响且说明了影响程度。另外可以看出D只受到B的影响,而E受到C的影响,那么也就间接受到A和B的影响。
根据贝叶斯网络结构及条件概率表格,我们可以计算每个基因的先验概率。显然A和B的先验概率为80%和10%,C受到AB的影响,所以计算C的先验概率时要考虑AB的所有状态,计算如下:
同样可以计算D和E的先验概率:
有了上述网络关系,我们还可以计算联合概率,比如五个基因都被激活的概率和BE不被激活的概率分别计算为:
贝叶斯网络后验概率
上述先验概率在得到条件概率表格后就都能计算了,若是我们有观测值,那么贝叶斯理论会根据观测值对先验概率进行更新。
如上图a所示,若是观测到A基因被激活,那么可以更新C的后验概率和E的后验概率:
观测到A激活可以增大C被激活的概率13%到76%,但是会降低E被激活的概率11%到34%。B和D不受影响。
上述结果表明C受到A的影响,所以若是知道C被激活,那么A被激活的概率也会改变,如上图b所示。计算A和B的概率如下
也就是说若是知道C被激活,那么A和B被激活的概率都会增加。
后面简单说一下上图c和d的含义,上图c表示若已知C被激活,那么再观测到A就会影响B和D的概率。同样d图说明,若是观测到E,那么所有影响E的节点及这些节点影响的节点都会被改变。
参考文献
1. Puga JL, Krzywinski M, Altman N. Points of Significance: Bayesian networks. Nature methods. 2015;12(9):799-800.
声明:上述内容为NGSHotpot读文献整理写出,若有遗漏或错误若有任何意见、建议、或对上述内容有疑问请发送邮件到:ngshotpot@126.com,感谢您指出。
扫描或识别下方二维码关注NGSHotpot