其他
从贝叶斯方法谈到贝叶斯网络
日期:2019年11月23日
正文共:10242字117图
预计阅读时间:26分钟
来源:v_JULY_v
1、贝叶斯方法
1.1、贝叶斯方法的提出
频率派把需要推断的参数θ看做是固定的未知常数,即概率 虽然是未知的,但最起码是确定的一个值,同时,样本X 是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X 的分布; 而贝叶斯派的观点则截然相反,他们认为参数 是随机变量,而样本X 是固定的,由于样本是固定的,所以他们重点研究的是参数 的分布。
先验分布 + 样本信息 后验分布
1.2 、贝叶斯定理
条件概率(又称后验概率)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。
联合概率表示两个事件共同发生的概率。A与B的联合概率表示为 或者 。 边缘概率(又称先验概率)是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中那些不需要的事件通过合并成它们的全概率,而消去它们(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化(marginalization),比如A的边缘概率表示为P(A),B的边缘概率表示为P(B)。
首先,事件B发生之前,我们对事件A的发生有一个基本的概率判断,称为A的先验概率,用P(A)表示; 其次,事件B发生之后,我们对事件A的发生概率重新评估,称为A的后验概率,用P(A|B)表示; 类似的,事件A发生之前,我们对事件B的发生有一个基本的概率判断,称为B的先验概率,用P(B)表示; 同样,事件A发生之后,我们对事件B的发生概率重新评估,称为B的后验概率,用P(B|A)表示。
1.3 、应用:拼写检查
P(c)表示某个正确的词的出现"概率",它可以用"频率"代替。如果我们有一个足够大的文本库,那么这个文本库中每个单词的出现频率,就相当于它的发生概率。某个词的出现频率越高,P(c)就越大。比如在你输入一个错误的词“Julw”时,系统更倾向于去猜测你可能想输入的词是“July”,而不是“Jult”,因为“July”更常见。 P(w|c)表示在试图拼写c的情况下,出现拼写错误w的概率。为了简化问题,假定两个单词在字形上越接近,就有越可能拼错,P(w|c)就越大。举例来说,相差一个字母的拼法,就比相差两个字母的拼法,发生概率更高。你想拼写单词July,那么错误拼成Julw(相差一个字母)的可能性,就比拼成Jullw高(相差两个字母)。值得一提的是,一般把这种问题称为“编辑距离”,参见博客中的这篇文章。
2、 贝叶斯网络
2.1、 贝叶斯网络的定义
2.2、 贝叶斯网络的3种结构形式
1. x1,x2,…x7的联合分布为
2. x1和x2独立(对应head-to-head); 3. x6和x7在x4给定的条件下独立(对应tail-to-tail)。
2.2.1 形式1:head-to-head
2.2.2 形式2:tail-to-tail
在c未知的时候,有:P(a,b,c)=P(c)*P(a|c)*P(b|c),此时,没法得出P(a,b) = P(a)P(b),即c未知时,a、b不独立。 在c已知的时候,有:P(a,b|c)=P(a,b,c)/P(c),然后将P(a,b,c)=P(c)*P(a|c)*P(b|c)带入式子中,得到:P(a,b|c)=P(a,b,c)/P(c) = P(c)*P(a|c)*P(b|c) / P(c) = P(a|c)*P(b|c),即c已知时,a、b独立。
2.2.3 形式3:head-to-tail
c未知时,有:P(a,b,c)=P(a)*P(c|a)*P(b|c),但无法推出P(a,b) = P(a)P(b),即c未知时,a、b不独立。 c已知时,有:P(a,b|c)=P(a,b,c)/P(c),且根据P(a,c) = P(a)*P(c|a) = P(c)*P(a|c),可化简得到:
A和B的“head-to-tail型”和“tail-to-tail型”路径都通过C; A和B的“head-to-head型”路径不通过C以及C的子孙;
2.3 贝叶斯网络的实例
smoking表示吸烟,其概率用P(S)表示,lung Cancer表示的肺癌,一个人在吸烟的情况下得肺癌的概率用P(C|S)表示,X-ray表示需要照医学上的X光,肺癌可能会导致需要照X光,吸烟也有可能会导致需要照X光(所以smoking也是X-ray的一个因),所以,因吸烟且得肺癌而需要照X光的概率用P(X|C,S)表示。 Bronchitis表示支气管炎,一个人在吸烟的情况下得支气管炎的概率用P(B|S),dyspnoea表示呼吸困难,支气管炎可能会导致呼吸困难,肺癌也有可能会导致呼吸困难(所以lung Cancer也是dyspnoea的一个因),因吸烟且得了支气管炎导致呼吸困难的概率用P(D|C,B)表示。
2.4、 因子图
第二行:对联合概率关于b,x,c求和(在d=1的条件下),从而消去b,x,c,得到s和d=1的联合概率。 第三行:最开始,所有变量都在sigma(d=1,b,x,c)的后面(sigma表示对“求和”的称谓),但由于P(s)和“d=1,b,x,c”都没关系,所以,可以提到式子的最前面。而且P(b|s)和x、c没关系,所以,也可以把它提出来,放到sigma(b)的后面,从而式子的右边剩下sigma(x)和sigma(c)。
2.4.1 因子图的定义
变量节点 因子(函数)节点 边 ,边通过下列因式分解结果得到:在因子(函数)节点 和变量节点 之间存在边的充要条件是 存在。
我们已经知道,有向图模型,又称作贝叶斯网络(Directed Graphical Models, DGM, Bayesian Network)。
但在有些情况下,强制对某些结点之间的边增加方向是不合适的。使用没有方向的无向边,形成了无向图模型(Undirected Graphical Model,UGM), 又被称为马尔科夫随机场或者马尔科夫网络(Markov Random Field, MRF or Markov network)。
设X=(X1,X2…Xn)和Y=(Y1,Y2…Ym)都是联合随机变量,若随机变量Y构成一个无向图 G=(V,E)表示的马尔科夫随机场(MRF),则条件概率分布P(Y|X)称为条件随机场(Conditional Random Field, 简称CRF,后续新的博客中可能会阐述CRF)。如下图所示,便是一个线性链条件随机场的无向图模型:
贝叶斯网络中的一个因子对应因子图中的一个结点 贝叶斯网络中的每一个变量在因子图上对应边或者半边 结点g和边x相连当且仅当变量x出现在因子g中。
2.4.2 Sum-product算法
联合概率表示两个事件共同发生的概率。A与B的联合概率表示为 或者 。 边缘概率(又称先验概率)是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。这称为边缘化(marginalization)。A的边缘概率表示为P(A),B的边缘概率表示为P(B)。
一种是变量(Variable)到函数(Function)的消息: ,如下图所示
另外一种是函数(Function)到变量(Variable)的消息: 。如下图所示:
1、给定如下图所示的因子图:
2、sum-product 算法的消息计算规则为:
3、根据sum-product定理,如果因子图中的函数f 没有周期,则有:
1、删除贝叶斯网络中的若干条边,使得它不含有无向环
2、重新构造没有环的贝叶斯网络 3、选择loopy belief propagation算法(你可以简单理解为sum-product 算法的递归版本),此算法一般选择环中的某个消息,随机赋个初值,然后用sum-product算法,迭代下去,因为有环,一定会到达刚才赋初值的那个消息,然后更新那个消息,继续迭代,直到没有消息再改变为止。唯一的缺点是不确保收敛,当然,此算法在绝大多数情况下是收敛的。
— THE END —
☞清华上演“神仙打架”!这些学生的简历让人眼前一亮☞【特征向量新解法】数学天才陶哲轩和三位物理学家的新发现☞知识即战斗力!数学家华罗庚投入特殊抗战,一夜译破日军密码☞Nature150岁生日:盘点史上十大重磅论文,中国13篇文章登上封面!☞启发式算法在最优化问题求解中的应用与实践