查看原文
其他

概率图模型系列(一):概率图模型简介

三三 AI知识工厂 2022-04-26

点击关注"AI知识工厂"

更多干货,敬请期待...

一、基础知识
假设我们的观测对象是高维随机变量,对于这样的一个高维随机变量而言,在实际操作过程中,我们往往需要知道的是它的边缘概率,以及条件概率
首先,我们来看下对于高维随机变量(下面以二维为例),两个基本运算法则:
加法法则:
乘法法则:
根据两个基本法则可以推出两个常用的法则:
链式法则:
贝叶斯法则:

二、什么是概率图模型
概率图模型(Probabilistic Graphical Model, PGM),简称图模型(Graphical Model,GM),是指一种用图结构来描述多元随机变量之间条件独立性的概率模型(注意条件独立性),从而给研究高维空间的概率模型带来了很大的便捷性。
注:为什么要讲条件独立性?
对于一个维随机向量,其联合概率为高维空间中的分布,一般难以直接建模。假设每个变量为离散变量并有个取值,在不作任何独立假设条件下,则需要个参数才能表示其概率分布(因为我们需要给出每一组可能的的概率,共种可能,由于概率和为1因此在此基础上减1)。不难看出,参数数量是指数级的,这在实际应用中是不可接受的。而一种可以有效减少参数量的方法就是独立性假设。将维随机向量的联合概率分解为个条件概率的乘积:
其中表示变量的取值。如果某些变量之间存在条件独立,其参数量就可以大幅减少。
假设有四个二值变量,在不知道这几个变量依赖关系的情况下,用一个联合概率表来记录每一种取值的概率需要个参数。假设在已知时,独立,即有:
同理:
在已知时,也和独立,即有:
那么其联合概率可以分解为:
即4个局部条件概率的乘积,只需要1+2+2+4=9个独立参数
因此,假如我们知道更多的独立性条件,那么可以大大简化联合概率分布的计算,而概率图则可以直观地表示随机变量间条件独立性的关系。以下是上述例子中4个变量之间的条件独立性的图形化描述。
1、概率图模型的三个基本问题(表示,学习,推断)
下图展示了概率图图模型有三个基本问题:
(1) 表示问题:对于一个概率模型,如何通过图结构来描述变量之间的依
赖关系。
(2) 学习问题:图模型的学习包括图结构的学习和参数的学习。在本章中,
我们只关注在给定图结构时的参数学习,即参数估计问题。
(3) 推断问题:在已知部分变量时,计算其他变量的条件概率分布。
三、表示
概率图模型的表示是指用图结构来描述变量之间的依赖关系,研究如何利用概率网络中的独立性来简化联合概率分布的方法表示。常见的概率图模型可以分为两类:有向图模型和无向图模型。
(1)有向图模型使用有向非循环图(Directed Acyclic Graph,DAG)来描述变量之间的关系。如果两个节点之间有连边,表示对应的两个变量为因果关系,即不存在其他变量使得这两个节点对应的变量条件独立。
有向图又称贝叶斯网络,从模型的条件独立性依赖的个数上看,可以分为单一模型和混合模型,单一模型条件依赖的集合就是单个元素,而混合模型条件依赖的集合则是多个元素。如果给模型加上时间概念,则可以有马尔科夫链和高斯过程等。从空间上,如果随机变量是连续的,则有如高斯贝叶斯网络这样的模型。混合模型加上时间序列,则有隐马尔科夫模型、卡尔曼滤波、粒子滤波等模型。
(2)无向图模型使用无向图(Undirected Graph)来描述变量之间的关系。每条边代表两个变量之间有概率依赖关系,但是并不一定是因果关系。
下图给出了两个代表性图模型(有向图和无向图)的示例,分别表示了四个变量之间的依赖关系。图中带阴影的节点表示可观测到的变量,不带阴影的节点表示隐变量,连边表示两变量间的条件依赖关系。
a)有向图模型
有向图模型(Directed Graphical Model),也称为贝叶斯网络(Bayesian Network)或信念网络(Belief Network,BN),是一类用有向图来描述随机向量概率分布的模型。常见的有向图模型:很多经典的机器学习模型可以使用有向图模型来描述,比如朴素贝叶斯分类器隐马尔可夫模型深度信念网络等
贝叶斯网络:对于一个维随机向量和一个有个节点的有向非循环图 中的每个节点都对应一个随机变量,每个连接表示两个随机变量之间具有非独立的因果关系。令表示变量的所有父节点变量集合,表示每个随机变量的局部条件概率分布(Local Conditional Probability Distribution)。如果的联合概率分布可以分解为每个随机变量的局部条件概率的连乘形式,即
那么()构成了一个贝叶斯网络。
贝叶斯网络模型的概率分解,在贝叶斯网络中,变量间存在如下四种关系:
(1)如果两个节点是直接连接的,它们肯定是非条件独立的,是直接因果关系。其中父节点是“因”,子节点是“果”。
(2)间接因果关系(head-to-tail),即图(a)、图(b):当已知时,为条件独立,即
(3)共因关系(tail-to-tail),即图(c):当未知时,是不独立的;当已知时,条件独立,即
(4)共果关系(head-to-head),即图(d):当未知时,是独立的;当已知时,不独立
b)无向图模型
无向图模型,也称为马尔可夫随机场(Markov Random Field,MRF)或马尔可夫网络(Markov Network),是一类用无向图来描述一组具有局部马尔可夫性质的随机向量的联合概率分布的模型。常见的无向图模型有:最大熵模型条件随机场玻尔兹曼机受限玻尔兹曼机
马尔可夫随机场:对于一个随机向量和一个有个节点的无向图(可以存在循环),图中的节点表示随机变量。如果()满足局部马尔可夫性质,即一个变量在给定它的邻居的情况下独立于所有其他变量,
其中为变量的邻居集合,为除外其他变量的集合,那么()就构成了一个马尔可夫随机场。
无向图模型的概率分解,
团:由于无向图模型并不提供一个变量的拓扑顺序,因此无法用链式法则对 进行逐一分解。无向图模型的联合概率一般以全连通子图为单位进行分解。无向图中的一个全连通子图,称为团(Clique),即团内的所有节点之间都连边。下图所示的无向图中共有 7 个团,包括 {},{},{},{}, {},{},{}。
在所有团中,如果一个团不能被其他的团包含,这个团就是一个最大团 (Maximal Clique)。
因子分解:无向图中的联合概率可以分解为一系列定义在最大团上的非负函数的乘积形式。
Hammersley-Clifford定理:如果一个分布满足无向图中的局部马尔可夫性质,当且仅当可以表示为一系列定义在最大团上的非负函数的乘积形式,即
其中中的最大团集合,是定义在团上的势能函数(Po- tential Function),是配分函数(Partition Function),用来将乘积归一化为概率形式:
其中为随机向量的取值空间。
无向图模型与有向图模型的一个重要区别是有配分函数。配分函数的计算复杂度是指数级的,因此在推断和参数学习时都需要重点考虑。
吉布斯分布公式中定义的分布形式也称为吉布斯分布(Gibbs Distribution)。根据 Hammersley-Clifford定理,无向图模型和吉布斯分布是一致的。吉布斯分布一定满足马尔可夫随机场的条件独立性质,并且马尔可夫随机场的概率分布一定可以表示成吉布斯分布。
由于势能函数必须为正,因此我们一般定义为
其中为能量函数(Energy Function)。
因此,无向图上定义的概率分布可以表示为
      这种形式的分布又称为玻尔兹曼分布(Boltzmann Distribution)。任何一个无向图模型都可以用上述公式来表示其联合概率。
四、学习
图模型的学习可以分为两部分:一是网络结构学习,即寻找最优的网络结构;二是网络参数估计,即已知网络结构,估计每个条件概率分布的参数。
网络结构学习比较困难,一般是由领域专家来构建。本节只讨论在给定网络 结构条件下的参数估计问题。图模型的参数估计问题又分为不包含隐变量时的 参数估计问题和包含隐变量时的参数估计问题。
不含隐变量的参数估计:如果图模型中不包含隐变量,即所有变量都是可观测的,那么网络参数一般可以直接通过最大似然来进行估计。
含隐变量的参数估计:如果图模型中包含隐变量,即有部分变量是不可观测的,就需要用EM算法进行参数估计。
五、推断
精确推断包括(变量消除法,信念传播算法),近似推断包括(环路信念传播,变分推断,采样法)
在已知部分变量时算其它变量的后验概率分布。
在图模型中,推断(Inference)是指在观测到部分变量时,计算其他变量的某个子集的条件概率
假设一个图模型中,除了变量外,其余变量表示为。根据贝叶斯公式有
因此,图模型的推断问题的关键为求任意一个变量子集的边际概率分布问题。在图模型中,常用的推断算法可以分为精确推断算法近似推断算法两类。
注:4、5部分内容后续会结合具体的模型对“学习”和“推理”做详细推理和介绍。这里只把概念介绍一下,后续可持续关注本公众号更新。。。



参考文献:
[1] 邱锡鹏《神经网络与深度学习》.https://nndl.github.io/
[2] B站up主(shuhuai008)机器学习白板推导系列视频

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存