什么是条件互信息 | 集智百科
本词条由集智俱乐部众包生产,难免存在纰漏和问题,欢迎大家留言反馈或者前往对应的百科词条页面进行修改,一经修改,可以获得对应的积分奖励噢!
目录
五、其他通用定义
六、注释符号七、属性八、多元互信息九、编者推荐十、百科项目志愿者招募
以上是三个变量x,y和z信息理论测度的维恩图,分别由左下,右下和上部的圆圈表示。条件互信息I(x;z|y),I(y;z|x)和I(x;y|z)分别由黄色,青色和品红色区域表示。
定义
对于具有支持集 Probability theory
的随机变量X,Y和Z,我们将条件互信息定义为:
这可以用期望运算符来表示:
因此,相较于互信息的定义,I(X;Y|Z)可以表达为期望的Kullback–Leibler散度(相对于Z),即从条件联合分布P(X,Y)|Z到条件边际PX|Z和PY|Z
的乘积。
关于离散分布的概率质量函数
对于具有支持集X,Y和Z的离散随机变量 条件互信息I(X;Y|Z)如下:
其中边缘概率质量函数,联合概率质量函数,和(或)条件概率质量函数可以由p加上适当的下标表示。这可以简化为:
关于连续分布的概率密度函数
对于具有支持集X,Y和Z的(绝对)连续随机变量 条件互信息I(X;Y|Z)如下:
其中边缘概率密度函数,联合概率密度函数,和(或)条件概率密度函数 可以由p加上适当的下标表示。这可以简化为:
部分特性
同时我们也可以将联合和条件熵写为:I(X;Y|Z) = H(X,Z) + H(Y,Z) - H(X,Y,Z) - H(Z) = H(X|Z) - H()X|Y,Z) = H(X|Z) + H(Y|Z) - H(X,Y|Z)
这么表达以显示其与互信息的关系:I(X;Y|Z) = I(X;Y,Z) - I(X;Z)
通常情况下,表达式被重新整理为“互信息的链式法则”:
I(X;Y|Z) = I(X;Z) + I(X;Y|Z)
上述式子的另一种等价形式是:I(X;Y|Z) = H(Z|X) + H(X) + H(Z|Y) + H(Y) -H(Z|X,Y) - H(X,Y) - H(Z) = I(X;Y) + H(Z|X) + H(Z|Y) - H(Z|X,Y)
或作为更简单的KL散度的期望值:
其他通用定义
条件互信息的其他通用定义(适用于具有连续或其他任意分布的随机变量)将取决于 正则条件概率 Regular conditional probability 的概念。
令
为一个 概率空间 Probability space ,并将随机变量X,Y和Z分别定义为一个从Ω到具有拓扑结构的状态空间的 波莱尔可测函数 Borel-measurable function 。
考虑到在每个随机变量状态空间中的波莱尔测度 Borel measure(关于开放集生成的σ代数)
这被称为 前推测度 Pushforward measure
随机变量的支撑集定义为该测度的拓扑支撑集,即
现在,我们可以在给定其中一个随机变量值(或通过 积拓扑 product topology 获得更多)的情况下正式定义条件概率测度 Conditional probability distribution 。令M为Ω的可测子集(即M∈F),令x∈suppX。然后,使用 分解定理 Disintegration theorem :
在x的开放邻域U处取极限,因为相对于集包含 Set inclusion,它们可以任意变小。
最后,我们可以通过 勒贝格积分 Lebesgue integration来定义条件互信息:
其中被积函数是拉东-尼科迪姆导数 Radon–Nikodym derivative的对数,涉及我们刚刚定义的一些条件概率测度。
注释符号
在诸如I(A;B|C)的表达式中,A,B和C不限于表示单个随机变量,它们同时可以表示在同一概率空间上定义的任意随机变量集合的联合分布。类似概率论中的表达方式,我们可以使用逗号来表示这种联合分布,例如I(A0,A1;B1,B2,B3|C0,C1)。因此,使用分号(或有时用冒号或楔形∧)来分隔互信息符号的主要参数。(在联合熵的符号中,不需要作这样的区分,因为任意数量随机变量的 联合熵 Joint entropy与它们联合分布的熵相同。)
属性
非负性
对于离散,联合分布的随机变量X,Y和Z,如下不等式永远成立:
I(X;Y|Z)>=0。
该结果已被用作证明信息理论中其他不等式的基础,尤其是香农不等式。对于某些正则条件下的连续随机变量,条件互信息也是非负的。
交互信息
考虑到第三个随机变量条件可能会增加或减少互信息:
例如其差值I(X;Y)-I(X;Y|Z),称为 交互信息 Interaction information (注意区分互信息Mutual information),可以为正,负或零。即使随机变量是成对独立的也是如此。比如以下情况下:
X,Y和Z是成对独立的,特别是I(X;Y)=0,不过这里I(X;Y|Z)=1。
互信息的链式法则
I(X;Y,Z)=I(X;Z)+I(X;Y|Z)
多元互信息
结合信息图中的集合或度量理论,可以用条件互信息来归纳定义多元互信息。其定义表达式如下:
其中
该定义与交互信息的定义相同,只是在随机数为奇数的情况下符号发生了变化。一个复杂的问题是,该多元互信息(以及交互信息)可以是正,负或零,这使得其数量难以直观地解释。实际上,对于n个随机变量,存在2n-1个自由度。那么如何在信息理论上将它们关联,并对应于这些变量的每个非空子集,就是解决问题的关键。特别是这些自由度受到信息论中各种香农和非香农不等式的制约。
编者推荐
集智课程
信息论
https://campus.swarma.org/course/3164
信息论(information theory)涉及信息的量化、存储和通信等。信息论是由克劳德·香农发展来的,用来找出信号处理与通信操作的基本限制,如数据压缩、可靠的存储和数据传输等。自创立以来,它已拓展应用到许多其他领域,包括统计推断、密码学、神经生物学、进化论、量子计算、剽窃检测和其他形式的数据分析。
在本课程中,融合经典和现代信息论的成果,为信息科学方向学生提供一个统一的信息论基础,也可作为专业入门课程。主要讲解了熵,熵率,微分熵,AEP,数据压缩和信道的相关知识。
相关文章
Python 信息熵 条件信息熵 互信息(信息增益)的理解以及计算代码
https://www.pianshen.com/article/465233008/
R语言互信息和条件互信息
https://blog.csdn.net/tandelin/article/details/104216570
百科项目志愿者招募
在这里从复杂性知识出发与伙伴同行,同时我们希望有更多志愿者加入这个团队,使百科词条内容得到扩充,并为每位志愿者提供相应奖励与资源,建立个人主页与贡献记录,使其能够继续探索复杂世界。
如果你有意参与更加系统精细的分工,扫描二维码填写报名表,我们期待你的加入!
来源:集智百科
编辑:王建萍
点击“阅读原文”,阅读词条条件互信息原文与参考文献