查看原文
其他

什么是微分熵:将香农熵拓展到连续分布 | 集智百科

集智百科 集智俱乐部 2022-05-19


“集智百科精选”是一个长期专栏,持续为大家推送复杂性科学相关的基本概念和资源信息。作为集智俱乐部的开源科学项目,集智百科希望打造复杂性科学领域最全面的百科全书,欢迎对复杂性科学感兴趣、热爱知识整理和分享的朋友加入!

本文是对集智百科中“微分熵”词条的摘录,参考资料及相关词条请参阅百科词条原文。

本词条由集智俱乐部众包生产,难免存在纰漏和问题,欢迎大家留言反馈或者前往对应的百科词条页面进行修改,一经修改,可以获得对应的积分奖励噢!


目录


一、定义二、微分熵的性质三、正态分布中的最大化四、例子:指数分布五、与估计器误差的关系
六、各种分布的微分熵
七、变体八、编者推荐九、百科项目志愿者招募

微分熵 Differential entropy(也被称为连续熵 continuous entropy)是信息论中的一个概念,其来源于香农尝试将他的香农熵的概念扩展到连续的概率分布。香农熵是衡量一个随机变量的平均惊异程度的指标。可惜的是,香农只是假设它是离散熵的正确连续模拟而并没有推导出公式,但事实上它并不是离散熵的正确连续模拟。离散熵的实际连续版本是离散点的极限密度 limiting density of discrete points(LDDP)。微分熵(此处描述)在文献中很常见,但它是 LDDP 的一个极限情况,并且失去了与离散熵的基本联系。





定义




设随机变量X,其概率密度函数f的的定义域是X的集合。该微分熵或者h(X)或者h(f)定义为


对于没有显式密度函数表达式,但有显式分位数函数表达式的概率分布,Q(p),则h(Q)可以用导数Q(p)来定义,即分位数密度函数Q'(p)



与离散模型一样,微分熵的单位取决于对数的底数,通常是2(单位:比特;请参阅对数单位,了解不同基数的对数。)相关概念,如联合熵、条件微分熵和相对熵,以类似的方式定义。与离散模型不同,微分熵的偏移量取决于测量单位。[4]例如,以毫米为单位的量的微分熵将比以米为单位测量的相同量的微分熵大 log(1000);无量纲量的log(1000)微分熵将大于相同量除以1000。


在尝试将离散熵的性质应用于微分熵时必须小心,因为概率密度函数可以大于1。例如,均匀分布U(0,1/2)具有“负”微分熵



因此,微分熵并不具有离散熵的所有性质。


注意,连续互信息I(X;Y)具有保留其作为离散信息度量的基本意义的区别,因为它实际上是X和Y的“分区”的离散互信息的极限,因为这些分区变得越来越细。因此,它在非线性同胚(连续且唯一可逆的映射)下是不变的,包变换X和Y,并且仍然表示可在允许连续值空间的信道上传输的离散信息量。


对于扩展到连续空间的离散熵的直接模拟,参见离散点的极限密度。





微分熵的性质




  • 对于概率密度f和g,仅当f=g几乎处处成立时,Kullback–Leibler散度DKL(f||g)才大于或等于0。类似地,对于两个随机变量X和Y,当且仅当X和Y是独立,I(X;Y)>=0才和h(X|Y)<=h(X)相等。
  • 微分熵的链式法则在离散情况下成立


  • 微分熵是平移不变的,即对于常数


  • 在任意可逆映射下,微分熵通常不是不变的。
  • 特别地,对于一个常数a,


  • 对于向量值随机变量X对于向量值随机变量A


  • 一般地,对于从一个随机向量到另一个具有相同维数的随机向量的变换Y=m(X),相应的熵通过


  • 其中|αm/αx|是变换的雅可比矩阵m。如果变换是双射,则上述不等式变为等式。此外,当m是刚性旋转、平移或其组合时,雅可比行列式总是1,并且h(Y)=h(X)。

  • 如果一个随机向量X具有均值零和协方差矩阵K,h(X)<=1/2log(det 2πeK)=1/2 [log(2πe)^n det K ]相等当且仅当X为多元正态分布/联合正态性/联合高斯(见下文#正态分布中的最大化)。然而,微分熵没有其他理想的特性:

  • 它在变量变化下不是不变的,因此对无量纲变量最有用。

  • 它可以为负。


解决这些缺点的微分熵的一种改进是“相对信息熵”,也称为Kullback–Leibler散度,它包括一个不变的测度因子(参见:离散点的极限密度)。





正态分布中的最大化




定理

对于正态分布,对于给定的方差,微分熵是最大的。在所有等方差随机变量中,高斯随机变量的熵最大,或者在均值和方差约束下的最大熵分布是高斯分布。


证明

设g(x)是一个正态分布的概率密度函数,具有均值μ和方差σ^2和f(x)具有相同方差的任意概率密度函数。由于微分熵是平移不变性的,我们可以假设f(x)具有相同的均值μ作为g(x)。考虑两个分布之间的Kullback–Leibler散度



现在请注意



因为结果不依赖于f(x)而不是通过方差。将这两个结果结合起来就得到了



当f(x)=g(x)遵循Kullback-Leibler散度的性质时相等。


替代证明

这个结果也可以用变分演算来证明。具有两个拉格朗日乘子的拉格朗日函数可定义为:



其中g(x)是平均μ的函数。当g(x)的熵为最大值时,由归一化条件



和固定方差


组成的约束方程均满足,然后,关于g(x)的微小变化δg(x)将产生关于L的变化δL,其等于零:



由于这必须适用于任何小δg(x),括号中的项必须为零,求解g(x)得到:



使用约束方程求解λ0和λ得出正态分布:






例子:指数分布




设X为指数分布随机变量,参数为λ,即概率密度函数



它的微分熵是


这里,he(X)被使用而不是h(X)明确以e为底对数,以简化计算。





与估计器误差的关系



微分熵给出了估计量的期望平方误差的下界。对于任何随机变量X和估计器^X来说,以下条件成立:

当且仅当X是高斯随机变量,^X是X的平均值。





各种分布的微分熵



在下表中,

是Gamma函数,

是digamma 函数,

是beta函数,γE'是欧拉常数。






变体




如上所述,微分熵不具有离散熵的所有性质。例如,微分熵可以是负的;在连续坐标变换下也不是不变的。Edwin Thompson Jaynes事实上证明了上面的表达式不是有限概率的表达式的正确限制。


微分熵的修改增加了一个不变的度量因子来纠正这个问题,(见离散点的极限密度)。如果m(x)被进一步约束为概率密度,由此产生的概念在信息论中称为相对熵 relative entropy:


上面的微分熵的定义可以通过划分范围来获得X成箱的长度 {\displaystyle h}H 与相关的样本点h在垃圾箱内,对于X黎曼可积。这给出了一个量化的版本X, 被定义为Xh=ih如果ih<=X<=(i+1)h 那么熵Xh=ih是


右边的第一项近似于微分熵,而第二项近似于-log(h)。请注意,此过程表明连续随机变量的离散意义上的熵应该是∞。





编者推荐




最令人绝望物理定律“熵增原理”:生命以负熵为食,最终走向消亡


集智课程

信息熵及其相关概念

https://blog.csdn.net/am290333566/article/details/81187124?

信息熵常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。该文章用通俗易懂的语言系统地梳理一下有关熵的概念,有助于初学者入门。


最令人绝望物理定律“熵增原理”:生命以负熵为食,最终走向消亡

https://baijiahao.baidu.com/s?id=1638841205928147461&wfr=spider&for=pc

熵被认为一种悲观主义的世界观,而熵增定律也被认为是令全宇宙都绝望的定律。该文章介绍了其令人绝望的原因。


集智文章推荐




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存