查看原文
其他

两概率分布交叉熵的最小值是多少?

孙裕道 PaperWeekly 2022-07-04


©PaperWeekly 原创 · 作者 | 孙裕道

学校 | 北京邮电大学博士生

研究方向 | GAN图像生成、情绪对抗样本生成



引言

交叉熵(Cross Entropy)是香农信息论中一个非常重要的概念,它在深度学习和机器学习中常常被用作损失函数,给定真实类标签分布 为训练过程中模型的类别预测概率分布,交叉熵损失函数可以用于衡量 的相似性,从而提供了优化神经网络参数的梯度。本文会通过回答以下四个提问更全面更深入地去了解交叉熵。
  • 问题1:为什么交叉熵可以用于度量两个概率分布之间的差异性?
  • 问题2:两个概率分布交叉熵的最小值是多少?
  • 问题3:等概率分布的交叉熵与向量维数有什么关系?
  • 问题4:什么实际应用场景下交叉熵作为损失函数最小值不为 0?


相对熵(KL 散度)与交叉熵

要回答清楚引言中的第一个问题,首先需要理清楚相对熵(KL 散度)与交叉熵的关系。相对熵主要用于衡量两个概率分布之间的差异,连续概率分布的相对熵 的计算公式为:

离散概率分布的相对熵计算公式为:

以连续概率分布为例,交叉熵 的计算公式为:

信息熵 的计算公式为:

从而可知:
当神经网络训练一个给定的数据集的时候,该数据集中每个的样本数据的类标签概率分布的信息熵 (用于衡量一个分布的不确定性)是固定的。所以,相对熵 只和交叉熵 有关。由此可见,深度学习中经常使用交叉熵作为损失函数,实际上度量两概率分布差异的是相对熵。



相对熵的最小值

针对引言中的第二个问题,从上一节可以知道,相对熵跟交叉熵有相同的变化趋势,所以这个问题简化为相对熵是否存在最小值。相对熵其实是一个更抽象的概念 散度的一个特例。 散度的定义和相关性质如下:
定义 1:给定一个严格凸的二次连续可微函数 ,在 的概率密度函数的 散度的定义为:

其中 确保当分布 时, 确保散度 具有非负性。
证明:由定义可知, 是一个严格凸函数,所以可知局部极小值点也是全局极小值点,又因为 ,进一步则有:
当且仅当 时:

两边取等号。

散度中的 函数为 时,即为相对熵

所以综上所述,当 时, 取到最小值为 。进而可以求得,交叉熵 的最小值为:
即交叉熵的最小值为信息熵。


相对熵最小值与维数的关系

引言中的第三个问题是对相对熵最小值数学性质的进一步探讨。给定一个离散的等概率分布向量:
由一节可知,交叉熵的最小值为信息熵,则该分布的信息熵 为:

所以可知,当 变大的时候,信息熵 也会跟着变大,则其相对熵的最小值也会跟着变大。相应的代码如下所示:

由实验结果可以发现,随着等概率分布维数的增加,其最小交叉熵的数值也增加。



多标签分类学习

引言中第四个问题的提出,其实是要打破一个固有认知,即神经网络参数训练熟的时候,交叉熵的损失函数不都为 ,例如在多标签分类学习中,交叉熵理论的最小值就不为 。多标签分类任务与多分类任务有所不同,多分类任务是将一个实例分到某个类别中,多标签分类任务是将某个实例分到多个类别中。如下图所示,即为一个多标签分类学习的一个例子,一张图片里有多个类别,房子,树,云等,深度学习模型需要将其一一分类识别出来。

假设 表示 维样本空间, 表示 维标签空间。此时训练该多标签分类器的损失函数可以有两种分别是二元交叉熵函数和多元交叉熵函数。
当采用二元交叉熵函数的时候,该多标签分类器的最后一层为 ,多标签分类模型预测的概率向量为 ,其中 。此时真实标签分布 和预测概率分布 的二元损失函数为:

此时该二元交叉熵的损失函数的最小值为
测试样本输入到训练成熟多标签分类器的时候,该样本的预测概率向量的分量如果大于阈值 时,则表示为 1;如果小于阈值 ,则表示为
当采用多元交叉熵函数的时候,该多标签分类器的最后一层为 ,多标签分类模型预测的概率向量为 ,其中 。此时真实标签分布 和预测概率分布 的多元交叉熵损失函数为:

此时该多元交叉熵的损失函数的最小值为 。测试样本输入到训练成熟多标签分类器的时候,该样本的预测概率向量的分量如果大于阈值 时,则表示为 1;如果小于阈值  ,则表示为

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存