查看原文
其他

【强基固本】信息量、熵、相对熵(KL散度)、交叉熵

“强基固本,行稳致远”,科学研究离不开理论基础,人工智能学科更是需要数学、物理、神经科学等基础学科提供有力支撑,为了紧扣时代脉搏,我们推出“强基固本”专栏,讲解AI领域的基础知识,为你的科研学习提供助力,夯实理论基础,提升原始创新能力,敬请关注。

作者:知乎—李默之

地址:https://www.zhihu.com/people/li-mo-zhi-11

在机器学中我们经常通过交叉熵评估模型预测的效果,在清楚交叉熵的具体概念之前,我们需要清楚与其相关的几个概念,分别是信息量、熵、相对熵(KL散度)。

01

信息量
一个事件发生的概率越小,则其信息量越大。事件  的信息量表示为:
其中,  为事件  的发生概率,  通常表示以e或2或10为底的对数(以e为底时,单位为比特(bit),以2为底时,单位为耐特(nat),以10为底时,单位为哈特(hart))。
事件发生概率  ,  函数的单调性可以较好地表征不同概率对应的信息量大小,但当函数的底大于1时(  ),其为增函数,所以要在前面加一个“-”,从而使原函数变为单调减函数,由此可体现出随着事件发生概率的增大信息量随之减小。
左图为log, 右图为-log

02

熵(Entropy)
熵是对一个事件中所有可能发生情况的度量,即表示一个事件所有信息量的期望,表示为:
其中n表示事件x发生的n种可能,如一个事件X有三种发生情况,分别用A、B、C表示,则该事件的熵可表示为:
若在0-1分布问题中(如抛硬币),其熵表达式可简化为:

03

相对熵/KL散度(Kullback-Leibler divergence)
在机器学习中,往往存在两个分布,一个是数据样本的真实分布,该分部由原始数据决定;另一个是模型预测的分布,KL散度就是用来衡量以上两个分布的差异程度,表示为:
其中P为数据样本概率分布,Q为模型预测的概率分布。当P和Q的分布越接近,  的值越小,表明模型对原始数据分布特点预测的越准。

04

交叉熵(Cross-Entropy)
交叉熵是由KL散度公式推导而得:
将对数的除法转化为两项的差,通过观察,公式的第一项即为熵H(x)加一个负号,则原式可表示为:
其中第二项即为交叉熵,表示为:
因为熵H(x)部分的值不变,所以在评估模型好坏时只需关注交叉熵H(P,Q)的值。
e.g. 在机器学习中,样本P有三类特征,P不同类别的概率分布和Q预测的概率分布分别如下表所示。

则此时交叉熵即为:

参考文献:

[1] https://en.wikipedia.org/wiki/Kullback–Leibler_divergence

[2] https://zhuanlan.zhihu.com/p/109169966

[3] https://blog.csdn.net/tsyccnh/article/details/79163834


本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“强基固本”历史文章


更多强基固本专栏文章,

请点击文章底部“阅读原文”查看


分享、点赞、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存