查看原文
其他

最大熵原理和最优传输

顾险峰 老顾谈几何 2023-02-01


在深度学习中,自然的数据集被视为定义在流形上的一个概率分布,学习的主要目的就在于学习数据流形的结构,得到概率分布的表示。


很多学习算法是根据已有的观察样本来学习概率分布。观察样本只提供关于未知分布的部分知识,因此解并不唯一,我们需要定义各种能量,在满足观察的限制下,来优化这些能量。最为常见的优化框架就是最大熵原理熵衡量了一个随机变量的不确定性,熵最大的时候,随机变量最为不确定。最大熵原理就是在只掌握未知分布的部分知识时,选择符合这些知识并且熵值最大的概率分布。


最优传输给出了另外一个理论框架。给定空间,其上所有的概率分布构成一个无穷维空间。对于任意的概率分布,最优传输理论定义了它们之间的距离,例如Wasserstein距离,进而定义了黎曼度量,平行移动,协变微分,这为我们在中进行优化供了理论工具。作为定义在上的函数,熵是测地凸函数,因此熵的Hessian可以作为的另外一个黎曼度量。在很多应用场合,熵度量和Wasserstein度量彼此等价。目前的深度学习主要是基于熵度量的,理论上可以用最优传输的框架加以解释和提升。


通常情形下,用熵优化的框架容易理解和计算,用熵作为正则化能量也可以提高最优传输运算的速度。但是对于精密的应用场合,最优传输理论给出了严格的精度和稳定性保证。例如在生成模型中,模式崩溃的理论解释来自于蒙日-安培方程的正则性理论,避免模式崩溃的算法设计也来自于最优传输的几何理论。再如,给定两个支集彼此相离的概率测度,相比于相对熵的KL散度,Wasserstein距离更加精确。


这里,我们首先用最大熵原理推导给定期望和方差的分布中熵最大者必是高斯分布;然后用最优传输理论证明在黎曼流形上,熵的梯度流就是通常意义下的热流,无约束熵最大的分布是均匀分布,这显示了这两种理论的等价性;然后我们考察高斯分布之间的Wasserstein距离,最后推广到高斯过程之间的Wasserstein距离。

最大熵原理

这里我们用最大熵原理来推导一些统计和信息论中的经典结果。

1. 定义在区间上的概率分布,熵最大的分布一定是均匀分布。我们极大化熵能量,

具有限制

运用拉格朗日乘子法,能量转化为:

我们直接求变分,得到

由此我们得到为常数。

2. 如果概率分布定义在,具有有限的期望值,那么熵最大的分布是指数分布。同理,我们定义能量

直接求变分

由此,我们得到. 由单位面积和有限期望的条件,我们得到,并且,因此

3. 如果概率分布定义在,具有数学期望,方差为,那么熵最大的分布是高斯分布。同理,我们定义能量

直接求变分

由此,我们得到. 由单位面积和有限期望的条件,

最优传输简介

这里我们简介最优传输的基本理论。给定空间中的概率测度,和空间中的概率测度,映射满足条件:

我们称为保测度映射,记为。传输代价函数定义为代表将单位质量从点 传输到点的代价。

a. Monge问题就是在所有的保测度映射中,极小化下面的传输代价,

Monge问题的解被称为是最优传输映射(Optimal Transport Map)。

b. Kantorovich对偶问题等价于Monge问题:考察所有的函数偶满足

我们极大化Kantorovich能量:

这里被称为是Kantorovich势函数。我们定义c-变换:

那么Kantorovich对偶问题等价于

我们可以构造一个序列 来极大化上面的能量。如此得到最优Kantorovich势能函数的c-凸性。

c. Brenier 问题 假设传输代价和Kantorovich势函数足够光滑,由c-变换的定义,我们得到微分方程:

假设,我们得到

这表明在这些条件下,最优传输映射是某个凸函数的梯度,,这个凸函数被称为是Brenier势能函数。如此我们的Brenier问题:寻找凸函数 , 满足。假设密度函数满足:,那么Brenier问题等价于求解下面的Monge-Ampere方程。,我们得到:

Monge-Ampere方程的解给出了最优传输映射,最优传输映射的传输代价给出了所谓的Wasserstein距离

我们考察上所有具有有限二阶动量的概率测度构成的空间 ,在Wasserstein距离下是一个无穷维的距离空间。我们定义中的测地线,,满足条件

McCann平移给出了测地线的显示表达:给定 是相应的Brenier势能函数,那么连接的测地线是

熵流

我们从最优传输角度来考察熵流,证明Wasserstein熵流就是热流,这显示了最大熵原理和最优传输理论的一致性。

a. Brenier-Benamou问题从流体力学角度给出了测地线的另外一种等价描述。考察空间中的流场,密度函数为,流速场为,那么有质量守恒定律,我们得到连续性方程

那么,流场的完整描述为 ,Benamou-Brenier问题是极小化整个流场的动能来求取测地线:

假设极小化流场的动能,对于任意的和无散场,那么

所以也是Benier-Benamous问题中的可容许速度场,由此我们有:

由此得到

这意味着是某个函数的梯度场,。Benamou-Brenier问题可以归结为:

b. Otto变分和熵流 给定起点相同的两条测地线,其在点的切向量为

其内积(黎曼度量)为

给定一个概率测度,其熵(Entropy)被定义为

考察一条路径,我们来求导:

由连续性方程,假设,由此

同时

我们得到

这意味着熵的Wasserstein梯度等于,带入连续性方程

这意味着熵的Wasserstein梯度流等价于热流!将代入,我们得到熵耗散的速度等于

令时间趋于无穷,则成为均匀分布。由此最优传输推导出的熵流和经典的热流相一致。

c. KL散度 类似的,如果我们考虑定义在空间中的能量

这里是一个光滑函数,满足归一化条件

如此得到的Wasserstein梯度流是经典的线性Fokker-Planck方程:

由以上方程,我们得到当时,。由此我们得到能量的一种解释:

关于的相对Kullback信息,也称为Kullback-Leibler散度。这解释最优传输和KL散度的关系。

高斯分布的最优传输

高斯分布是最为普遍使用的分布,高斯分布之间的最优传输具有封闭的公式,这为计算带来很大的便利。给定高斯分布,其相对于勒贝格Lebesgue测度的密度函数为

这里是一个向量,是一个对称正定矩阵。空间中所有的测度构成的空间记为 空间中的全测地子流形,可以证明

这里是所有构成的子流形。Wasserstein度量在中可以表示成

可以证明,两个高斯分布之间的2-Wasserstein距离为

给定高斯分布,我们定义矩阵

由此定义矩阵

那么 是连接的测地线。

高斯过程的最优传输距离

下面我们将高斯分布推广到高斯过程。高斯分布(Gaussian Distribution)是定义在空间的随机变量,高斯随机变量的每次采样是中的一个点;高斯过程(Gaussian Process)是定义在函数空间的随机变量,高斯过程的每次采样都是一个定义在上的函数。

给定一族随机变量,使得限制在任意有限集合上是一个高斯分布,这里是指标集合,那么被称为是一个高斯过程(Gauss Process)。一个高斯过程被期望函数和协方差 函数完全决定:

这里对称、半正定矩阵。令是定义在-可积函数空间。协方差函数定义了一个积分算子,定义如下:

被称为协方差算子。令的标准正交基底,那么的迹定义为:

给定两个高斯过程诱导的协方差算子为。 上采样,得到定义在上的高斯分布,高斯过程的Wasserstein距离定义为之间的Wasserstein距离,

这里中的标准度量。

高斯过程(GP)的2-Wasserstein距离可以被高斯分布(GD)的Wasserstein距离来逼近。令的标准正交基底,我们定义

高斯分布之间的2-Wasserstein距离收敛到高斯过程之间的2-Wasserstein距离,

小结

最优传输理论为所有概率测度组成的空间定义了黎曼度量和绝对微分,这使得在所有概率测度组成的空间中进行优化成为可能。这与传统的基于最大熵原理的框架相辅相成,彼此具有一定的等价性。例如,熵的Wasserstein梯度流就是传统的热流,传统的KL散度也有类似解释。

很多时候,最优传输的观点会给我们带来更加精密的结果和更深刻的洞察。



最近,丘成桐先生和顾博士合著了《计算共形几何-理论篇》,刚刚出版:


共形几何植根于基础数学,是很多领域的交叉点:黎曼面理论,复分析,微分几何,代数拓扑,几何偏微分方程,代数曲线等等;计算共形几何和计算机科学中的计算几何,数字几何,数值偏微分方程也有亲缘关系。这门学科的诞生是因为三维技术的蓬勃兴起,特别是三维扫描技术(例如基于结构光的相位平移技术)、计算机图形学技术(例如曲面参数化、纹理贴图技术)、计算机视觉技术(例如曲面注册配准,人脸表情捕捉)的迅猛发展,使得传统的欧几里得几何和线性代数方法无法解决这些领域提出的深刻问题,工程医疗领域必须系统引入现代微分几何和拓扑的思想和方法,发展严密而实用的计算方法。计算共形几何响应了时代的呼唤,从第一性原理出发推动了科学技术的发展。


欢迎大家阅读传播。同时由于顾博士的学识有限,工作疏忽,书中会有一些不严谨和错误之处,欢迎广大读者提出宝贵的批评意见!




《计算共形几何-理论篇》的二维码。





请长按下方二维码,选择 “识别图中二维码”即可关注。




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存