看穿机器学习的黑箱(III)
上周,老顾访问了UCLA的师兄朱松纯教授和吴英年教授,向他们学习计算机视觉的统计观点。早在二十多年前,以Mumford先生,朱松纯教授为代表的计算机视觉领域的哈佛学派就大力提倡将统计概率系统性地引进到视觉领域,用统计方法来解释和处理视觉领域的基本问题。目前,这一方法论早已在视觉领域深入人心,实际上也是机器学习的理论基础之一。最优传输理论描述了概率分布的几何,因此有助于我们研究视觉方面的机器学习。下面,我们开始撰写第三次讲稿。
概览
直观而言,视觉领域机器学习的统计观点如下:我们将所有可能的图像构成的空间设为
近年来,依随Internet技术的发展,人类已经积累了大量的视觉数据,这使得估计各种概率分布成为可能。同时,GPU技术的发展,使得各种统计计算方法的实现成为可能。因此,我们迎来了机器学习的科技大潮。但是,我们依然无法严密解释机器学习算法的有效性。
老顾倾向于认为,从基础理论角度而言,研究概率分布的一个强有力工具是最优传输理论(optimal mass transportation theory),这个理论着重揭示概率分布这一自然现象的内在规律,因此并不从属于某个学派,也不依赖于具体的算法。相反,这一理论会为算法的发展提供指导,同时真正合理有效的算法(例如机器学习算法),应该可以被传输理论来解释。
简而言之,传输理论给出了概率分布所构成空间的几何。给定一个黎曼流形,其上所有的概率分布构成一个无穷维的空间:Wasserstein空间,最优传输映射的传输代价给出了Wasserstein空间的一个黎曼度量。Wasserstein空间中的任意两点可以用Wasserstein距离来测量相近程度,自然也可以用测地线来插值概率分布。每个概率分布有熵,沿着测地线熵值的变化规律和黎曼流形的曲率有着本质的关系。这一几何事实在网络领域已经被应用,但在视觉领域,似乎还没有相关工作。
但在实际计算中,高维的最优传输映射,Wasserstein距离计算复杂。一个自然的想法是降维,将高维空间的概率分布投影到低维子空间,在低维空间上计算边际分布之间的变换。这有些象盲人摸象,每次得到局部信息,如果摸得充分,我们也可以恢复大象的整体信息。
回顾
在第一讲(看穿机器学习W-GAN的黑箱)中,我们给出了最优传输问题的凸几何解释:给定两个概率分布
这里
在第二讲(看穿机器学习的黑箱(II))中,我们澄清了这样的观点:相比于学习一个映射,学习一个概率分布要容易很多。满足
但是,在视觉问题中,通常图像全空间的维数非常高,计算难度较高。因此,我们可以放弃理论上的最优性,寻找计算更加简单有效,同时又和最优传输距离等价的算法。下面,我们就讨论这些更为实用的算法及其背后的理论。
直方图均衡化
图1. 直方图均衡化结果(histogram equalization)。
直方图均衡化是提高灰度图像对比度的常见算法。如图1所示,左侧输入图像的灰度分布在一个狭窄区域,朦胧昏暗;右侧是直方图均衡化的结果,清晰明亮,对比鲜明。我们设输入图像像素的灰度为一随机变量,其取值范围为单位区间
实际上,传统的直方图均衡化就是一维的最优传送映射。假设我们有两个连续的概率分布
那么直方图均衡化映射就是传输映射:
, 单调递增。
另一方面,我们应用最优传输理论:存在一个凸函数,其梯度映射给出最优传输映射。由函数
因此,一维的最优传输映射非常容易计算。下面,我们应用一维最优传输映射来近似高维最优传输映射。
迭代分布传输算法
有多种最优传输映射的近似算法。我们先讨论迭代分布传输算法(Iterative Distribution Transfer ):给定单位向量
投影诱导的概率分布(边际概率分布)记为
由此构造映射,在标架
其诱导的概率分布为
将初始概率分布
图2. 从拉东变换恢复的医学图像。
这一论断的证明需要用到拉东变换(Radon Transform):给定
换句话说,给定一个单位向量,它生成一条直线,我们将全空间向这条直线投影,得到边际概率分布。拉东变换的基本定理断言:如果两个概率测度的拉东变换相等,则两个概率测度相等。如图2所示,这一定理是医学图像上CT断层扫描技术的基本原理。
迭代算法如果最后达到一个平衡状态,则在任意一条过原点的直线上,
投影Wasserstein距离梯度下降法
另外一种迭代算法想法比较类似。给定两个
我们考察所有的单位向量,然后取平均
去一个步长参数
这里
图3. 用于愚弄深度神经网的图像(A. Nguyen, J. Yosinski and J. Clune, Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images, CVPR2015.)
局限性和脆弱性
拉东变换将联合概率分布转换成向所有一维子空间投影所得的边际概率分布,从而实现了降维,简化了计算。但是,如果有一些子空间的边际分布缺失,我们无法精确恢复原来的联合分布。在视觉问题中,每个线性子空间被视为一个特征,向子空间投影,等价于特征提取。
深度神经网在解决视觉分类问题中表现出色,但是也非常容易被愚弄。如图3所示,人类可以轻易看出这些是非自然图像,在现实生活中不具备任何意义。但是深度神经网络非常自信地将它们归结为训练过的类别。如果,我们以欣赏现代抽象艺术的心态来研究这些图像,我们能够领会到深度神经网络分类结果的内在合理性:这些图像的确具有它们所对应类别的内在“神韵”。从纹理层次而言,它们和对应类别的纹理非常“神似”;从语义层面而言,这些图像则是无意义的和荒谬的。
我们可以给出一种解释:那就是投影子空间选得不够,因此即便是在这些子空间上边际概率分布相似,但是联合概率分布依然相差很大。深度神经网所得到的训练集是自然图像,图3这些图像都在自然图像空间之外,但是投影在所选择的子空间后,自然图像和非自然图像无法进行分别。由此,引发了深度神经网络脆弱性。
图4. 视网膜到大脑皮层的映射是保角变换。(A. Fazl, S. Grossberg and E. Mingolla, Visual Search, Eye Movements and Object Recognition)
人类的低级视觉在很大程度上依赖于统计特性,因此可以归结为对概率分布的处理和演算。人脑是否真的在计算最优传输映射、计算Wasserstein距离?在历史上,人类经常首先发现某些数学原理,然后又发现这些原理在生物器官上早已应用。例如,人类首先发现了傅里叶分解原理,然后发现人类耳蜗神经结构就是在对声音信号进行傅里叶分解;又如,人类首先发现了保角变换(共形变换),后来发现从视网膜到第一级的视觉中枢就是保角变换,如图4所示。这项工作曾经获得过诺贝尔奖。因此,如果若干年后,人们证实大脑的确在计算概率分布之间的距离,老顾也不会觉得意外。
因此,我们相信在一些视觉应用中,深度神经网络隐含地构建概率模型,我们可以直接用概率的工具,例如最优传输理论及其各种降维近似,直接取代神经网络,从而使得黑箱透明。