前沿研究丨深度学习的几何学解释

Original Engineering 中国工程院院刊 2022-12-06

收录于合集

#中国工程院院刊 647 个

#深度学习 7 个

#几何学解释 1 个

#人工智能 30 个

本文选自中国工程院院刊《Engineering》2020年第3期

作者：雷娜，安东生，郭洋，苏科华，刘世霞，罗钟铉，丘成桐，顾险峰

来源：A Geometric Understanding of Deep Learning[J].Engineering,2020,6(3):361-374.

导语

生成对抗网络（GANs）是无条件图像生成的主要方法之一。在对数据集进行训练后，GANs能够生成逼真的、视觉上吸引人的样本。GANs经过多次改进，其中一个突破是将最优传输（OT）理论与GANs相结合。

中国工程院院刊《Engineering》刊发《深度学习的几何学解释》一文，从几何角度来理解深度学习，利用OT理论来解释GANs。根据数据流形分布假设，GANs主要完成两个任务——流形学习和概率分布变换。概率分布变换可以利用OT方法直接实现。OT理论解释了模式崩溃的基本原因，并指出生成器和判别器之间应该是合作而非竞争的内在关系。此外，文章提出了AE-OT模型，提高了理论的严谨性、增强了训练的稳定性和效率，并且消除了模式崩溃问题。

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=g31590oicky

视频介绍丨深度学习的几何学解释

视频来源：雷娜

本文从几何角度来理解深度学习，提出了生成对抗网络（GANs）的最优传输（OT）观点。GANs是无条件图像生成的主要方法之一。在对数据集进行训练后，GANs能够生成逼真的、视觉上吸引人的样本。GANs方法训练一种将随机噪声转换成真实图像的无条件生成器和一种测量生成样本与真实图像之间差异的判别器。GANs得到了各种各样的改进。其中一个突破是将最优传输理论与GANs相结合，如 WGAN。在WGAN框架中，生成器计算从白噪声到数据分布的传输映射，判别器计算真实分布与生成数据分布之间的 Wasserstein 距离。

流形分布假设

GANs的巨大成功可以解释为它有效地发现了真实数据集的内在结构，这可以用流形分布假设来表示: 高维空间中代表一个特定类的自然数据嵌入在一个低维流形上。嵌入在背景空间 X 的真实数据的分布ν集中在流形Σ上。(Σ， ν) 共同揭示了真实数据集的内在结构。GAN模型计算隐空间Z到流形Σ的解码映射, ξ表示深度神经网络的参数。ζ是隐空间的高斯分布，将 ζ 映射到。判别器计算真实的数据分布ν和生成的数据分布之间的距离，例如 Wasserstein 距离 W_c(; ν), 其等价于Kontarovich势。

虽然 GANs 有很多优点，但是它们也有一些严重的缺点。从理论上讲，对深度学习基本原理的理解仍然比较原始。从实践上讲，GANs的训练不稳定，对于超参数敏感，并且存在模式崩溃问题。最近Meschede等人研究了 9 种不同的 GAN 模型和变体，表明基于梯度下降的GAN优化并不总是局部收敛的。

根据流形分布假设，自然数据集可以表示为流形上的概率分布。因此，GANs主要完成两项任务：(1) 流形学习：即计算隐空间与背景空间之间的解码和编码映射；(2) 概率变换：在隐空间或图像空间中，计算白噪声与数据分布之间的变换。

最优传输观点

最优传输（OT）理论是研究以最经济的方式将一个概率分布转化为另一个概率分布的问题。OT给出了计算最优映射的严格而强大的方法，将一个概率分布转换为另一个分布，以及它们之间的距离。如前所述，GANs完成了流形学习和概率测度变换两大任务。后一项任务可以直接用OT方法来完成。具体来说, 利用OT理论可以计算出测度转换映射T。判别器计算真实数据分布和生成数据分布之间的Wasserstein距离W_c(µ_θ; ν)，这个可以利用 OT 直接计算得到。

从理论的角度来看，GANs可以由最优传输来解释，从而使得一部分黑箱变得透明，同时使得概率测度变换简化为一个凸优化过程。使用OT理论, 解的存在和唯一性具有理论保证, 收敛速度和逼近精度可以被全面分析。OT也解释了模式崩溃的根本原因。根据 Monge-Ampere方程的正则性理论，测度变换映射在某些奇异集上是不连续的。但是深度神经网络只能表达连续函数/映射。因此，作为目标的测度变换映射位于GANs可以表示的空间之外。这种内在的冲突使得模式崩溃不可避免。

AE-OT 模型

为了降低GANs的训练难度，特别是避免模式崩溃，我们提出一种基于最优传输理论的更简单的生成模型: 自编码最优传输模型 (AE-OT)。如前所述，生成模型的两个主要任务是流形学习和概率变换。自动编码器计算编码映射f_θ : Z →Σ 和解码映射 : Σ → Z , 目的是为了流形学习。最优传输映射 T : Z →Z, 把白噪音分布 ζ 通过编码映射传输到隐空间的数据分布。

AE-OT 模型有很多优点。从理论上讲，最优传输理论已经建立并得到了充分的理解。通过解耦解码映射和OT映射，可以提高生成模型的理论严密性，使部分黑盒透明。实际上，OT映射简化为一个凸优化问题，保证了解的存在和唯一性，使训练过程不会陷入局部最优。本文提出的生成模型基于梯度下降法，具有线性收敛性；其未知数的个数与训练样本的个数相等，避免了参数过多的问题。在计算OT的蒙特卡罗方法中，采样密度可以完全控制OT映射的误差范围；同时自适应等级分层算法进一步提高了效率。本文提出的OT算法可以利用GPU并行实现。同时实验验证了AE-OT模型可以消除模式崩溃问题。

图1 生成模型 AE-OT，将最优传输和自编码器结合

改编丨雷娜

注：本文内容呈现略有调整，若需可查看原文。

改编原文：

Na Lei, Dongsheng An, Yang Guo, Kehua Su, Shixia Liu, Zhongxuan Luo, Shing-Tung Yau, Xianfeng Gu.A Geometric Understanding of Deep Learning[J].Engineering,2020,6(3):361-374.

☟ 如需阅读全文，请扫描二维码或点击文末“阅读原文”

☟ “人工智能”专题更多相关文章，请点击标题链接或扫描二维码查看

人工智能——使能技术、赋能社会

Artificial Intelligence: Enabling Technology to Empower Society

吕跃广

扫描二维码，阅读阅文

AI的多重知识表达

Multiple Knowledge Representation of Artificial Intelligence

潘云鹤

扫描二维码，阅读阅文

如何解读机器知识

How to Interpret Machine Knowledge

李发伸，李廉，殷建平，张勇，周庆国，况琨

扫描二维码，阅读阅文

通用智能本体

The General-Purpose Intelligent Agent

卢策吾，王世全

扫描二维码，阅读阅文

人工智能的下一步突破——多学科交叉内禀

The Next Breakthroughs of Artificial Intelligence: The Interdisciplinary Nature of AI

庄越挺，蔡铭，李学龙，罗先刚，杨强，吴飞

扫描二维码，阅读阅文

从脑科学到人工智能

From Brain Science to Artificial Intelligence

范静涛，方璐，吴嘉敏，郭雨晨，戴琼海

扫描二维码，阅读阅文

因果推理

Causal Inference

况琨，李廉，耿直，徐雷，张坤，廖备水，黄华新，丁鹏，苗旺，蒋智超

扫描二维码，阅读阅文

深度神经网络加速器体系结构概述

A Survey of Accelerator Architectures for Deep Neural Networks

陈怡然，谢源，宋凌皓，陈凡，唐天琪

扫描二维码，阅读阅文

神经自然语言处理最新进展——模型、训练和推理

Progress in Neural NLP: Modeling, Learning, and Reasoning

周明，段楠，刘树杰，沈向洋

扫描二维码，阅读阅文

医疗保健中的人工智能——综述与预测性案例研究

Artificial Intelligence in Healthcare: Review and Prediction Case Studies

荣国光，Arnaldo Mendez，Elie Bou Assi，赵博，Mohamad Sawan

扫描二维码，阅读阅文

中国的人工智能伦理原则和治理技术发展

Ethical Principles and Governance Technology Development of AI in China

吴文峻，黄铁军，龚克

扫描二维码，阅读阅文

“暗”，不止于“深”——迈向认知智能与类人常识的范式转换

The Next Breakthroughs of Artificial Intelligence: The Interdisciplinary Nature of AI

朱毅鑫，高涛，范丽凤，黄思远，Mark Edmonds，刘航欣，高枫，张驰，Siyuan Qi，吴英年，Joshua B. Tenenbaum，朱松纯

扫描二维码，阅读阅文

深度学习中的对抗性攻击和防御

Adversarial Attacks and Defenses in Deep Learning

任奎，Tianhang Zheng，秦湛，Xue Liu

扫描二维码，阅读阅文

深度学习的几何学解释

A Geometric Understanding of Deep Learning

雷娜，安东生，郭洋，苏科华，刘世霞，罗钟铉，丘成桐，顾险峰

扫描二维码，阅读阅文

点击图片阅读丨人工智能专题

中国工程院院刊

工程造福人类

科技开创未来

微信公众号ID ：CAE-Engineering

注：论文反映的是研究成果进展，不代表《中国工程科学》杂志社的观点。

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

前沿研究丨深度学习的几何学解释

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

前沿研究丨深度学习的几何学解释

您可能也对以下帖子感兴趣