二十一世纪计算 | 深度学习革命: 进展、前景和困境 | 自由微信

原创： 21CCC 2018-05-28

编者按：《权力的游戏》常说“Winter is coming”，深度学习近几年来虽然取得了许多令人瞩目的进展，但在机器翻译、语音识别、视频识别等众多领域也面临着巨大挑战。机器学习研究发轫于上世纪50年代，至上世纪80年代兴起了连接主义，2010年后又进入了一个崭新的时代。本文中，德克萨斯大学奥斯汀分校计算机科学系教授、美国计算机协会（ACM）及美国人工智能学会（AAAI）院士Raymond Mooney为大家讲述深度学习学习的昨天、今天和明天。

德克萨斯大学奥斯汀分校计算机科学系教授Raymond Mooney

（以下为Raymond Mooney教授分享的精简版文字整理）

今天我想和大家谈谈深度学习革命，包括它的进展、前景和困境。近年来，深度神经网络解决了许多极具挑战的问题，比如语音识别、图像识别、机器翻译和棋牌游戏等等。尽管我们在深度学习领域取得了很多进展，但它也并非无所不能。深度学习还带有非常明显的局限性，不能真正解决AI。

在这之前，我先带领大家回顾一下机器学习的历史。机器学习自上世纪50年代起就有人研究，第一个神经网络也出现在50-60年代。神经网络经历了几起几落的发展阶段，从单层神经网络到符号AI和知识工程，到多层神经网络和符号学习，到统计学习和核方法，再到近年来的深度学习。需要特别指出的是，现在基于神经网络的深度学习吸引了人们绝大部分的注意力，相对而言，符号学习这一也很重要的分支没有得到应有的重视。我们组现在正在从事符号学习方面的研究，希望把深度学习和符号学习结合起来，真正实现人工智能。

机器学习大多数面临的是分类问题，根据某些事物的特点或结构性描述对其进行分类。因此，在训练机器学习分类时，我们通常会举一个训练的例子。最早的机器学习训练模型是单体的神经元数学模型，主要是对某种类型的假设进行描述。当某些输入达到阈值单元时即输出1，反之则输出0。1957年，弗兰克·罗森布拉特（Frank Rosenblatt）提出感知器算法，它主要用于解决单层的神经网络，只有输入层和输出层，没有隐藏层。感知器利用爬山法从训练样本中进行学习来更新模型的参数。

然而，感知器算法只能学习线性分割的内容，其应用非常有限。1969年，马文·明斯基（Marvin Minsky）和西摩尔·帕普特（Seymour Papert）发表了《Perceptrons: An Introduction to Computational Geometry》，书中描述了简单神经网络也就是感知器的局限性。此后七十年代到八十年代初期，神经网络方面的研究陷入了低谷。

上世纪80年代中期，连接主义兴起，但是还是有很多符号学习方面的工作。这一时期反向传播算法被用来训练三层神经网络。多层神经网络模型理论上无法确保实现收敛，但在实践中仍然有非常惊人的应用能力。当人们对更深度的神经网络进行研究时，反向传播的效果进一步降低。1995-2010这15年间，神经网络的研究陷入了第二次低谷，这一时期机器学习研究的兴起转移到概率图模型和以支持向量机为代表的核方法。

2010年后，我们进入了深度学习的新时代。人们开始训练多于三层的深度神经网络。深度学习的研究聚焦在卷积神经网络、递归神经网络以及深度强化学习，并在包括计算机视觉、机器翻译和语音识别以及视频和棋牌游戏等几大方面取得了成功。真正赋予深度神经网络革命的是数据，而互联网以及电子档案库赋予我们收集大规模标注数据的能力，也包括使用“众包”技术。同时我们也拥有了高效处理这些大数据的能力，其中使用到一些特殊的硬件，如GPU和TPU。

卷积的概念早在1998年就被提出，当时用于模拟人类的视觉，从图像的小区域提取一些局部特征，层次越深提取的特征层次越高。通过集合局部特征，我们可以得到一个总体特征。卷积神经网络的引入大大降低了图像识别的误差率。深度学习另外一个很大的创新是循环神经网络，一簇用于处理序列数据的神经网络。递归神经网络（RNN）通过添加跨越时间点的自连接隐藏层从而获得对时间进行显式建模的能力。最简单的RNN在训练中会遇到梯度消失或爆炸的问题，梯度消失会导致序列很前面的信息不能传播到序列的后面，梯度爆炸是指反向传播的过程中梯度可能变得非常大，导致整个训练过程不稳定，因此简单的RNN很难训练。长短记忆模型（LSTM）的提出就是为了解决简单RNN的梯度消失/爆炸问题，同时更好的描述序列中长距离信息传递。LSTM通过引入一系列的门（gates），包括输入门、输出门和遗忘门，来克服简单RNN的这些局限性。

LSTM最早提出于1997年，但一直没有很好的效果，直到最近才被应用，因为它在做机器翻译方面发挥了比较大的作用。我们使用LSTM的循环神经网络可以实现Seq2Seq模型，来做法语和英语之间的互相翻译。首先拿一个法语单词序列并把它们都压缩成单个向量，每一个向量都能够代表一个法语单词的意思。先将这个向量的序列编码成一个深度神经网络向量序列，然后再设计另外一个解码器，把这个序列又解码成英语单词的序列。在这个过程中，我们可以使用反向传播算法，用给定的“法语-英语”序列对数据来训练神经网络模型。最终，我们可以得到这样一个自动机器翻译系统，这个方法令人惊喜地奏效。LSTM Seq2Seq实现了一种新的人类语言翻译方法。当下大家把这类使用神经网络的方法叫做神经机器翻译（NMT），这种方法比已有的统计机器翻译（SMT）效果更好。递归神经网络也在语音识别上取得了大的进展，例如中文语音识别。在我最近从事的一项研究中，我们试图用LSTM的Seq2Seq模型实现视频描述，将输入的视频画面帧序列映射成描述该视频英语单词序列。我们研究得到了一个视频到文本的方法S2VT，具体做法是，先用卷积神经层和LSTM层将图片帧编码，然后训练另一个LSTM层来实现序列解码，最终得到单词的序列。我们用这个方法得到了很好的结果。这里有一些效果非常好的例子。

深度学习不仅能够实现分类，近期非常火热的深度强化学习能够做不同层级的系列决策，比如在棋牌类游戏里取得的巨大的成功。在这类任务中，agent需要根据环境的不同采取不同的动作，而这些动作也会改变环境。在这个过程中，动作的奖励可能会在其后很长一段时间后得到。DeepMind利用卷积神经网络来处理围棋的盘面，然后运用深度神经网络互相博弈去学习下围棋。值得一提的是，在初始化AlphaGo的时候，他们使用人类的棋谱数据。这一方面体现的是人类的智慧，另一方面则是系统的自我对弈。

深度学习近年来取得的进展非常瞩目，但在机器翻译、语音识别、视频识别等众多领域我们也面临着巨大挑战。未来十年中，我们将会看到这些领域仍然会取得更大的进展，实现更多的应用。例如，我们可以预见自动驾驶汽车、对话agent、家用/工业机器人等等都可以用深度学习的技术来获取更好的未来。

《权力的游戏》经常说一句话：“冬天就要来临。”人工智能确实已经处在一个前所未有的高潮，但我们也必须知道还有很多问题并没有完全解决，寒冬是否会再度来袭不得而知。我们要意识到当下对深度学习的过度宣传，因为神经网络模型受到方法本身的限制。当前深度神经网络模型很容易被人为构造的样例愚弄，比如在图片中改变少量像素就能导致模型得到迥然不同的结果，而这个改变对人类的图片识别没有影响。所以我们有理由相信，人的大脑并不是像深度神经网络一样工作的。同样的反面样例也出现在文本类任务中。比如在一个问答的例子中，增加一句不会对人类产生影响的句子到题目文本中，能够让深度神经网络问答系统得出完全不同的回答。

深度神经网络强制将语义编码到实数值的向量中，而用树状、图状和逻辑表示的结构化语义不能完美地编码成向量。例如，对于复合问题“伍迪·艾伦和谁合作的电影更多，戴安·基顿还是米亚·法罗？”，我们可以轻松将它翻译为结构化的查询，然后输入到IMDb之类的知识库中得到最后结果。但是深度神经网络无法完成这项任务，它试图把这些逻辑语句表示成实数向量，这根本不可行。

当前深度神经网络确实已经取得了非常大的进步，但是它因为有本质的限制，并没有解决核心的人工智能问题。人工智能还有很长的一段路要走，变革还会继续。最终我们可能需要将这种统计学方法与结构化的、逻辑的方法结合起来，比如发展“老式的人工智能”（Good Old-Fashioned Artificial Intelligence，符号人工智能）。

想要了解Raymond Mooney教授的演讲全文，请戳下方视频观看：

https://v.qq.com/txp/iframe/player.html?vid=s05026e3041&width=500&height=375&auto=0

你也许还想看：

● 二十一世纪计算 | John Hopcroft：AI革命

● 二十一世纪计算 | 从工匠到工业，攒积AI的未来力量

● 二十一世纪计算 | 洪小文：帮助机器和人类共同学习

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：msraai@microsoft.com。