观点 | 洪小文:人工智能简史之从寒冬到复兴
丹棱君有话说:人工智能发展至今,已有 61 年,一路走来,经历过两次有名寒冬期,第一次是从 1974 - 1980 年,第二次是从 1987 - 1993 年。人工智能为何会遇冷?然而,即便在寒冬,科学家们仍在坚守,埋头研究,直到神经网络的研究进展和大数据统计路径的显现,让人工智能迎来了春天。让人工智能从寒冬走向复兴,背后有哪些默默耕耘的科学家?他们的研究成果对于今天人工智能发展取得的进步有什么样的意义?有请微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士~
谈 AI 的历史,需要谈谈很有名的 AI 寒冬。
第一次 AI 寒冬是在 1975 年左右。1956 年,在达特茅斯会议之后,包括很多国家政府,美国国家科学基金会、军方,大家满怀希望投了很多钱。但是到 1975 年以后发生了几件事情,让 AI 进入了寒冬。
第一件事是,因为 AI 只能解决 Toy Domain(摆弄玩具一样的简单任务)。那个时候做语音,只有 10 个词汇;下象棋,大概是 20 个词汇;做视觉的都不能辨认出一个椅子。第二件事情,1956 年美国打越战,还有石油危机,所以经济也不是那么好;还有一个很有名的英国学者 Lighthill,说 AI 就是在浪费钱,AI 的研究经费也因此遭到大幅削减(注:1973 年出版的“人工智能:一般性的考察”的报告,俗称 “Lighthill 报告”中称,“迄今该领域没有哪个部分做出的发现产生了像之前承诺的那样的重要影响”。英国政府随后停止了对 Edinburgh, Sussex 和 Essex 三所大学的 AI 研究资助)。
到 1980 年开始,有些公司如 IBM 开始做一些专家系统,可以说也是有限的应用。尽管有一些缺点,但还是可以做一些事情,据说有十个亿的产出。因此,AI 也就开始回春。我也是这个时候开始进入 AI,所以也蛮幸运的。
我是 80 年代去美国 CMU(卡内基梅隆大学)的。我记得当时日本很有钱,到处在美国买楼、建实验室,所以当时日本提出了一个第五代电脑系统计划(5th Generation Computer Systems,FGCS)。当时还有公司专门做 Lisp Machines(通过硬件支持为了有效运行 Lisp 程序语言而设计的通用电脑)。就有点像今天 DNN 红,大家都在做 DNN 芯片,那时候大家都在做 Lisp Machines,Thinking (Connection) Machines,然后神经网络也刚开始发芽。
不过,到 1990 年中,AI 又第二次遇冷,为什么会这样?因为第五代计划失败,Lisp Machines 和 Thinking(Connection)Machines 都做不出来;而神经网络,虽然有意思,但并没有比其他一些统计的方法做得好,反而用的资源还更多,所以大家觉得也没什么希望了,于是 AI 又进入第二个冬天。
1990 年代统计路径的显现
差不多在冬天这个时刻,统计的方法,使用数据的方法出现了。
AI 在 1990 年以前都是用所谓的研究人脑的方式来做;而我们有太多理由来相信人脑不是靠大数据的。比如,给一个小孩子看狗和猫,看几只他就可以辨认了。可用今天的方法,要给计算机看几十万、几百万只狗跟猫的图片,它才能辨认是狗还是猫。用大数据这种方法,就在第一次 AI 寒冬和第二次 AI 寒冬之间开始萌芽。虽然 AI 是一批计算机科学家搞出来的,但事实上有跟 AI 极其相关的一门叫模式识别。模式识别一直以来都有工程师在做,从 1940 年代统计学家就在做模式识别。
我们这代人学计算机就知道两个人,一个人叫傅京孙(K. S. Fu),另外一个人叫窦祖烈(Julius T. Tou)。如果 AI 选出 60 个人的名人堂,里面会有一个叫傅京孙,那是大牛。傅京孙严格上来讲他不算 AI,但是可以包括进来,因为他也做模式识别。模式识别里面也有两派,一派叫统计模式识别(Statistical Pattern Recognition),一派叫做句法模式识别(Syntactic Pattern Recognition)。80 年代的时候,句法是很红的,统计人无人问津,后来 1990 年以后大家都用统计。
我们做语音的人很清楚,后来引入了隐马尔可夫模型(Hidden Markov Model),都是统计的方法,到今天还是很有用。尤其是在华尔街,做金融投资,做股票,很多都是做时间序列(time series data),而隐马尔可夫模型这个东西是很强大的。甚至可以说,统计的方法是我们做语音的人(发展起来的)。而且早在 1980 年,我们做语音的人就讲出这句话 “There is no data like more data(没有什么样的数据比得上更多的数据)”。从现在的角度来看,这是非常前瞻性的,而且就是大数据的概念。我们那个时代的数据量无法和现在相比,但我们已经看出来了数据的重要。而且 IBM 在这方面是了不起的,他们一个做语音的经理有次说,每次我们加一倍的数据,准确率就往上升;我们每炒掉一个语言学家,准确率也上去。
决策树也是第一个被语音研究者所使用。然后就是贝叶斯网络(Bayesian Network),几年前红得不得了,当然现在都是用深度学习网络(Deep Neural Network,DNN,在输入和输出之间有多个隐含层的人工神经网络)了。我为什么要提这些东西?今天我觉得很多人上 AI 的课,可能 75%、80% 都会讲 DNN,其实 AI 还是有其它东西的。
今天要教 AI 也是非常困难的。我还特别看了一下最近的 AI 教科书,像吴恩达等人的。他们学术界教 AI,还会教这些东西,但是如果去一般或者大多数公司,全部都是在讲 DNN 。我觉得现在找不到一本好的 AI 教科书,因为早期的书统计没有讲,或者没有讲 DNN 。我也看了下加州大学伯克利分校的 Stuart J. Russell 跟Peter Norvig写的教科书(Artificial Intelligence: A Modern Approach),里面 DNN 提了一点。可能现在也不好写 AI,因为 AI 提了这么多东西,人家说根本没用,不像 DNN 的确很有用。
我稍微解释一下 DNN 和一般统计方法的差别。统计的方法一定要有一个模型,但是模型一定是要有假设。而你的假设多半都是错的,只能逼近这个模型。数据不够的时候,一定要有一定的分布。当数据够了,DNN 的好处是完全靠数据(就可以),当然也需要很大的计算量。所以 DNN 的确有它的优点。以前我们用统计的方法做,还要做特征提取,用很多方法相当于做了一个简易的知识表示;现在用 DNN 连特征提取都不用做了,只用原初数据进去就解决了。所以现在讲 AI 不好讲的原因是,DNN 讲少了也不对,讲多了的话,说实在的,全是 DNN 也有问题。
神经网络的起伏
最早的神经网络叫感知器(Perceptron),跟第一个寒冬有关。因为一开始的感知器没有隐含层(Didden Layer),也没有激活函数(Activation Function),结果 Marvin Minsky 和 Seymour Papert 这两位就写了一本书《感知器》说,感知器连异或(XOR)都做不出来。那么,做感知器还有什么用?所以基本上就把整个神经网络第一代的进展扼杀了。
感知器连最简单的逻辑运算“异或”都无法做到,某种程度上导致了 AI 的寒冬。
其实后来人们发现误会了,其实书并没有说的那么强,不过的确造成了很大的影响。一直到 1980 年,做认知心理学的人,代表性的如 Rumelhart 和 Hinton 才复兴了 AI 。
Hinton 早期是做认知心理学的。Hinton 先在 UCSB(加利福尼亚大学圣巴巴拉分校),后来到了 CMU 。Rumelhart,Hinton 和 McClelland 复兴了多层的感知器,加了隐含层以及 Back-propagation 算法,这个时候神经网络就复兴了。而且神经网络只要加上隐含层,事实上,只要加一层,再加上激活函数,就可以模拟,甚至还有人证明可以模拟任意的函数,所以神经网络一下子就变的红了。卷积神经网络(Convolutional NN,CNN)那时候就开始出来了,然后是递归神经网络(Recurrent neural network,RNN)。因为如果要处理过往的历史,有存储,就需要回溯。用于语音和自然语言处理的时间延迟的神经网络(Time-Delayed NN,TDNN) 也都有了。
不过,那时候数据不够多。数据不够多就很容易以偏概全。第二个因素是,计算的资源不够,所以隐含层也加不了太多。这样,神经网络虽然大家都很有兴趣,也能够解决问题,但是却有更简单的统计方法,如支持向量机(Support Vector Machine,SVM),能够做到一样或者略好。所以在 1990 年代就有了 AI 的第二次冬天,直到 DNN 的出现才又复苏。
AI 的复苏
AI 的复苏,可能要从 1997 年开始说起。1997 年,深蓝打败了国际象棋冠军Garry Kasparov 。这里我要提一下一个人叫许峰雄。他当时在 CMU 做一个当时叫做深思(Deep Thought)的项目,基本上架构都有了。结果,IBM 非常聪明。他们到 CMU 参观,看到许峰雄这个组。然后也没花多少钱,最多两百万,就买下了这个组,让这些人到 IBM 做事。IBM 当时就看到,在五年之内就可以打败世界冠军,其实真正的贡献都是在 CMU 做的。许峰雄后来也离开了 IBM,加入了我们,一直做到退休。AI 复苏的实际上才刚开始。有人说这个也没有帮助到 AI 复苏,因为深蓝可以打败国际象棋的冠军,也不是算法特别了不起,而是因为他们做了一个特殊芯片可以算得很快。当然,AlphGo 也算得很快,算得很快永远是非常重要的。
到了 2011 年,IBM 做了一个问题回答机器叫沃森(Watson),打败了 Jeopardy 游戏的冠军。Jeopardy 这个游戏其实也很无聊,有一点像记忆的游戏:问一个常识的问题,给四个选项。其实沃森打败人也没什么了不起的。
到 2012 年,AI 的复苏就已非常明显。机器学习和大数据挖掘变成了主流,几乎所有的研究都要用,虽然还不叫 AI 。事实上很长一段时间,包括我们做语音和图像,对外都不讲 AI 。因为 AI 这个名字那时变得有点名声不好。人们一说起 AI,就是不起作用。第二次 AI 寒冬的时候,只要听说某个人是做 AI,那就认为他做不成。其实机器学习是 AI 的一支。
现在回到深度学习,有三个人物对深度学习做出了很大贡献。第一位,Hinton 。这个人非常了不起。了不起之处在于当没有人在乎神经网络的时候,他还在孜孜不倦地做这个东西。第二个做 CNN 的人物是 Yann LeCun 。他也是做 CNN 一辈子,在 AI 冬天的时候继续做,所以今天很多 CNN 该怎么用来自于 Yann LeCun 。另外一个叫做 Yoshua Bengio 。所以,现在还有人在排中国十大 AI 领军人物,我觉得很搞笑。我觉得谁在外面讲 AI,或者搞个公司,他们和科学家是两回事,科学家是在别人以为冬天的时候还在做。
从左至右:Yann LeCun,Geoff Hinton,Yoshua Bengio 及吴恩达。
所以今天讲到 DNN、讲到 AI,没有前人的种树,就没有后人的乘凉。这 61 年的发展,这些辛苦耕耘的人,大家需要记住这些人。今天在台面上讲 AI 的人都是收成果实的人,讲自己对 AI 有什么贡献,我觉得就太过了。
还有一个跟 AI 有关的,大家记得 Xbox 几年前有一个叫 Kinect,可以在玩游戏的时候用这个东西,我觉得这是第一个发布的主流的动作和语音感知设备。当然之后就有 2011 年苹果的 Siri,2012 年 Google 语音识别的产品,以及微软 2013 年的产品,这些都是 AI 的复苏。直到 2016 年,AlphaGo 打败了李世石,打败了柯杰,AI 就彻底复苏了。
今天的 AI
DNN、DNN 还是 DNN 。
我不是有意要贬低 DNN 的重要性,但如果说 DNN 代表了所有的智慧也言过其实。DNN 绝对非常有用,比如机器视觉,会有 CNN;自然语言或者语音的,就有 RNN,长短时记忆(Long Short-Term Memory,LSTM)。计算机视觉里面有一个图片集 imageNet 。我们很荣幸在几乎两年前,微软在该图片集上辨认物体可以跟人做得一样好,甚至超过人。
语音也是一样,微软在差不多一年前,在 Switchboard,在任意的一个任务里面也超过了人类。机器翻译我相信大家都常用,可能是每天用。甚至看起来好像有创造性的东西也出现了,比如小冰可以写诗。我也看到很多电脑画出来的画,电脑做出来的音乐,都表现的好像也有创造力一样。
不过,虽然 AI 很红,机器学习,大数据大家都听过,特别是做学问的人还听过大数据挖掘,那么这三者有多大的差别?我常说这三个东西不完全一样,但是今天这三个的重复性可能超过 90% 。所以到底是 AI 红,还是大数据红呢?还是机器学习红呢?我觉得有那么重要吗?
本文系清华大学《脑科学与人工智能的对话》课程第二讲整理稿,转自微信公众号“知识分子”,原标题为“洪小文:以科学的方式赤裸裸地剖析AI|从寒冬到复兴”。
了解更多:
后台入驻微软小冰
如果你很萌,请跟她一决高下!