人工智能统治人类?先打开一扇门再说! | 通往认知智能之路 (上)
以下报告视频和内容来自墨子沙龙“AI·未来”活动(2020年9月26日)。
我今天的报告讲的是认知智能:为什么它特别难?现在到底做的怎么样了?以及,就我自己的一些粗浅思考,将来它到底该怎么走?
回看整个人类的发展历史,它呈现指数上升的趋势。我们花了很长的时间来感知自然界,事实上我们现在的感知能力其实跟大猩猩、猴子等也差不了特别多。大约在250万年以前发生了认知革命,从感知到认知,开始认知自然界。又到了大概1.2万年以前,有了一个新的革命,就是从认知自然界到改造自然界。大约在500年前的文艺复兴以后,又有一次飞跃,从改造自然界到创造自然界。到现在,文明达到了一个新的高度。
对机器而言,大抵也是如此,也要遵循一个类似的发展曲线。刚开始的时候,可能还是得先从感知做起,这也是现在人工智能正在做的,而且做得相对比较成功。某种意义上,现在人工智能正在经历这么一个所谓的范式转变(paradigm shift):从感知智能到认知智能的范式转变。
我们通过视觉、听觉、触觉、味觉等等,去感知自然界,得到一些初步的信息。认知则是在感知的基础之上,理解这些对象并且产生知识,做一些决策。某种意义上,感知到认知是整个行为决策过程中的两个不同的环节。为什么说从感知智能到认知智能是一个很重要的变化呢?
先看一个视频(见文前演讲视频之中)。大家看了之后,可能会觉得这些人做的事情很蠢,但是我们想一想,这些人在感知自然界的时候,他们很蠢吗?其实并不是,他们的感知和人的正常感知是一模一样的,只是他们在做认知的时候、在做决策的时候做了一些我们觉得很愚蠢的事情。实际上,从感知到认知是一个很大的跨度,我们可能会觉得视频里面的有些小伙伴们的行为比较愚蠢,但是现在机器并没有做得比这好很多。这大概是现在人工智能处在的一个现状。从感知智能到认知智能,我们还有很长的路要走。
现在我们再比较一下动物和人类。人类是地球的主宰,但事实上我们感知的能力并不比动物强。论速度比不上豹子,论力量比不过熊,论视觉比不过鹰,论嗅觉比不过狗。但是为什么我们成为了地球的主宰,因为我们有很强的认知能力。在感知之上,我们可以总结经验,得到知识,创造新的知识,从而成为了万物灵长。
以上,我是想传递一个这样的信息:认知跟感知很不一样,它是一件非常重要的事情,是人类能够变得一枝独秀的最重要的原因。
下面我们看一下机器到底在感知和认知上做得怎么样。
在感知智能上,现在的机器智能正在接近和逼近人类,已经做得很不错。比方说,现在已经广泛应用的人脸识别,在火车站、在各个单位里都已经开始得到广泛应用;再比方说,语音识别也做得非常好,可以把语音方便地转成文字;还有光学字符识别,对于报销单等,可以直接提取出一个结构化的文档出来。在感知智能这个层次上面,基于深度学习的一些技术在某种意义上已经能够跟人类媲美了。
那么认知智能怎么样呢?其实认知智能也取得了很多突破,例如国际象棋和围棋等。1997年的时候人工智能击败了人类的国际象棋冠军;两年前,AlphaGo横空出世,在围棋上横扫人类;2011年的时候,IBM做了一个叫“沃森”的机器人,在类似于“开心词典”的知识抢答竞赛中,击败了人类的世界冠军。我们很多小伙伴可能也玩游戏,像星际争霸、王者荣耀等等,在这些方面,现在人工智能都有很多不错的尝试,而且已经取得了很好的成绩。
但为什么我们还会说认知智能任重道远呢?看下面一个视频(见文前演讲视频之中),这是2015年Alpha机器人挑战赛的一些失败集锦。挺有意思的。我们做演讲的时候往往会说一些正面的消息,但事实上这些反面的或者失败的经历同样很重要。它告诉我们人工智能的边界在哪,到底什么事情做得好,什么事情做得不好。当然,这个视频某种意义上也有一些误导的嫌疑,因为现在的机器人技术已经突飞猛进了。比方说从2015年到现在,以波士顿动力为代表的一些公司,在平衡性上面已经做得很好了,像阿特拉斯机器人,还有机器大狗等等。
但是在一些特别简单的认知任务上,人工智能却出人意料得差。比如开一个阀门、开一扇门,在这些事情上面,机器人比大家想象的要差非常得多。某种意义上,现在的机器人技术根本没有办法打开任意一扇门。因为有不同的门,不同的把手,不同的开门方法。而机器人要用统一的方法来做这件事情,这是非常困难的。
这个事例告诉我们几件事情。第一件事情,虽然认知智能在某些点上已经做得很不错了,但是反过来在有些很简单的事情上面,其实还做得特别糟糕。为什么?因为人跟机器不是一个物种,人跟机器有本质上的区别,某些人看起来特别难的事情,说不定对机器并没有那么困难。比方说下国际象棋,对机器来说,它就是个搜索问题,对人来说,因为搜索能力没达到那个程度,运算量、运算智能上面不够,所以会觉得这个事情非常困难,要有很多的知识和技巧,很强的训练。对于机器来说,在1997年的时候用一个比较强大的计算机,然后通过高级搜索就可以做得很好了。再简单一点,像五子棋之类的,机器通过搜索可以轻松打败人类。反过来,在有些人看起来特别简单的事情,机器会觉得非常的困难。刚才的开门就是一个例子,因为有无数的不同的门,没有办法把它定义成几种不同的开门方式。另外一个很难的事情就是所谓的常识知识。常识知识是那种我们认为很显然的、根本都不需要说的、所有人都知道的知识,比方说如果天上下雨的话,地上就会湿。但这些常识知识非常多、非常复杂,处于不同的领域,所以机器在这方面获取的能力比人要差很多。每次当有人问到:机器是不是要毁灭人类之类的问题,我只好笑一笑。让它先去开个门试一试!
我们从词源的角度探讨一下,到底什么是认知智能。简而言之,“认知”基本上等于“认识知识”。尼尔森说过,人工智能某种意义上是关于知识的科学。
在牛津词典里,关于智能、关于认知这些词的解释经常变。其中,有一个解释是这样的:智能是获取和使用知识和技巧的能力。认知是一个心理状态过程,也是获取知识并且去理解这些知识的能力。某种意义上,认知智能的核心就是怎么去认识知识,它是关于知识处理方面的能力。
这些能力有三点是必备的,也是非常本质的。第一,需要把知识编码出来,即要进行知识表示或者知识编码。第二,怎么去获取这些知识,不管是常识知识也好,专业知识也好,不管是开门也好,下围棋也好,这知识到底怎么来的?第三,假设知识已经有了,到底怎么去运用这些知识解决问题。
因此,我个人的粗浅理解是,对于认知智能而言,它的核心就是知识到底怎么表示、怎么获取、怎么运用。下面简单的讲一下,现在的人工智能在这三个方面到底怎么做的,做得怎么样了。
第一个就是现在特别火的“连接流派”,基于神经网络深度学习。上图前面三位获得了2019年的图灵奖,右边这一位也是深度学习的另一位领袖。他们提出了现在特别流行的一些概念,例如深度学习里的卷积神经网络,还有循环神经网络等等。这些概念非常有用,也取得了很多成绩。连接流派通过模拟生物神经网络的方法来做人工智能,我们简单分析一下一下连接流派在表示、推理和学习上面到底做得怎么样。
举个简单的例子,勾股定理(毕达哥拉斯定理),很早就发现了,那么现在给深度学习一个神经网络,比方说一亿个直角三角形,它能够学得出勾股定理来吗?恐怕是够呛的,因为它很难学习结构化知识。在表示上面,表示结构化知识的时候,也遇到了很大的问题。看上图右边图案,连接流派在学习上面做得还不错,但表示和推理还有一些缺陷和问题。
另外一个很重要的流派现在提的不多,但实际上也很重要,特别在机器人领域用的比较多,叫做行为流派。左边这个人是MIT的Rodney Brooks,他提出了所谓的包容式体系结构,就是不同的层面都做简单的反应式推理,就像条件反射一样,但是从不同的层次来做。我估计大家用过他的一个产品,就是扫地机器人,iRobot,就是他和他的学生开的公司做的。除了扫地机器人之外,他也在尝试新的机器人公司,包括通用工业机器人等等。
简单分析一下基于反应式的行为流派在知识的表示、推理和学习上面做的怎么样。它最大的好处在推理效率快,因为反应,你给它一个刺激,它就推出来了。但是在表示和学习上面遇到了很大的困难,比方说反应式的规则怎么得到,是不是能够表示更复杂的知识等等。
第三个就是所谓的基于逻辑学的符号流派,这其实是原来人工智能的一个主流的流派。比方说20世纪80年代第二波人工智能的兴起,主要是基于符号流派的专家系统所导致的。符号流派在人工智能历史中很辉煌,除了刚才说的三位图灵奖之外,其他的人工智能图灵奖获得者基本上都是符号流派的或和符号流派密切相关,包括达特茅斯会议的那几位先驱 McCarthy、Minsky、Simon、Newell,还有后面的Pearl这些人。此外,人工智能的祖师爷图灵,他本身就是个逻辑学家、符号学家。整个机器也是建立在逻辑以及语言的一些基础之上,所以符号流派当时在人工智能领域占据了很重要的地位。
为什么符号流派现在大家听得比较少,是因为它也遇到了很多困难。它遇到的困难主要在哪?在学习和推理上面。在学术界的时候,符号流派很吃香。因为当时假设知识已经有了,已经学习到了,讨论该怎么用这些知识去解决问题,但后来真正跟应用结合在一起的时候,发现一个惨痛的事实:这个假设不成立。知识并不是天生就有的,需要通过某种方法去获取知识。而符号流派的方法就很简单粗暴——专家去写,所以这是专家系统为什么当时很火,后来又遇到了很大瓶颈的一个原因。
所以符号流派在表示上面做得比较不错。比方说像勾股定理之类的知识,甚至更复杂的知识,用符号的方法可以比较好的表示出来。但是在推理和学习上,它遇到了一些很大的问题,这是为什么现在它有一点萎靡不振的原因。因为如果连知识都没有的话,所有的东西都是空中楼阁。
可以看到这三个人工智能很重要的流派,有一个很有意思的地方,就是每个都有一个优点。比方说连接流派,它在学习上面做得不错;行为流派在推理上面;符号流派在表示上面做的不错。于是,有一个很自然的想法,是不是可以把它们折中或者说把它们融合起来?确实如此,在最近几年也做得非常多,例如现在还比较火的知识图谱技术。但它真的就是一个折中,各方面的优点确实是取了一点,但是同时也牺牲了它们的一些特性。
分析之后会发现,人工智能现在的主要的几种方法,在知识表示、知识推理和知识学习上面,都遇到了一定的问题。这就是现在认知智能为什么难做的一个很大的原因。
我们真正想要的是什么?毫无疑问是这么一个完美的三角形。我们希望人工智能在知识的表示、知识的推理和知识的学习上面都做得很好,至少像人这么好。但这是一个很困难的事情,个人浅见,为了这个事情,有下面几点是必须要做到的,即6E:简洁(Elegant),可扩展(Extensible),强表达(Expressive),高效(Efficient),可教育(Educable),可演化(Evolvable)。
从现在的人工智能到想要的完美三角形,有很长的路要走,任重而道远。就我个人的粗浅的理解,为了达到这个目标,需要开发新的人工智能方法,来做到6E。其实,6E在已有的人工智能理论和方法中,是相互冲突的。比如说在符号流派里,表达能力跟效率之间的权衡,一直是一个核心问题。但在应用的时候都需要,怎么去突破这些理论上的瓶颈,是非常困难的事情。
但反过来我们想想,对于我们人类自己来说,是不是某种意义上在6E的各个方面表现都还好。我们以自然语言为基础的知识表示、推理和学习相对简单、可扩展性超级好、表达能力非常强、虽然不特别高效但也足够用。也是可教育、可演化的:既能够总结经验、又能学习新的知识。我个人的理解,这才是现在的人工智能跟人真正的差距所在。
个人认为,达到完美三角形是人工智能最重要的事情。届时,针对以下一些认知智能的关键科学问题,包括:什么是知识?是否存在统一的知识(数学)模型?机器(人类/脑)如何编码、获取、运用知识?知识和数据、知识和智能的关系是什么?认知智能和知识科学会有哪些杀手级应用?我们将会有一个更好的回答。在此基础上,我相信人工智能会有长足的进展,会有一个从感知智能到认知智能的范式转变,会有一个从现在特别火的数据科学到将来特别火的知识科学的范式转变。当然,还是那句话,任重而道远。
由于微信公众号试行乱序推送,您可能不再能准时收到墨子沙龙的推送。为了不与小墨失散, 请将“墨子沙龙”设为星标账号,以及常点文末右下角的“在看”。
墨子沙龙是以中国先贤“墨子”命名的大型公益性科普论坛,由中国科学技术大学上海研究院主办,中国科大新创校友基金会、中国科学技术大学教育基金会、浦东新区科学技术协会、中国科学技术协会及浦东新区科技和经济委员会等协办。
墨子是我国古代著名的思想家、科学家,其思想和成就是我国早期科学萌芽的体现,“墨子沙龙”的建立,旨在传承、发扬科学传统,建设崇尚科学的社会氛围,提升公民科学素养,倡导、弘扬科学精神。科普对象为热爱科学、有探索精神和好奇心的普通公众,我们希望能让具有中学同等学力及以上的公众了解、欣赏到当下全球最尖端的科学进展、科学思想。
关于“墨子沙龙”