人工智能困境:机器何时才能理解语言
本文授权转自:新智元(ID:AI_era)
来源:MIT TR,作者:Will Knight
译者:朱焕、胡祥杰、张冬君、闻菲
【新智元导读】随着人工智能系统变得越来越高端复杂,我们也愈发难以想象不通过语言,而使用其他方法与计算机沟通。不仅如此,能够简单地与人类交流会让人觉得计算机无比神奇。毕竟,语言是人类理解世界、与世界互动最重要的方法之一,是时候让机器也懂人话了。但是,虽然人工智能领域的科学家进行了各种尝试,但是机器真正理解人话依然是一个难点。本文作者认为,近年来深度学习的发展为解决这一问题带来了希望,但是究竟能不能实现机器与人类在语言上基于理解的沟通,还有待观察。
在韩国首尔的一场格外紧张的围棋比赛的中,史上最佳棋手之一李世石与谷歌的人工智能程序 AlphaGo 正在对战。人工智能程序下出了神秘的一步,令人不安地展现出了它对人类的优势。
在第 37 步棋中,AlphaGo 选择把黑棋下在一个似乎荒唐的位置。它看起来肯定会为此丧失大片的区域——在围棋这个全靠占地为王的游戏中,这是一个菜鸟级的失误。两位电视评论员都在怀疑是自己读错了这一步,还是 AlphaGo 不知怎地发生了故障。事实是,与常识相反,第 37 步将为 AlphaGo 在棋盘中央区域建立惊人的基础。Google 的这个程序用一个当时没人能理解的招数赢得了比赛。
AlphaGo之后,人工智能根本难题在哪?
AlphaGo 的胜利格外令人印象深刻,因为古老的围棋游戏通常被视为对直觉性的智能的测验手段。它的规则很简单:两个对弈者轮流在棋盘横线和竖线的交点上放置白棋或黑棋,包围对方的棋子并将其移除。然而,想要玩得出色,却极其困难。
国际象棋棋手能够提前计算未来的几步棋,但在围棋中这是不可能的,因为这会导致不可控的复杂度,同时围棋也没有经典开局方法。也无法用任何直接方式来衡量优势,甚至专家级棋手有时也很难精确解释为什么他或她下出了特定的某一步。所以,也不可能写出一套可供专家级电脑程序遵循的简单规则。
没有人告诉 AlphaGo 应该如何下棋。相反,该程序分析了数十万局围棋,并进行了数百万次的自我对弈。在若干种人工智能技术中,它使用了日益流行的深度学习方法。这是一种受大脑中彼此连结的神经元层启发而产生的数学计算方法,大脑中的神经元层在学习理解新信息时的会被激活。
程序通过长时间的练习来教会自己下棋,逐渐磨砺出了对策略的直观感知。由此,它能够击败世界最顶尖的围棋手,而这代表了机器智能和人工智能的一座真正的里程碑。
在下出第 37 步几个小时之后,AlphaGo 赢得了这一局,随后赢得了这场五局三胜的比赛。事后,李世石站在拥挤的记者和摄像师面前,礼貌地因人类输了棋而表达歉意。在相机的频繁闪光中,他说,“我说不出话来。”
AlphaGo 的惊人胜利表明,人工智能在经历了"AI严冬"的挫折之后,在过去几年中取得了巨大成功。深度学习意味着机器可以逐渐教会自己去执行那些几年前还被认为只有人的独特的智力才能完成的复杂任务。自动驾驶汽车已是一种可预见的可能性。在不远的未来,基于深度学习的系统将会协助诊断疾病和推荐治疗方案。
然而,尽管有这些了不起的进步,仍有一种基础能力是难以实现的:那就是语言能力。诸如 Siri 或 IBM Watson 等系统可以遵循简单的语音或打字命令,并能回答简单问题,但它们无法进行对话,也无法真正理解它们使用的单词意味着什么。如果人工智能要具有真正的革命性,这一现状必须改变。
尽管 AlphaGo 无法说话,但它也包含了一些或许能导向更好的语言理解的技术。在谷歌、facebook、亚马逊等公司和前沿的学界人工智能实验室,研究者们正在试图使用那些带来了AlphaGo 的成功和人工智能复兴的、包括深度学习在内的人工智能技术来解决这个看起来无法解决的问题。
他们能否成功将决定正在发生的人工智能革命的规模和特点。它将帮助我们确定,到底是我们将拥有能够与我们进行方便交流的机器、让机器成为我们日常生活中相处融洽的一部分,还是人工智能系统将始终是神秘的黑箱,哪怕它们变得越来越有自主性。”如果一个人工智能系统不能真正具有语言能力,它就不可能是一个像人(humanlike)一样的系统。“麻省理工学院的认知科学与计算教授 Josh Tenenbaum 说。”语言是把人类智能与其他智能区别开来的最显而易见的东西之一。“
也许,AlphaGo 赢棋的技术最终将能让计算机掌握语言,也许我们还需要其他的技术。然而,没有语言理解能力,人工智能带来的影响将有很大不同。当然,我们仍会拥有像 AlphaGo 这样极其强大和智能的软件。但我们与人工智能的关系将会远远不够具有协作性,或许也远远不够友好。
“如果你拥有一些在效率意义上具有智能的东西,但它们在共情能力上和我们完全不相像,那怎么办?”斯坦福大学荣休教授 Terry Winograd 说,“想象一下这样的机器,它们不是基于人类智能,而是基于这些大数据的东西,由它们来维持世界的运作。”
从20世纪60年代开始的尝试,至今依然没有结果
在AlphaGo胜利几个月之后,我去了趟硅谷,那里是最新一轮人工智能爆发的中心。我要拜访那些在人工智能实际应用中取得显著突破的研究者,他们中有一些人现在正在努力让机器更好地理解语言。
我首先见到的是Winograd,他生活在斯坦福Palo Alto校区南边的郊区,离谷歌、Facebook和苹果的总部不远。Winograd有一头卷发,都已经花白,还蓄着浓密的胡须,身上有一股庄严的学院风,也带有极富感染力的热情。
时间回到1968年,Winograd在教机器智能地说话上做出了先锋式的尝试。作为一个痴迷语言的数学天才,他曾在MIT的新AI实验室攻读博士学位,随后,他决定开发一个能通过文本提示与人对话的程序,并可以在日常生活中使用。这在当时并没有没有被认为是一个怪异的野心。不过,从那时起,AI取得了长足的进步,其他在MIT的人开发了复杂的计算机视觉系统和充满未来感的机器人手臂。“在那儿,有一种未知的、不受束缚的可能性”,他回忆说。
但是,也不是所有人都认为语言可以那么容易掌握。一些批评者,其中包括极具影响力的语言学家、MIT教授Noam Chomsky,认为AI研究者在让机器理解语言上不会很顺利,因为研究者对人类的语言机制理解得还很少。Winograd记得,有一次参加Party,在聊天时,他说自己在MIT 的AI 实验室工作,Chomsky的一名学生直接走开了。
但是也有值得乐观的理由,MIT的一名德国裔科学家Joseph Weizenbaum早在几年前就开发了聊天机器人程序,叫ELIZA。它被设计得就像一个卡通的心理治疗师,通过重复对话中的关键信息和提问来促进对话。比如,如果你告诉这一程序,你对妈妈很生气,它就会说,“谈到妈妈,你还能想到别的什么吗?”这虽然是一个简单的对话,但是效果却出奇地好。当一些受试者开始向机器坦诚自己内心最阴暗的秘密时,Weizenbaum自己都震惊了。
Winograd希望能发明一些真正能理解人类语言的机器。他开始缩小问题的范围,建了一个简单的虚拟环境——一个“积木世界”,由一系列想象的物体和一张想象的表格组成。随后,他开发了一个程序,叫SHRDLU,能够组合所有的名词、动词和简单的语法。SHRDLU能描述物体,回答关于“积木世界”里物体之间关系的问题,并根据命令来改变积木世界。它甚至还能有记忆,当你先告诉它“移动红色积木”,然后后来再说“移动刚才那块”,它可以知道你指的是红色的积木。
SHRDLU 被认为是AI领域获得显著进步的一个标志,但这只是幻觉。当Winograd希望把积木世界扩大,必要的词汇数量和语法的复杂性就变得不可控了。几年后,Winograd放弃了这一研究,再后来,他放弃了所有的AI研究。“一直以来,让机器理解语言所面临的局限都比看起来的要多得多”,他说。
Winograd 总结说,使用当时可用的工具,想要让机器真正地理解语言是不可能的。正如UC Berkely哲学系的教授Hubert Dreyfus在1972年出版的《计算机不能做什么》一书中说到的那样,人类能做的很多事都要求具备直觉性的智能,这是严格的规则无法实现的。这也是为什么在李世石和AlphaGo的大战之前,很多专家都认为机器不会玩围棋的主要原因。
但是,即使Dreyfus有了这番论断,事实上,几位科学家仍然在坚持寻找能让机器拥有这类智能的方法。根据从神经科学上获得的启发,他们用人工神经网络进行实验,多层的数学模拟神经元通过训练能对特定的输入作出回应。最开始,这种系统非常慢,让人很痛苦,并且,从逻辑和推理上来说,这种方法在实用性上也遭到了否定。但是,关键的是,神经元网络能学习完成一些手写代码无法完成的任务,后来,这种方法在一些简单的任务上被认为是有效的,比如识别手写字。20世纪90年代开始,这种技术被用于读取表格上的数字,成功实现了商业化。支持者依然坚持,神经网络最后可以让机器做更多的事。他们说,有一天,这一技术将能理解人类的语音。
在过去的几年间,神经网络变得前所未有的复杂和强大。这一方法从关键的算法,以及更重要的,从计算机硬件和数据的改善中获益良多。2009年,多伦多大学的研究者展示了一个案例,把多层深度学习网络用于识别语音,并取得了创纪录的准确率。2012年,还是这个研究组,使用深度学习算法,获得了机器视觉竞赛的冠军,识别准确率也非常惊人。
深度学习神经网络使用简单的方法识别图像中的物体:一层模拟的神经元获得一个图像的输入,另外的神经元将会被单个的像素浓度“引燃”。在抵达输出层前,最终的信号会通过更多相互连接的神经元层。一个数字中的理论——反向传播,被用于调整网络中神经元的敏感度,来产出正确的回应。也是这一步让系统能拥有学习的能力。网络中的不同层会对不同的特征,比如边缘、像素或纹理做出反应。这一系统能识别物体、动物或者人脸,并且在准确率上超越人类。
但是,在运用到语言上时,却有一个明显的问题。那就是,词语是任意搭配的,这也是语言与图形的根本差异。两个词可以很像,但是却有着完全不同的意思,并且,同一个词在不同的背景下也有不同的意义。
20世纪80年代,研究者找到了一个清晰的思路,用于把语言转化成神经网络可以处理的那些问题。在他们的研究中,词语可以被表示为数学向量,让具有相似性的词语能被数字化。比如,Boat(船)和Water(水)在向量空间内非常接近,即使他们看起来非常不同。Yoshua Bengio领导的蒙特利尔大学的研究组,以及谷歌的一个研究组使用这一方法创建了一种神经网络,在这种神经网络中,句子中的每一个词都可以被用于搭建更加复杂的表征,这就是Hinton所说的“思想向量”。
通过使用这样的网络,两种语言间的机器翻译成为可能,并且有优秀的准确率。此外,通过与图像识别的网络集合,图片说明的自动生成也成为可能。
你问机器人生的意义是什么?它怎么回答
谷歌的研究员Quoc Le曾帮助制定该方法,现正在谷歌总部的一间会议室里思考要怎样让一台机器能开展适当的对话。Quoc Le的想法解释了为什么会说话的机器很有用。“我想要一种方法能模拟机器的思考,”他说,“如果你要模拟机器的思考,你就应该要能问机器它在想什么。”
谷歌已经开始向计算机教授语言的基础知识。今年五月,谷歌推出一个名为Parsey McParseface的系统,它能分析语法,认识名词、动词和文本中的其他元素。不难看出,更好的语言理解对谷歌公司有巨大的价值。谷歌的搜索算法过去常追踪简单的关键词和网页之间的链接。而现在,使用RankBrain系统后,它能从页面中读取文本,从而收集意义并提供更好的搜索结果。Quoc Le想要再进一步。Quoc Le和他的同事们改编了该系统(该系统已被证明在翻译和图片说明上很有用),他们建立了智能回复(Smart Reply),它能阅读Gmail邮件的内容并提出好几个可能的回复。他还创建了一个程序,它从谷歌的IT支持的聊天记录中学习怎么回答简单的技术问题。
最近,Le创建了一个程序,能够对开放式问题产生合格的回答。该程序是由向其输入18900部电影的对话来训练的。有时候,它还能做出神回复。例如,Le问道:“人生的意义是什么?”程序回答,“为更好的事情努力。”“这是一个很好的答案,”他笑着说,“可能比我的答案还要好”
当你看到系统更多的答案时,这里只有一个问题,而且非常明显。当Le问道,“一只猫有几条腿?”他的系统回答说:“我想是四条。”然后,他再问,“一只蜈蚣有多少条腿呢?”系统就给出了疑惑的回应:“8条。”事实上,Le的程序根本不知道自己在说些什么。它理解特定的组合在一起的符号,但是它不能理解现实世界。它不知道蜈蚣是什么样子,也不知道蜈蚣如何移动。它仍然只是智能的一种假象,没有人类习以为常的常识。这种方式的深学习系统往往是靠不住的。谷歌开发的一个能为图片生成说明的系统就会出现奇怪的错误,比如,将一个路牌描述为一台装满食物的冰箱。
巧合的是,Terry Winograd在加州帕洛阿尔托市的邻居也许能够帮助计算机更好地理解话语的意义。斯坦福人工智能实验室主任李飞飞,我到访的时候她正在休产假,但她邀请我去她家,并自豪地向我介绍了她三个月大的孩子Phoenix。 “看,她怎么看你比看我还久,”李飞飞说。“那是因为你是新面孔,这是人类早期的人脸识别。”
李飞飞花了很多时间研究机器学习和计算机视觉。几年前,她曾努力打造的一个包含数百万个对象的图像数据库,每个图像都标记有一个恰当的关键字。但李飞飞认为,机器需要更深入的理解世界上正在发生的事情。今年,她的团队发布另一个了图像数据库,注释更加丰富。每个图像都被人用几十个描述标记:“玩滑板的狗”、“狗的毛是蓬松、卷曲的”、“马路有裂缝”,等等。她希望,机器学习系统能更多地理解现实世界。 “大脑的语言区被输入了大量的信息,包括来自视觉系统的信息,”李飞飞说。“人工智能的一个重要部分将会是整合这些系统。”
这更接近于儿童的学习方式,即将文字与对象、关联、行为联系起来。但是模拟人类学习只能到此为止。年幼的孩子并不需要看见玩滑板狗的才能想象或者口头描述这一幕。事实上,李飞飞认为,今天的机器学习和人工智能工具将不足以实现真正的AI。 “这不是数据丰富的深度学习就可以做到的,”她说。李飞飞认为,人工智能研究人员还需要考虑情感、社会智能等等。 “我们(人类)在计算巨大的数据面前表现很糟,”她说,“但是我们擅长抽象和创造。”
没有人知道该如何将人类的技能教给这些机器,也不知道这样是否有可能发生。人类有什么独特的东西超越了AI的范围?
麻省理工学院的认知科学家Tenenbaum推论说,无论现在的这些神经网络有多大,都缺失了大脑的重要组成部分。人类能够从相对少量的数据中非常快速地学习,天生就有能力有效地为世界建立3D模型。“语言建立在那些可能更基础的其他能力之上,在婴儿会说话之前就存在了:用视觉感知世界,通过运动系统做出动作,理解世界的原理或者其他人的目标,”Tenenbaum说。
如果他是正确的,那么在不模仿人类学习、心理模型建立和心理学的情况下,在机器和AI系统中重新创建语言理解将会非常困难。
是时候让机器懂人话了
Noah Goodman 在斯坦福心理系的办公室几乎空无一物,一面墙上挂着几幅抽象画,有几盆茂盛的植物。我到的时候,Goodman 正在一台笔记本电脑上打字,笔记本放在他的腿上,腿放在书桌上,光脚没穿袜子。我们一同在阳光明媚的校园里走了一圈,买了冰咖啡回来。“语言的与众不同之处在于语言既需要很多与语言相关的知识,也需要很多与世界有关的常识,而这两者之间的关系非常微妙。”Goodman 告诉我。
Goodman 和他的研究发展出了一门叫Webppl 的编程语言,Webppl 能让计算机具有一种概率常识,而这种知识在对话的时候非常管用。一种试验版本能理解双关,另一种能应对夸张。如果告诉计算机要要等到“地老天荒”才能在餐厅里等到位置,计算机立即就能判定字面意思是说不可能等到位置。系统虽然远远称不上智能,但这至少表明使用这种方法,智能程序能够表现得更像人。
同时,Goodman的试验也表明,教机器学会语言是一件非常困难的事情。要让机器学会等到地老天荒的真正含义是“等不来”:是人工智能必须学会并且相对简单、基础的事情。
不过,尽管让计算机理解人类语言这项任务艰巨困难,但近年来研究人员使用深度学习技术,在图像识别、AlphaGo这些方面取得了极大进展,还是不由得给人以希望,让人觉得计算机在理解人类语言方面是不是也即将迎来突破。如果是的话,那时间上来说就正好不过。倘若人工智能要充当增强人类智能和财富的工具,要实现与人类无缝合作,那么语言将是关键,特别是随着人工智能系统对深度学习等技术的应用日益增多,最终要实现自我编程,对语言的理解就不可或缺。
MIT 研究自动驾驶的教授 John Leonard 说:“总的来说,深度学习系统令人敬畏。但另一方面,人类也确实弄不懂它们的表现。”
丰田汽车公司目前在研发一系列自动驾驶技术,他们最近与人工智能与机器语言专家、MIT 教授 Gerald Sussman 领导的研究小组合作,开发能够向人类解释自己行为的自动驾驶系统。其中,一种很明显的方式就是靠对话了。Leonard :“建造知道自己知道些什么的机器是真正的困难所在。但最理想的情况就是,我们能让计算机不仅给一个答案,还要告诉我们为什么。”
从加州回来后几周,我跟谷歌 DeepMind 的研究员、AlphaGo 的主要设计人David Silver 见了面。当时 Sliver 在纽约的一场学术会议上发表报告,介绍有关 AlpahGo 与李世石对弈的情况。Sliver 表示,当 AlphaGo 在第二局下出制胜一步时,他和团队成员就跟其他人一样惊讶。他们所知道的只是在第 37 步以后,机器对胜率的预测几乎就没有变化。几天过后,经过仔细分析,Google 的团队才发现一件事:通过吸收此前的对弈,AlpahGo 计算出人类下出同样一步棋的几率是万分之一。因此,从某种程度上说,程序知道李世石会注意不到局面,并因此输掉棋局。
Silver 表示谷歌正在考虑让AlphaGo 的技术商业化,包括成为智能助理或者医疗工具。会议过后,我问 Silver 能够与人交流对人工智能系统的重要性。Silver 停顿了一下后回答:“那是个很有意思的问题。对于某些应用而言那可能还很重要。例如医疗,让人知道系统是如何做出决策的,是很重要的。”
确实如此,随着人工智能系统变得越来越高端复杂,我们也愈发难以想象不通过语言,而使用其他方法与计算机沟通。不仅如此,能够简单地与人类交流会让人觉得计算机更加神奇。毕竟,语言是人类理解世界、与世界互动最重要的方法之一。是时候机器也懂人话了。