其他

人工智能不仅能玩游戏战胜人类高手 还能通过游戏自我训练

2017-10-16 两个质子


AI成为热点,许多企业和学术机构都在研究。为了解决AI问题,训练算法,研究将目光转向游戏,因为它是完美的AI测试平台。《经济学人》最近刊文,深入解读这一现象。


去年,普林斯顿大学计算机科学家Artur Filipowicz碰到了一个问题,一个与停车标志有关的问题。当时Filipowicz正在传授汽车新技能,让它看见、解释世界,这样一来汽车就可以自己行驶,不需要协助。要达成目标,首先汽车必须具备识别停车标志的能力。最终,Filipowicz博士想训练一个合适的算法。所谓训练,就是向算法展示大量图片,里面有许多的停车标志,出现在许多不同的环境中:有老标志,有新标志,有清晰的标志,有弄脏的标志;还有一些标志被卡车或者大楼遮挡一部分;有些标志出现在日光环境中,或者是雨天,雾天;有些标志出现在白天,黄昏或者夜晚。

要从图片库中获得所有类似的图片并不是一件容易的事。如果进入真实世界,让人亲自拍摄,无疑是一件冗长乏味的事。Filipowicz将目光转向了《侠盗猎车5》,这是一款最近才发布的 新游戏。《侠盗猎车5》引起很大的争议,因为它逼真描绘了犯罪和暴力,不过Filipowicz认为它很完美,因为里面有逼真的停车标志。修改游戏软件之后,他从游戏中抽出几千张与停车标志有关的照片,它们处在各种环境中,这些图片可以供算法挖掘。

AI研究人员偏爱视频游戏,Filipowicz用游戏解决停车标志问题只是其中一例。为什么这么流行?还有几个原因。一些人(比如Filipowicz)用游戏作为真实世界的训练场。还有一些人认为不同的游戏需要不同的认知能力,他们觉得游戏可以帮助他们理解一个问题:如何将智力问题分解成更小、更容易管理的小块。还有一些人赞同上面两种做法,认为游戏可以帮助他们构建更合适的AI理论。

一、驾驶学员

要让一切发生,首先必须对游戏进行调整,让其它计算机程序可以直接玩游戏,而不是人盯着屏幕动作控制游戏。例如,如果将《侠盗猎车5》与一款名叫“Deep Drive”的软件绑在一起,就可以将大量道路标志照片输入驾驶模拟器。这样一来,汽车驾驶导航程序就可以接过控制权,与路面测试相比,用这种方法测试驾驶软件更便宜,更安全。

游戏公司已经开始理解这点。2015年6月,微软启动一个名叫Project Malmo的项目,它是一个AI开发平台,根据Minecraft游戏开发的,Minecraft是一款构建世界的游戏。2016年11月,《星际争霸2》开发商动视暴雪宣布与DeepMind达成相似的合作,DeepMind是谷歌旗下的一家AI公司。

在接下来的一个月,旧金山一个由私人资助的研发团体OpenAI推出了“Universe”。Universe包括一系列软件,向所有人免费提供,里面有几百款游戏,直接用合适的程序就可以玩。Universe包括一些畅销、制作成本很高的大游戏,比如《传送门2》,也有一些便宜、质量很高的网页游戏,比如《Bubble Hit Pony Parade》和《James the Space Zebra》。

为什么微软要启动Project Malmo项目?有一个原因:它想教AI软件一个技能,让它与人协作。为了达到目的,项目主管Katja Hofman想用“Minecraft”创建一个更先进的个人助手。她的目标是开发一款软件,软件可以预测人类操作者的需求,帮助人类达成目标。Minecraft比真实世界简单,但是足够复杂,可以变得有趣,它是完美的测试场。Hofman博士和她的同事努力教计算机做一件事:如果想抓住虚拟小猪,计算机必须与人类玩家协作。因为机器无法理解书面指示,它必须观看游戏中的人类动作,从中学习协作经验。

为真实世界训练汽车并不是视频游戏能为AI做的唯一事情。事实上,不同的游戏需要不同的天赋,这点可以帮助研究人员解决智能问题。2015年,DeepMind发表一份白皮书,介绍了自己研究人员是如何训练人工神经网络的(它是一种程序,模拟生物大脑结构),神经网络玩了几十款游戏,这些游戏是1970年代至1980年代 Atari推出的。Atari曾是一家领先的视频游戏公司。

在网络掌握游戏的过程中,研究人员发现一些游戏比另一些游戏更难掌握。《Breakout》游戏有点像单人版网球游戏,它容易掌握一些。玩家的目标就是用一个弹力球击中漂浮的障碍物,将它粉碎。玩家可以做两件事:将球拍移向左边,或者是右边。如果失败就会受到惩罚,错过一个球就会丢掉一条命。相似的,如果成功就会获得奖励,每击碎一个障碍物积分就会增加。游戏将简单、瞬间反馈结合在一起,特别适合DeepMind的神经网络,它学会如何玩《Breakout》,成绩很好,得分比职业玩家的得分高9倍。

其它一些游戏更简单一些,在《Montezuma’s Revenge》游戏中,玩家目标就是从危险重重的金字塔中找到深埋的财宝。要达到目标,玩家首先要完成一些子任务,比如找到钥匙打开门。反馈比起《Breakout》没有那么即时,例如,出现在一个地方的钥匙打开的可能是另一个地方的门,离得很远。获得财宝之后,最终的奖励是之前所有付出的总回报。也就是说,网络很难在原因与后果之间建立联系。在《Breakout》中神经网络表现出色,到了《Montezuma’s Revenge》却没有任何进步。

自此之后,DeepMind的研究人员修改了算法,让系统对事物更好奇,在探索、实验过程中给予它更大的奖励。这样一来,算法偶然发现出色策略的机率就会高一些,这些策略不会立刻显现出来。通过此方法不只可以在虚拟世界锻炼技能,还可以应用于真实世界。DeepMind的算法已经应用在谷歌数据中心内,它将能耗削减了40%。事实上,算法将类似的任务看得跟游戏任务一样。为了削减数据中心的能耗,网络会改变一些东西,比如冷却液泵的设计、荷载分布,改变的同时还会关注能耗。


二、真理的化身

改变游戏程序的目的,让它削减数据中心能耗,相当于教算法玩新的游戏。为什么?因为DeepMind的原始神经网络一次只能学习一款游戏。为了理解《BreakOut》,它必须忘了自己从《Space Invaders》学到的东西。健忘是人工神经网络的一个属性,这个属性让它与真实的大脑区别开来。人工神经网络是由虚拟神经元组成的,整个系统神经元的连接强度会调整,神经网络正是从调整中学习的。如果学习的任务变了,那么旧的连接网络就要重写。DeepMind在3月时发表一篇报告,我们从中可以发现,DeepMind程序员已经找到了克服此问题的好办法,他们让神经网络一次学习多款游戏,就跟真实大脑一样。正因如此,我们朝着迁移学习迈进了一步,所谓迁移学习,就是从一种行为环境模式中学到东西之后可以用在另一种模式中,这是当前AI研究的一个热点。

显示出好奇心,奖励延迟分派,和这些东西一样,从一个任务到另一个任务迁移学习对人类来说是轻而易举的事,但是机器却很难处理。这一次,游戏再度在研究中扮演重要角色。例如,纽约大学Julian Togelius组织了一个挑战赛,名叫“General Video Game AI Competition”(通用视频游戏AI竞赛)。参赛者必须制作一个程序,它可以玩,有合理的能力,程序或者程序开发者需要征服10款不同的视频游戏。要达成目标,软件必须具有众多的技能:规划、探索、制定决策等等,然后将它们应用于之前碰到的问题。

当系统精通迁移学习之后,构建实用AI仍然只是零散的活动。研究人员真正想搞清的是底层理论,也就是如何让它系统化的底层理论。有一种理论成为候选,它就是具身认知(embodied cognition),倡导者认为我们开始时不需要设计智能程序,而是让它从体验中学习。

Dr Hofman特别支持这一方法。她认为,视频游戏是探索此方法的完美平台。之前研究人员在具身认知方面有过尝试,1980年代曾做过实验,研究人员将传感器装在机器人身上,让它了解真实世界是如何运行的,他们让机器人奔跑,撞东西,以此学习。后来研究人员的确用该方法取得一些成绩,但是他们碰到了障碍:无法扩大实验的规模。DeepMind员工David Silver认为:“机器人有机械、有轮子、有马达,还有许多类似的东西。最终你会在维护上花大量的时间。“

三、玩游戏

视频游戏可以让这一过程变得流畅顺利。在虚拟世界中,虚拟机器人是没有重量的。它没有移动组件,不需要维护。如果要改变机器人规格,不需要拿着扳手鼓捣,也没有必要将它拆成部件。在键盘中敲几下就行了。

它的环境也可以轻易改变。调整结构不需要重新焊接金属板,没有必要粘合塑料板。计算机一次可以模拟几千次,让大量的虚拟机器人一次又一次尝试任务,每做一次就会学到一点东西。这种测试是大规模的,学习的过程可以监控、可以理解,如果是真实的机器,根本不可能做到。

DeepMind创始人Demis Hassabis认为,有一点很重要,那就是确保虚拟机器人不会欺骗。虚拟传感器收集信息,虚拟机器人只能用这些信息导航。它不能窥视模拟的背后秘密。在《Montezuma’s Revenge》游戏中,金字塔内危险重重,机器人必须找到出路,在《侠盗猎车》中,机器人必须在虚构城市Los Santos找到出路,它必须搞清自己身在何处,根据自己的所见判断当下正在发生的事,机器人不能让运行游戏的计算机告诉它坐标。DeepMind正是用这种方法教程序玩视频游戏的。

如果要将游戏方法应用于AI,用这种策略研究具身认知似乎是一个合乎逻辑的选择,它看起来也是合适的选择。看看任何智能生物幼小时的样子,不论是狗还是人,你会发现它们在玩的时候形成一些东西,这些东西很像具身认知。达到这一阶段,计算机并没有为进化提供帮助。无论是人工世界还是自然世界,此类活动都有一个根本点:让玩家做好准备,进入最大的游戏——现实。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存