人工智能不仅能玩游戏战胜人类高手 还能通过游戏自我训练

人工智能不仅能玩游戏战胜人类高手还能通过游戏自我训练

2017-10-16 两个质子

AI成为热点，许多企业和学术机构都在研究。为了解决AI问题，训练算法，研究将目光转向游戏，因为它是完美的AI测试平台。《经济学人》最近刊文，深入解读这一现象。

去年，普林斯顿大学计算机科学家Artur Filipowicz碰到了一个问题，一个与停车标志有关的问题。当时Filipowicz正在传授汽车新技能，让它看见、解释世界，这样一来汽车就可以自己行驶，不需要协助。要达成目标，首先汽车必须具备识别停车标志的能力。最终，Filipowicz博士想训练一个合适的算法。所谓训练，就是向算法展示大量图片，里面有许多的停车标志，出现在许多不同的环境中：有老标志，有新标志，有清晰的标志，有弄脏的标志；还有一些标志被卡车或者大楼遮挡一部分；有些标志出现在日光环境中，或者是雨天，雾天；有些标志出现在白天，黄昏或者夜晚。

要从图片库中获得所有类似的图片并不是一件容易的事。如果进入真实世界，让人亲自拍摄，无疑是一件冗长乏味的事。Filipowicz将目光转向了《侠盗猎车5》，这是一款最近才发布的新游戏。《侠盗猎车5》引起很大的争议，因为它逼真描绘了犯罪和暴力，不过Filipowicz认为它很完美，因为里面有逼真的停车标志。修改游戏软件之后，他从游戏中抽出几千张与停车标志有关的照片，它们处在各种环境中，这些图片可以供算法挖掘。

AI研究人员偏爱视频游戏，Filipowicz用游戏解决停车标志问题只是其中一例。为什么这么流行？还有几个原因。一些人（比如Filipowicz）用游戏作为真实世界的训练场。还有一些人认为不同的游戏需要不同的认知能力，他们觉得游戏可以帮助他们理解一个问题：如何将智力问题分解成更小、更容易管理的小块。还有一些人赞同上面两种做法，认为游戏可以帮助他们构建更合适的AI理论。

一、驾驶学员

要让一切发生，首先必须对游戏进行调整，让其它计算机程序可以直接玩游戏，而不是人盯着屏幕动作控制游戏。例如，如果将《侠盗猎车5》与一款名叫“Deep Drive”的软件绑在一起，就可以将大量道路标志照片输入驾驶模拟器。这样一来，汽车驾驶导航程序就可以接过控制权，与路面测试相比，用这种方法测试驾驶软件更便宜，更安全。

游戏公司已经开始理解这点。2015年6月，微软启动一个名叫Project Malmo的项目，它是一个AI开发平台，根据Minecraft游戏开发的，Minecraft是一款构建世界的游戏。2016年11月，《星际争霸2》开发商动视暴雪宣布与DeepMind达成相似的合作，DeepMind是谷歌旗下的一家AI公司。

在接下来的一个月，旧金山一个由私人资助的研发团体OpenAI推出了“Universe”。Universe包括一系列软件，向所有人免费提供，里面有几百款游戏，直接用合适的程序就可以玩。Universe包括一些畅销、制作成本很高的大游戏，比如《传送门2》，也有一些便宜、质量很高的网页游戏，比如《Bubble Hit Pony Parade》和《James the Space Zebra》。

为什么微软要启动Project Malmo项目？有一个原因：它想教AI软件一个技能，让它与人协作。为了达到目的，项目主管Katja Hofman想用“Minecraft”创建一个更先进的个人助手。她的目标是开发一款软件，软件可以预测人类操作者的需求，帮助人类达成目标。Minecraft比真实世界简单，但是足够复杂，可以变得有趣，它是完美的测试场。Hofman博士和她的同事努力教计算机做一件事：如果想抓住虚拟小猪，计算机必须与人类玩家协作。因为机器无法理解书面指示，它必须观看游戏中的人类动作，从中学习协作经验。

为真实世界训练汽车并不是视频游戏能为AI做的唯一事情。事实上，不同的游戏需要不同的天赋，这点可以帮助研究人员解决智能问题。2015年，DeepMind发表一份白皮书，介绍了自己研究人员是如何训练人工神经网络的（它是一种程序，模拟生物大脑结构），神经网络玩了几十款游戏，这些游戏是1970年代至1980年代 Atari推出的。Atari曾是一家领先的视频游戏公司。

在网络掌握游戏的过程中，研究人员发现一些游戏比另一些游戏更难掌握。《Breakout》游戏有点像单人版网球游戏，它容易掌握一些。玩家的目标就是用一个弹力球击中漂浮的障碍物，将它粉碎。玩家可以做两件事：将球拍移向左边，或者是右边。如果失败就会受到惩罚，错过一个球就会丢掉一条命。相似的，如果成功就会获得奖励，每击碎一个障碍物积分就会增加。游戏将简单、瞬间反馈结合在一起，特别适合DeepMind的神经网络，它学会如何玩《Breakout》，成绩很好，得分比职业玩家的得分高9倍。

其它一些游戏更简单一些，在《Montezuma’s Revenge》游戏中，玩家目标就是从危险重重的金字塔中找到深埋的财宝。要达到目标，玩家首先要完成一些子任务，比如找到钥匙打开门。反馈比起《Breakout》没有那么即时，例如，出现在一个地方的钥匙打开的可能是另一个地方的门，离得很远。获得财宝之后，最终的奖励是之前所有付出的总回报。也就是说，网络很难在原因与后果之间建立联系。在《Breakout》中神经网络表现出色，到了《Montezuma’s Revenge》却没有任何进步。

自此之后，DeepMind的研究人员修改了算法，让系统对事物更好奇，在探索、实验过程中给予它更大的奖励。这样一来，算法偶然发现出色策略的机率就会高一些，这些策略不会立刻显现出来。通过此方法不只可以在虚拟世界锻炼技能，还可以应用于真实世界。DeepMind的算法已经应用在谷歌数据中心内，它将能耗削减了40%。事实上，算法将类似的任务看得跟游戏任务一样。为了削减数据中心的能耗，网络会改变一些东西，比如冷却液泵的设计、荷载分布，改变的同时还会关注能耗。

二、真理的化身

改变游戏程序的目的，让它削减数据中心能耗，相当于教算法玩新的游戏。为什么？因为DeepMind的原始神经网络一次只能学习一款游戏。为了理解《BreakOut》，它必须忘了自己从《Space Invaders》学到的东西。健忘是人工神经网络的一个属性，这个属性让它与真实的大脑区别开来。人工神经网络是由虚拟神经元组成的，整个系统神经元的连接强度会调整，神经网络正是从调整中学习的。如果学习的任务变了，那么旧的连接网络就要重写。DeepMind在3月时发表一篇报告，我们从中可以发现，DeepMind程序员已经找到了克服此问题的好办法，他们让神经网络一次学习多款游戏，就跟真实大脑一样。正因如此，我们朝着迁移学习迈进了一步，所谓迁移学习，就是从一种行为环境模式中学到东西之后可以用在另一种模式中，这是当前AI研究的一个热点。

显示出好奇心，奖励延迟分派，和这些东西一样，从一个任务到另一个任务迁移学习对人类来说是轻而易举的事，但是机器却很难处理。这一次，游戏再度在研究中扮演重要角色。例如，纽约大学Julian Togelius组织了一个挑战赛，名叫“General Video Game AI Competition”（通用视频游戏AI竞赛）。参赛者必须制作一个程序，它可以玩，有合理的能力，程序或者程序开发者需要征服10款不同的视频游戏。要达成目标，软件必须具有众多的技能：规划、探索、制定决策等等，然后将它们应用于之前碰到的问题。

当系统精通迁移学习之后，构建实用AI仍然只是零散的活动。研究人员真正想搞清的是底层理论，也就是如何让它系统化的底层理论。有一种理论成为候选，它就是具身认知（embodied cognition），倡导者认为我们开始时不需要设计智能程序，而是让它从体验中学习。

Dr Hofman特别支持这一方法。她认为，视频游戏是探索此方法的完美平台。之前研究人员在具身认知方面有过尝试，1980年代曾做过实验，研究人员将传感器装在机器人身上，让它了解真实世界是如何运行的，他们让机器人奔跑，撞东西，以此学习。后来研究人员的确用该方法取得一些成绩，但是他们碰到了障碍：无法扩大实验的规模。DeepMind员工David Silver认为：“机器人有机械、有轮子、有马达，还有许多类似的东西。最终你会在维护上花大量的时间。“

三、玩游戏

视频游戏可以让这一过程变得流畅顺利。在虚拟世界中，虚拟机器人是没有重量的。它没有移动组件，不需要维护。如果要改变机器人规格，不需要拿着扳手鼓捣，也没有必要将它拆成部件。在键盘中敲几下就行了。

它的环境也可以轻易改变。调整结构不需要重新焊接金属板，没有必要粘合塑料板。计算机一次可以模拟几千次，让大量的虚拟机器人一次又一次尝试任务，每做一次就会学到一点东西。这种测试是大规模的，学习的过程可以监控、可以理解，如果是真实的机器，根本不可能做到。

DeepMind创始人Demis Hassabis认为，有一点很重要，那就是确保虚拟机器人不会欺骗。虚拟传感器收集信息，虚拟机器人只能用这些信息导航。它不能窥视模拟的背后秘密。在《Montezuma’s Revenge》游戏中，金字塔内危险重重，机器人必须找到出路，在《侠盗猎车》中，机器人必须在虚构城市Los Santos找到出路，它必须搞清自己身在何处，根据自己的所见判断当下正在发生的事，机器人不能让运行游戏的计算机告诉它坐标。DeepMind正是用这种方法教程序玩视频游戏的。

如果要将游戏方法应用于AI，用这种策略研究具身认知似乎是一个合乎逻辑的选择，它看起来也是合适的选择。看看任何智能生物幼小时的样子，不论是狗还是人，你会发现它们在玩的时候形成一些东西，这些东西很像具身认知。达到这一阶段，计算机并没有为进化提供帮助。无论是人工世界还是自然世界，此类活动都有一个根本点：让玩家做好准备，进入最大的游戏——现实。

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

复旦陈果：低质量的独处，不如高质量的社交，有远见的人都关注了这些微信号