查看原文
其他

人工智能的本质居然是……网瘾少年?

冷柠檬 网易智能 2019-05-31


作者 | 冷柠檬

来源 | 网易智能(公众号ID:smartman163)


01

AlphaStar:为艾尔而战


DarioWünsch之前原本是自信满满。来自德国莱比锡的这位28岁的年轻人即将成为第一个 “星际争霸II”中接受人工智能程序AlphaStar挑战的职业选手。Wünsch打职业比赛已经有十个年头了,想让他在这5局比赛的挑战中输给一个“星际新手”,可没那么简单。


(星际争霸2:暴雪出品的RTS游戏,玩法类似于红警,但操作难度与战术要求都更高)


甚至AlphaStar的创造者——总部位于伦敦的人工智能研究公司DeepMind也觉得自己的胜算不大,对结果的预期并不乐观


(DeepMind是Alphabet公司旗下的子公司,alphago也是他们开发的)


这一团队是Deepmind大家庭中的新成员,他们想要建立一个可以处理星际争霸II令人眼花缭乱的复杂操作的人工智能。到目前为止,还没有人创造出能够击败经验丰富的人类玩家的系统。


(职业玩家的手速)


果然,当AlphaStar在12月12日对阵Wünsch时,人工智能似乎在第一场比赛开始时犯了一个致命错误:它忽略了在营地入口处建立一个保护屏障,结果让Wünsch的“突击队”迅速切入,干掉了几个工人单位。(对于职业玩家来说这种工人单位在前期是十分珍贵的)


在那一瞬间,好像星际争霸II仍然是人类战胜机器的领域。



但AlphaStar取得了胜利的回归,它组建了一个顽强的“罢工队伍”,最终击溃了Wünsch的防守。AlphaStar 1:0 Wünsch0。


Wünsch摇了摇头。他只需要更多地关注防守。但是在第二轮比赛中,AlphaStar一直按兵不动让这位职业选手感到诧异,直到它积累了一支足以粉碎Wünsch防守力量的钢铁军团。之后的三场比赛,AlphaStar一路凯歌,最终以5比0的比分赢得了比赛,从此Wünsch就加入了“机器人手下败将”俱乐部,这个俱乐部尽管目前还很小,但它还会不断地扩大。


研究人员长期以来一直将游戏作为AI的考试题。1997年,IBM的Deep Blue赢得了国际象棋冠军Garry Kasparov的国际赞誉。2016年,同样是来自于DeepMind的AlphaGo击败Go冠军Lee Sedol而着称。



但是像国际象棋和围棋这样的基于棋盘的比赛到目前为止对人工智能的要求都远远算不上“变态”级别。这些游戏仍然非常简单——玩家可以轮流看到每个棋子在棋盘上的位置。要想制作既能够理解人类社会的复杂多面,又可以完成快节奏互动的人工智能时,或许能给机器人出的最好的试卷就是出现在虚拟世界的游戏中。


建立一个可以打败人类游戏玩家的AI可不仅仅是个“面子”的问题。哥本哈根信息技术大学的AI研究员Sebastian Risi说:“最终的想法是......让这些算法可以用于解决实际问题。” 


例如,在总部位于旧金山的公司OpenAI训练了一个五人(或者叫五机?)小组参加了Dota 2的比赛,程序员重新利用这些算法教导机器人手的五个手指以前所未有的灵巧操纵物体。


(没错 就是那个变脸特别强的那个OpenAI)


(dota2,MOBA类游戏,玩法类似于王者荣耀,但是操作与意识要求更高)


DeepMind的研究人员同样也希望AlphaStar的设计能够给他们更多灵感,去尝试构建能进行长期互动的AI,例如那些涉及模拟气候变化或理解对话的人,这是一项特别困难的任务。


(托尼斯塔克的管家贾维斯)


目前,AI仍在努力解决两个重要问题:一是相互协调;二是新知识在新场景的应用。事实证明,星际争霸的世界是一种优秀的测试平台,可以让人工智能更加合作。


为了试验使AI永远成为学习者的方法,研究人员正在使用另一种流行的视频游戏Minecraft。虽然人们总说“玩物丧志”,但虚拟挑战可能有助于AI掌握在现实世界中取得成功所需的技能。(是不是突然有些羡慕机器人了?)

02

街机教育


AI可以在视频游戏中练习不同的技能,以学习如何在现实世界中生存。例如,导航技术可以帮助搜索和救援机器人在穷山恶水之中移动,知道如何管理许多工人的AI可以帮助管理公司。


比如……



03

 AI也需要团队合作?


其实当AlphaStar与Wünsch交战时,可以发现AI玩星际争霸II的方式与人类一般无二:它像一个木偶操纵者一样完全控制着舰队中的所有角色。看起来人类在多单位控制能力上的瓶颈被AI无上限地突破了。


但在旧金山的Facebook AI Research的人工智能研究员Jakob Foerster表示,有时候在现实世界里,许多问题我们不能依赖于由单个AI主脑管理大量设备的解决方案。


举例来说,一家医院安排几十个护理机器人,用一个主脑去控制,或者用一个主脑去为一条高速公路上正在行驶的几十辆自动驾驶汽车调节车速,来缓解交通拥堵。因此,包括Foerster在内的研究人员正在使用星际争霸游戏尝试不同的“多代理”方案。


(日本正大力发展的护理机器人)


在某些设计中,个别作战单位具有一定的独立性,但仍然听从一个“中央”的命令。在这个设置中,AI就像一个教练在场边大吼大叫。教练制定了一个重要的战术并向团队成员发出指示,各个单位就要立刻心领神会,并通过对周围环境的详细观察来决定如何采取行动。


中国北京大学计算机科学家王亦洲及其同事在提交给IEEE神经网络和学习系统的论文中评估并证实了了这种设计的可行性。


王教授的团队使用“强化学习”(reinforcementlearning)训练其人工智能团队,这是一种机器学习,其中计算机系统通过不断地与环境互动获得技能,并在做出正确的事情后获得虚拟奖励。


比赛中每个队员都根据其附近被淘汰的敌人数量获得奖励,最终要看整个团队是否胜过游戏中已经预设好的对手。几支队伍都由10个以上战斗单位组成,进行各种挑战赛,最终结果是,教练指导的AI团队胜率可以达到60%~82%,而没有独立推理能力的中央控制的AI团队对预设对手的成功率较低。


当团队中每个队员之间都能达到快速,准确的沟通时,单个具有指挥能力的AI只需要对个别单位进行一些简单指挥,就能达到最佳效果。设想一下,我们将该系统应用于同一仓库内的机器人。


(亚马逊的搬运机器人)


但是,对于许多其他应用,“例如自动驾驶汽车或无人机群体,它们之间的距离往往很远,设备与控制中心之间如何保持一致、可靠和快速的数据连接,就成了大问题”Foerster说。这是现在AI的通病。在这种情况下工作的AI通常在协调能力上不如集中式团队,但Foerster及其同事设计了一个培训计划,以使独立思考的机器能够协同工作。


在该系统中,监督员在强化学习期间不断向队友提供指导。但是,一旦该小组接受了全面培训,AI就会独立完成分配给他的任务。这次监督员不再像是站在边线教练,不停地呐喊,更像是芭蕾舞演员的舞蹈教练,他们在训练时对演员总是喋喋不休,但在舞台表演期间一直保持沉默。



AI监督员通过在培训期间提供个性化建议,让每个AI都做好自给自足的准备。在每次试运行之后,监督员都会模拟出各种不同的可能性,并告诉每个AI,“这就是实际发生的事情,如果其他人都做了同样的事情就会发生这种情况,但你做了不同的事情。”


福斯特的团队于2018年2月在新奥尔良举行的AAAI人工智能会议上,展示了这个训练方法,用以帮助每个AI单位判断行动是否有助于或阻碍团队的成功。


为了测试这个框架,Foerster及其同事在星际争霸中训练了三组队伍,每支队伍包括五个AI,要求受过训练的单位仅根据对周围环境的观察来行动。对手则是由游戏内置电脑进行指挥,但队员完全一样的队伍,结果完全符合预期:这三支训练后上场的队伍赢得了大部分的战斗。


04

 终身学习


程序员在星际争霸和星际争霸II中测试的AI培训类型旨在帮助AI团队掌握单一任务,例如协调交通信号灯或无人机。星际争霸游戏非常适合这种情况,因为对于所有移动部件而言,游戏相当简单:每个玩家都有一个压倒对手的单一目标。但是,如果人工智能变得更加多样化和人性化,程序需要能够学习更多知识并不断学习新技能。


“我们现在看到的所有玩Go和国际象棋的系统 - 他们基本上都训练过很好地完成这一项任务,然后他们被修复以便他们无法改变,”Risi说。Risi说,一个带有18×18网格的Go-playing系统,而不是标准的19×19游戏板,可能必须在新的主板上完全重新训练。改变星际争霸单位的特征需要进行相同的背对一训练。类似乐高的Minecraft领域是一个更好的测试方法,使AI更具适应性。 


与“星际争霸”不同,“我的世界”是没有特定获胜目标的。在这个由灰尘,玻璃和其他材料组成的虚拟世界中,玩家可以收集资源来进行各种建造,旅行,觅食,或是做其他任何他们喜欢的事情。总部位于旧金山的软件公司Salesforce的人工智能研究员熊彩明和同事们在Minecraft中使用了一个简单的建筑物来测试人工智能,以便不断学习。


(我的世界,一款生存类游戏,通过自行采集、建造来模拟荒野生活)


他的团队并没有让人工智能在强化学习中反复试验来学习单一任务,而是让人工智能的教育错综复杂。研究人员指导人工智能通过越来越困难的强化学习挑战,从寻找特定区块到堆叠区块。人工智能旨在将每个挑战分解为更简单的步骤。它可以使用旧的专业知识解决每一步或尝试新的东西。与另一个没有利用旧知识学习新知识人工智能相比,学会自主学习的人工智能明显更为出色。


积累知识的人工智能在适应新情况方面也更好。


两个AI同时被训练如何拾取材料。在一个只包含一个街区的简单房间内进行培训时,两个AI都获得了“收集材料”技能。


但是在一个有多个街区的房间里,没有经过之前“寻找材料”训练的AI很难确定其目标并且只有29%的时间拾取的是正确的材料。


积累了知识的AI知道依赖于先前学习的“查找材料”技能来定位目标对象。它在94%的时间内拾取的都是正确的材料。


通过进一步的培训,他们的系统可以掌握更多的技能。但是这种设计受到以下事实的限制:AI只能学习人类程序员在训练期间分配的任务,而人类的学习是没有止境了。当人们完成学业时,并不会说,“好的!现在你已经完成了学习。你可以冻结你的大脑然后走了。”Risi说。


加州大学圣地亚哥分校的机器人专家PriyamParashar说,一个更好的人工智能将在游戏和模拟中获得基础教育,然后能够在其整个生命周期中继续学习。例如,如果居民安装婴儿门或重新安排家具,家用机器人应该能够找到导航工作区。


Parashar及其同事创建了一个AI,可以识别需要进一步培训而无需人工输入的实例。当人工智能遇到新的障碍时,它会评估环境与预期的不同。然后它可以自行排练各种解决方案,模拟每个解决方案的可行性并选择最佳解决方案。


研究人员在一个两室的Minecraft建筑中用AI测试了这个系统。人工智能已经接受过培训,可以从第二个房间找回金块。但是另一个Minecraft玩家在房间之间的门口建造了一个玻璃屏障,阻止AI收集金块。人工智能评估了这种情况,并通过强化学习,找出了如何粉碎玻璃以完成其任务。


 Parashar承认,面对意想不到的婴儿门或玻璃墙的人工智能应该可能不会得出最好的解决办法。但她说,程序员可以为AI的模拟程序添加额外的约束条件——比如不应该破坏某些值得被保护的东西,或者是有价值的知识。


(电影《我,机器人》片段)


新的视频游戏一直是AI测试器。人工智能和纽约大学的游戏研究员JulianTogelius及其同事希望在Overcooked中能够测试他们的AI队伍。这是一个团队烹饪游戏,发生在一个紧凑,拥挤的厨房里,玩家不断地互相攻击。“游戏旨在挑战人类的思想,”Togelius说。任何视频游戏本质上都是一个现成的测试,可以测试AI如何模仿人类的聪明才智。 


但是当谈到在视频游戏或其他模拟世界中测试AI时,“你永远不能说,'好吧,我已经模拟了现实世界中发生的一切,'”Parashar说。要想弥合虚拟虚拟和物理现实之间的差距,还需要更多的研究。


她建议,这种一直处于模拟训练中的人工智能也不适合长期超负载工作,有一种方法是设计需要AI在需要时向人们寻求帮助的系统。“从某种意义上说,这使得AI更像人类,对吗?”Parashar说。“正如老话说的,朋友多了路才好走”

 

往期精选



- 加入社群吧 -

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存