查看原文
其他

无师自通的游戏大师,人工智能的辉煌与困境

Joshua Sokol 知社学术圈 2021-06-13

海归学者发起的公益学术平台

分享信息,整合资源

交流学术,偶尔风月

就在最近,人工智能系统再次取得光辉成就。在一款电子游戏中,AI玩家从一无所知到媲美世界一流的人类玩家,仅仅只花了数小时。虽然人工智能风头正劲,在游戏世界所向披靡,但应该意识到——游戏是简化的真实世界,若是缺乏对社会的认知、对人文的思考,将人工智能在游戏中习得的知识与经验,直接应用于实际生活,可能会与预期的结果相差甚远。

1997年,为了在国际象棋比赛中击败Garry Kasparov,IBM的工程师充分参考了数百年来人类的象棋智慧。 2016年,Google旗下的DeepMind研发了AlphaGo,它在围棋比赛中以压倒性优势战胜棋手李世石,而这次胜利的基础在于,它仔细研究了近万名人类选手的棋局。


但是,这些都正在成为过去式。人工智能的研究者们正在整理一个新的思路,这个思路可以形象地称之为,“无师自通。”


去年十月,DeepMind团队发布了AlphaGo Zero的新系统,这个名为Go-playing的新系统,完全不参照人类的游戏经验进行学习。相反,它直接从游戏的规则入手,并与自己展开对抗。它的第一个动作完全是随机的,而每局比赛之后,它都会反思致胜及失败的原因。在经历了与自己的鏖战过后,AlphaGo Zero与击败李世石的“超人气明星“AlphaGo进行了正面交锋,在这次比试中,AlphaGo Zero获得了100:0的佳绩。


团队接着研发了AlphaGo家族中的又一位宗师级玩家,并直接取名叫AlphaZero。在预印本网站arxiv.org12月发布的一篇论文中,DeepMind的研究人员透露,经过训练的AlphaZero表现比AlphaGo Zero更加优秀——换一个更拗口的说法,AlphaZero完虐它的前代AlphaGo Zero,而AlphaGo Zero完虐它的前代AlphaGo,而最菜的AlphaGo则已打遍人类无敌手。当AlphaZero学会国际象棋和日本将棋的规则时,它很快就制定出了获取胜利的顶级算法。专家们为这种凶狠,陌生的进攻风格而感到惊叹。丹麦棋圣Peter Heine Nielsen接受BBC记者采访时说:“我以前经常想象,如果一个先进智慧的外来物种降落在地球上,并向我们展示他们的高超棋艺,那将会是怎样的一幅画面,我想我现在明白了。”

 

在过去的一年里,还有其他的自主学习人工智能崭露头角,例如在无限制扑克和Dota 2这两款游戏中。后者是一款非常受欢迎的多人在线对战游戏,玩家在其中操控神奇的英雄角色为控制世界而战。

当然,投资研发这一系列人工智能的公司,他们的雄心壮志绝不仅仅是主宰游戏比赛。像DeepMind这样的研究团队,他们企图将类似的方法应用于室温超导、药物结构等现实问题中来。显而易见,许多从业人员希望最终能够建立起普适的人工智能,让它们可以像人一样思索那些混沌而迷人的目标,并且具有多种能力来攻克不同类型的难题。

 

然而,尽管在这些系统上进行了大量投资,但这些技术未来可以走多远,目前尚不清楚。华盛顿大学计算机科学家Pedro Domingos说:“我不确定AlphaZero的理念是否能够如愿以偿地得到推广,游戏里的成功仅仅只是一个特例。”


信息不完全的现实世界


许多游戏,包括国际象棋和围棋,它们的共同特点是,玩家可以看到双方的所有棋子。每个玩家都拥有关于游戏状态的所有信息,无论游戏如何复杂,你只需要从目前的情况进行思考然后下判断即可。然而,大量的实际情况并非如此理想。想象一下,如果要求人工智能诊断疾病或进行商业谈判,情形就完全不同了。卡内基梅隆大学计算机科学博士生Noam Brown说:“大多数现实世界的战略互动都涉及隐藏信息,我觉得大多数的人工智能研发都忽视了这一点。”

 

德州扑克,这正是Brown擅长的,这项游戏为人工智能提供了一个不同的挑战——看不到对手的牌。但是,通过与自己的对抗学习,人工智能在德州扑克上的水平已经超过了人类。 2017年1月,Brown及其顾问Tuomas Sandholm发起了Libratus计划。他们用人工智能在德州扑克比赛中战胜了四名职业扑克玩家,为期20天的比赛结束后,人工智能的比分领先人类竞争者170万。

还有一款难度极高的游戏,叫做星际争霸2,也包含了不完全信息的博弈。这同样是一款十分火爆的多人在线对战游戏。玩家需要选择队伍,然后在科幻世界建立军队并发动战争。但是,游戏场景都笼罩在战争迷雾中,玩家只能看到他们驻有士兵或设有建筑物的地方,这就让整个游戏过程充满了不确定性。每个玩家,无论对电脑还是对人而言,每下达一个指令,都必须考虑到随之可能引发的一大堆状况。这是人工智能至今仍未称霸的一个游戏。就目前而言,想要在这个舞台上与人类选手争锋,对于人工智能来说还不太现实,但这已经成为了它打算攻克的目标。 2017年8月,DeepMind与星际争霸2的制作公司暴雪展开合作,发布了可以帮助推进人工智能研究的开放游戏工具。

尽管还存在诸多挑战,星际争霸2还是有一个简单明了的胜利目标:消灭你的敌人。这在国际象棋、围棋、扑克、Dota 2乃至其他更多的游戏中都是共通的。既是游戏,总有输赢。从算法的角度来看,这些问题都会归结为一个“目标函数”,一个需要追求的目标。当AlphaZero下棋时,对它来说,问题其实极其简单:失败比分减一,胜利比分加一,平局比分则为0,AlphaZero的目标就是将这个比分最大化。而在扑克游戏中的人工智能亦是如此,它只需要想着赢得更多的资金即可。

但真实情况却往往更加复杂。例如,一辆自动驾驶车辆则需要更复杂精细的目标功能, 例如:尽快将乘客送到正确地点,并且遵守所有法律及交通准则,甚至在意外或危险情况下,还要要求它精准地衡量取舍人身价值。Domingos说:“能否制定出精妙的目标函数,这是鉴定AI研究员优秀与否的标准。“微软曾在2016年3月上线过一款Twitter聊天机器人,取名Tay。它的目标是提升用户黏度,它也的确做到了。

Domingos介绍道:“然而,Tay在它的工作中有了一个颇为不幸的发现——提升用户黏度的最佳方式是鼓吹种族侮辱言论。”于是,不到一天它就被下架了。


最大的敌人是自己


但是,阳光底下没有新鲜事。现今主流游戏AI 采用的学习方法,其依赖的技术策略早在几十年前就已制定。多伦多大学的计算机科学家David Duvenaud说:“这实际上是过去技术爆炸的一次余波,只是现在投入了更多的预算而已。”这些策略主要筑基于强化学习技术,这种技术独立自主、对外界依赖性较低。工程师不再按部就班地对算法进行繁琐的调试,相反,他们让人工智能自己独立地探索环境内部,并且通过高频次的试验来接近目标。早在2013年,AlphaGo及子代系列还未发布,DeepMind团队就已经取得了令人瞩目的成就——他们依靠强化学习技术制作了一款可以同时玩7个游戏的AI,而其中的3个游戏都达到了专家水平。

 

随着技术的发展, 同年2月DeepMind发布了IMPALA。这个AI系统能够学习57个游戏,还包括由DeepMind搭建的30个额外关卡。这类游戏属于冒险解迷游戏,玩家需要在不同的场景中巡游,解锁密室的门、收割蘑菇。他们发现,IMPALA似乎可以将该游戏的知识调整应用在另一个游戏上。这意味着,在这一款游戏上花费的时间也将有助于增进它在其他游戏里的水平。

但更强大的强化学习技术允许采用一种更加特殊的方法。在这种方法里,学习探索可以通过“左右互搏”的形式展开——人工智能通过不断地与自己切磋对抗来学习优势战略。这个创想可追溯到几十年前。在二十世纪五十年代,IBM工程师Arthur Samuel研发了一个跳棋游戏程序,该程序分出α方和β方,然后通过观察他们的对抗比试来提升棋艺。而在二十世纪九十年代,同样是来自IBM的一位工程师GeraldTesauro,他研发了一个关于西洋双陆棋的程序,也是设计算法与自身对抗。这个西洋双陆棋程序达到了人类的专家水平,为这一技术奠定了基础。

 

在游戏中,自我对抗的AI系统面对着与自己完全对等的敌人。这意味着,每一个决策的变化都会产生极其不同的后果,并且得到即时的反馈。 OpenAI研究总监Ilya Sutskever说:“每当你学到一点新东西,或是发现一些新的致胜窍门,你的对手也会同时知晓同样的知识,并会反过来对付你。”在自我对抗的学习里,Sutskever这么评论道: “永远不存在休息一说,只有不断的完善。” 这种自我对抗的方法已经投入运用,并且取得了一些成绩。2017年8月,OpenAI发布了一款Dota 2的游戏AI,它控制游戏角色“死灵法师” 在一对一的战斗中击败了人类世界冠军。在OpenAI的另一个项目中,AI被用来模拟相扑比赛中的互相搏击,以期让它学会拆招与佯攻。

但自我对抗这个古老的想法,仅仅只是现今主流人工智能技术的一部分。事实上,它同样需要某种方式将对抗过程中获得的经验转化为更深入的理解。像国际象棋,围棋以及诸如Dota 2一类的电子游戏,它们的变化比宇宙中的原子排列还要多。想要遍历每一种情况,并且将其统统记录在表格文件里,以便再次遇到相同情况时进行查阅,这种想法是不切实际的。正因为这样,要是没有合适的方式总结概括经验,即便把所有的时间都消耗在浩渺无垠的虚拟电子舞台上,亦是徒劳。

加州大学伯克利分校计算机科学家Pieter Abbeel说:“你需要概括现象,捕捉本质。” IBM的Deep Blue通过搭建内置的国际象棋公式实现了这一点。这个程序有能力对其以前从未见过的棋局做出估测判断,并采取相应策略来接近胜利。但近年的一项新技术已经完全超越了这个公式。Abbeel说:“好像突然之间,‘深度神经网络’就解决了一切。”


深度神经网络在过去几年十分火爆,它们是一种像煎饼一样层层堆叠的“人造神经元”结构。当某一层中的神经元被刺激时,它们会将信号传递到下一层,下一层则继续往下传递,以此类推。通过调整层与层之间的连接方式,这些网络结构在将输入变换为输出的方面能够达到神奇效果。例如:给出一个英语短语,它们可以自行训练,将其翻译成土耳其语;提供一些来自动物收容所的照片,它们可以辨认出哪些图片里包含有猫。但通常情况下,这些技能的培养,需要事先提供大量的范例供其练习。因此,我们就找到了自我对抗和深度神经网络得以完美结合的原因——自我对抗进行的一系列实践活动,理论上为深度神经网络提供了无限的学习范例,而深层神经网络则为自我对抗提供了概括升华经验的方式。

但还有另一个问题:自我对抗需要现实环境来完成模拟训练。“前述所有的游戏、成果,都是在可以完美模拟的环境中进行的。”伯克利博士生Chelsea Finn说。目前他正致力于研究控制机器人手臂的AI系统。举个例子:自动驾驶汽车在遭遇恶劣天气或骑自行车的人时,应付起来十分困难,因为它难以处理真实情况中出现的各种奇怪可能——比如碰巧撞向汽车摄像头的小鸟。 Finn说,对机器人手臂而言,虽然提供了物理学配置使其能够完成最基本的学习操作,但由于缺乏对表面触摸等相关细节的捕捉,它不能完成诸如拧瓶盖或者执行外科手术等任务。而这些任务需要的正是来自于真实世界的经验。

 

对于不能模拟的问题,自我对抗就英雄无用武之地了。蒙特利尔大学的Yoshua Bengio是深度学习的先驱者之一,他在一封电子邮件中写道:“学习使用的估计模型与现实之间依然存在着巨大差异,尤其是现实情况很复杂的时候。”因此,人工智能的进步之途依然漫长。

扩展阅读

 

亦能覆舟!为人工智能敲响警钟

人工智能从0到1,无师自通完爆AlphaGo

医疗资源紧缺,中国医生将深度学习推向临床

NSR观点 | 深度学习与自然语言处理:优势与挑战

本文系网易新闻·网易号“各有态度”特色内容

媒体转载联系授权请看下方

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存