教 AI 打牌打游戏，不止是为了战胜人类

Java笔记侠 2019-07-25

场景描述：昨日，DeepMind 宣布其研发的 AI——AlphaStar 将会登录欧服，匿名在天梯上与人类玩家进行《星际争霸 2》比拼。今天，Facebook 与 CMU 合作开发的 AI 赌神 Pluribus ，在六人局的德州扑克比赛中击败人类顶级玩家的消息又刷屏。AI 在游戏比赛中的表现越来越突出，但我们不断训练 AI 在游戏中去战胜人类，最终的目的与意义是什么？

关键词：AI 游戏研究意义应用场景

就在昨天，DeepMind 宣布，其研发的 AI AlphaStar 近期将会登录欧服，并匿名在《星际争霸2》中和人类玩家在天梯竞技。今天，Facebook 与 CMU 合作开发的 AI 赌神 Pluribus ，在六人局的德州扑克比赛中击败人类顶级玩家。

为啥 AI 总对棋牌游戏这么感兴趣，而且背后的团队也在那么不遗余力的拿下游戏和棋牌比赛呢？

从最复杂策略游戏《星际争霸 2》说起

《星际争霸》（StarCraft）由暴雪娱乐在 1998 年推出，其续作《星际争霸 2》于 2010 年发行。它被认为是近年来最难、最硬核的一种即时战略游戏，在各种游戏纷纷被 AI 攻克的情况下，它却是 AI 比较难掌握的游戏类型。

游戏通过俯视视角对战场的军队下达指令，玩家收集资源

建造建筑、组建军队并升级，再和其他玩家对抗

为了获胜，玩家必须谨慎地平衡和处理多方面的因素，及时作出规划和应对策略。和只依赖于策略的棋类游戏不同，在这个游戏中，AI 要玩得出彩，需要面对多个方面的挑战，包括应对不完美信息，进行长期规划，学会及时策略等等。

但在去年 12 月，这个情况被彻底改变了。在人类 vs AlphaStar 的 11 场《星际争霸 2》比赛中，AI 碾压式地以 10:1 大获全胜。至此，AI 在星际争霸这个游戏上，又留下了浓重的一笔。

AlphaStar 的行为是由深度神经网络生成的，该神经网络接收游戏界面的输入数据（单位及其属性列表），并输出构成游戏内动作的一系列指令。

基于不完美的信息，游戏通常持续长达一个小时，需要成千上万次移动。星际争霸的每一帧都用作输入的一步，神经网络预测每帧之后剩余部分的预期行动顺序，然后采取最佳的行动。

Alphastar 与人类职业玩家数据对比：

观察和行动之间的总延迟，高下立现

DeepMind 解释说，AlphaStar 对战的成功，实际上是由于卓越的宏观和微观战略决策，而不是优越的点击率、更快的反应时间。

而这项技术还有助于机器学习研究中的许多其他挑战，包括长期序列建模和大输出空间，如翻译，语言建模和视觉表示等。

AI 在棋牌游戏中已经称霸

1997 年，计算机程序「深蓝」击败当时世界第一棋手，开启了 AI 战胜人类游戏玩家的历史；
2017 年 5 月，不断成长的 AlphaGo 以 3:0 战胜当时世界围棋水平最高的棋手柯洁。之后，仅仅时隔 5 个月，DeepMind 公布了一种新的算法变种，即 AlphaGo Zero，能够以 100 比 0 的比分狂虐 AlphaGo；
2018 年底，Uber AI 研究院通过强化学习算法 Go-Explore，在《蒙特祖玛的复仇》中获分超过 200 万，平均得分超过 40 万，被称为 Atari 游戏史上最强通关算法；

OpenAI Five 先依靠 5 个神经网络组成的 OpenAI Five 击败 Dota 2 的业余玩家队伍。在2019 年 4 月， Dota2 国际邀请赛中以 2:0 吊打世界冠军 OG 战队。

看起来 Dota2 已经被 OpenAI 完全拿下

然后就是在最近，德州扑克赌神 AI——Facebook 与 CMU 联合打造的 Pluribus，在六人局中，击败人类顶级德扑选手，平均下来每个小时就能获利近一千美元。

而团队训练出这个德扑赌神 AI ，只用了不到一个星期。

Pluribus 还会在比赛过程中虚张声势，生生唬住人类玩家

人类已经培养出了如此之多的 AI，在多个复杂的电竞游戏中战胜人类顶级玩家，让人类瑟瑟发抖。

但是，AI 是为了娱乐才玩游戏的吗？

先战胜人类，再服务于人类

为了教算法下围棋、电子竞技、打扑克，这些 AI 公司花费了不少心血，态度可以说是非常严肃认真了。

OpenAI 他们甚至还专门开发了一个叫做 Gym 和 Universe 的开源平台，可以让每个人都用这个平台教计算机玩游戏，Gym 用来玩 Atari，Flappy bird，贪食蛇这种小游戏，Universe 则用来玩 GTA5，赛车这种大型 3D 游戏。

OpenAI Gym 公开发布的游戏数量达 1000 多个

他们耗费巨大精力财力，只是为了玩游戏来娱乐吗？或者，是让 AI 打败人类这件事，能够给他们极大的成就感？并不是，对于 AI 研究者来说，游戏只是方法，绝非目标。

游戏环境：是 AI 整体发展的加速器

游戏，是完美的 AI 测试平台。游戏有方便处理的数据，固定的规则，多种可假设的策略，游戏也就是模拟场景，它对于人工智能的研发来说是一个非常理想的场所。

星际这类游戏背后有着复杂的策略和数据

纽约大学游戏研究中心副教授 Julian Togelius 说，「我们还没有看到很多东西是通过游戏训练，然后再转移到现实世界的。但我们已经看到，为玩游戏而发明的方法，转移到了现实世界。」

游戏 AI ：是人类玩家最好的老师和对手

一方面，AI 可以帮助发现一些更完美的策略，提高人类玩家竞技技能。柯洁就认为和 AlphaGo 的对战，让他打开了思路，提高了围棋水平；

另一方面， AI 的介入，会为很多游戏打造一个更智能的对手，经过调整的 AI，不仅能够成为人类玩家的教练，适配不同玩家的水平与之对战。

还能够避免如今游戏里的人类玩家动辄相互发飙，如果有一个佛系 AI 在你的对面，一定能维持一个更加文明的游戏环境。

游戏只是个开始：广阔天地，大有作为

DeepMind 的 CEO 戴密斯·哈萨比斯(Demis Hassabis)说：「DeepMind 的目标不仅仅是获得游戏胜利，还要从中获得乐趣和启发。」

据说，超级玛丽是 AI 研究者最喜欢的游戏

「但从个人角度来说，我喜欢玩游戏，我也曾开发过电脑游戏。可是从某种程度上说，它们又都是试验台，即尝试编写算法并对其进行测试的平台。最终，我们希望能将技术应用于解决现实世界的难题。」

未来，AlphaGo 和 AlphaStar 将不仅仅只是 AI 玩家的名字、去操控游戏中的英雄，DeepMind 也不会局限于解决游戏的问题，他们将会成为人类社会的 AI 英雄。

☞ 为什么雷军说“华为不懂研发”？

☞ 5G？居然有人用漫画把它讲得如此接地气!

☞ 崩溃！史上最难的一道Java面试题来了....

你点的每个“在看”，我都认真当成了喜欢

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

古琴养身：为什么弹古琴的女人会更有气质？99%的人都不知道！

炸大瓜！君子固穷豪刷阿哲，锤“姓氏哥”！VIC哥凌晨豪刷俊雅！

抖音兜底？阿哲爆瓜违约金！晒大量流量卡，回应官方推流！

舞帝一哥被封！谁也没面子！阿哲回应外界舆论，放话：真金白银谁敢干！