人类再次彻底败给 AI！

若名 CSDN 2019-02-23

作者 | 若名

出品 | AI 科技大本营（ID:rgznai100）

今日凌晨，DeepMind 与暴雪进行了联合直播，在直播中公布了 Google 最新 AI 程序 AlphaStar 与《星际争霸 2》职业选手此前的比赛结果，AlphaStar 以总成绩 10-1 战胜了两位来自欧洲的职业选手 TLO 和 MANA。这或许是自 2017 年 AlphaGo 在围棋上战胜人类后，再次让人类刷新 AI 认知的人机大战。

此次与人类对战的 AI 是 AlphaGo 兄弟：AlphaStar。开赛前几个小时，DeepMind CEO 在 Twitter 上公布了这一名字。而在开赛前一天，DeepMind 宣布 AI 将与人类在《星际争霸 II》中公开对战的消息，并表示在《星际争霸 II》游戏的疯狂难度模式下，其 AI 的胜率为 50%。

需要说明的是，正如之前打 Dota 的 OpenAI 受到的降低反应速度一样，DeepMind 此次将 AlphaStar 的反应速度“限制”到 APM 280，大致相当于星际中等职业玩家的水平。就 AlphaStar 的表现来看，虽然最终在现场 PK 时输了最后一局比赛，但整体上还是完虐人类。

比赛开始，与 AlphaStar 对战的第一个职业选手是 TLO，其世界排名为第 68 位。此次人机大战是五局三胜制，TLO 虽然不是顶级星际选手，但让人足够惊叹的是，AlphaStar 最终在约五十分钟内结束战斗，以 3:0 的成绩获胜，人类职业选手似乎毫无还手之力。

先来简单回顾下人机大战第一场：AlphaStar 第一局一开始就表现的很有全局观，在 PvP 两矿打一矿的情况下，TLO 很快被击败；第二局一度打得很焦灼，但 AlphaStar 依然以 2:0 再赢一局；十分钟后，TLO 溃败给 AlphaStar，有网友说选手太初级，批评 TLO 作为职业选手在瞎打，没有尊重熬夜看人机大赛的观众。不过，也有人说 AI 很可怕。

如果说第一回合 AlphaStar 战胜的是“初级”选手，那随后与其对战的职业选手是世界排名第 19 位的 MaNa ，其职业水平至少是中上游。

上图显示的是 AlphaStar 的决策过程，具体比赛过程就不说了，结果是 MaNa 在大约 45 分钟内连输五局被 AlphaStar 斩落马下。

前一个职业选手 TLO 在 MaNa 输掉比赛后称，“相信我, 和一个像 AlphaStar 这样的对手比赛是非常困难的, 它的打法和人类完全不同，是你以前从未有过的经验。 AlphaStar 给人留下了极深的印象, 这在游戏 AI 中也是前所未有的。”

AlphaStar 遇神杀神，干脆利落。这次应该没人责怪 MaNa 打得不好，他显然拼尽了全力，而网友发出的慨叹是希望终结者不会来那么快。

但最后一局让网友们为人类命运紧张的情绪稍稍放松，与 MaNa 现场对战的 AlphaStar 一着不慎，让 MaNa 扳回一局，但最终以 1:5 输掉比赛。

AlphaStar 的来历

早在 2016 年，谷歌 DeepMind 的 AI 研究人员已经开始关注暴雪娱乐的《星际争霸 II》。通过游戏来确定 AI 是否可以胜过人类相对简单的复杂任务是 DeepMind 的研究人员长期以来都在尝试的项目。同年 11 月，DeepMind 曾在暴雪嘉年华上宣布与暴雪达成合作协议，将在《星际争霸》系列游戏中进行合作，将在游戏平台中引入机器学习方法，进行人工智能研究。

2017 年 8 月，Deepmind 与暴雪共同发布了合作计划的首个成果：基于《星际争霸 II》的人工智能研究环境 SC2LE，它允许研究者在 Linux 系统中接入游戏 API，开放了 65000 场比赛的数据缓存用于训练 AI，并将添加 50 万场游戏数据到缓存中。

2018 年，同样在暴雪嘉年华上，他们分享了人工智能模型在《星际争霸》游戏中的突破。人工智能模型能执行基本的宏观战略，还能防御像 Tower Rush 这样的激进战术。而刚刚结束的“星际争霸”赛则是是一项“重大挑战”，因为这要求 AI 智能体“实现和平衡一些子目标”，以便最终击败人类选手。

例如，虽然游戏的目标是击败对手，但玩家还必须考虑平衡多个子目标，比如收集资源（水晶和气矿）或建筑。此外，一场比赛的时间通常为几分钟到一小时不等，这意味着游戏中提早执行的行动会在很长时间不见成效。最后，由于玩家智能看到部分地图，这意味着智能体必须结合记忆与规划才能成功。

AlphaStar 背后的 AI 技术

在围棋任务中，对手间可以看到整个棋盘，但《星际争霸 II》与此不同，我们通常无法看到整个地图，需要派小兵出去侦查。而且游戏是不间断进行的，整个游戏甚至会有超过 5000 步的操作。

DeepMind 科学家 Oriol Vinyals 曾在去年的一场以《AI 对战星际争霸胜算几何？》的演讲中提到，这个游戏基本上就是建造一些建筑物以及单位，在同一个地图里与不同的组织相互竞争。在这个游戏中，哪怕只是建造建筑物，也需要做出许多决策。除此之外，他们还要不断收集和利用资源、建造不同的建筑物、不断扩张，因此整个游戏非常具有挑战性。

他们在这个游戏中使用的方法依旧是强化学习。他们要让 AI 模仿人类玩这个游戏的方式，但即使是模仿人类点击鼠标和敲击键盘的行为也非常困难，需要收集整个《星际争霸》玩家的行为进行分析。为此还引入了一个游戏引擎。

DeepMind 还为游戏过程设计了不同的指令和模式，这使得整个玩《星际争霸》的过程变得独一无二。如今，我们看到的 AlphaStar 正是上述想法的结晶。

现在的 AlphaStar 还是刚出生的婴幼儿，不过以其极快的进化速度，你也能想到日后的进化版会是多么无可匹敌。到现在，或许还有很多人期待 2 月 15 日 AlphaStar 与世界排名第一的 Serral 进行终极对决，但最终的结果可想而知。正如柯洁输给 AlphaGo 时面临的绝望一样，人类可能不愿意面对这样的现实：在更多复杂的场景中，人类可能正以难以想象的速度输给 AI。

热文推荐

☞ 告别摩拜

☞ 史上最贵黑客事件！中本聪用代码亲手杀死 1844.67 亿枚比特币！

☞ 微信的 Bug 差点让我被老板炒鱿鱼！

☞ 6大改进：盘点以太坊的2018冒险之旅

☞ 马云获评“全球最具影响力人物”，比起流量明星，这才是中国需要的公众人物！

☞ 天罡现世，Balong出海，华为这波5G动作666！

☞ 2:0！谷歌 AI “AlphaStar“ 虐杀职业星际玩家

☞ K8S的SDN容器网络解决方案【机制篇】

☞ 心疼！能为程序员男友做些什么吗？

print_r('点个赞吧！');
var_dump('点个赞吧！');
NSLog(@"点个赞吧！");
System.out.println("点个赞吧！");
console.log("点个赞吧！");
print("点个赞吧！");
printf("点个赞吧！ ");
cout << "点个赞吧！" << endl;
Console.WriteLine("点个赞吧！");
fmt.Println("点个赞吧！");
Response.Write("点个赞吧！");
alert("点个赞吧！")
echo "点个赞吧！"

点击“阅读原文”，打开 CSDN App 阅读更贴心！

喜欢就点击“好看”吧！

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

平安信托深陷“爆雷”旋涡：终于尝到“偏爱”房地产的苦果

刀片电池存设计缺陷，或将导致几十万比亚迪车主自费更换or召回？

复旦陈果：低质量的独处，不如高质量的社交，有远见的人都关注了这些微信号