谷歌DeepMind《星际争霸》AI负责人即将来华！人类选手4-0完胜AI恐成绝唱

原创 2017-11-04 DeepTech深科技

28 31859 28 8987 0 0 2946 0 0:00:10 0:00:03 0:00:07 2947

Google DeepMind研究科学家、《星际争霸》AI计划负责人 Oriol Vinyals将在EmTech China全球新兴科技峰会（2018年1月28-30日）发表主题演讲。（点击阅读原文）

识别上方二维码进入会议官网预订专属席位

世界首次《星际争霸》人机大战，人类选手 4-0 完胜。本周二，职业选手宋炳具（Song Byung-gu）在《星际争霸》（Starcraft）直播竞赛中击败了 4 个不同的 AI 对手，赢得 500 万韩元奖金（约合人民币 3 万元）！其中一个游戏人工智能“CherryPi”是由 Facebook 的 AI 实验室开发的。其余三个分别是来自韩国世宗大学的 MJ Bot、来自澳大利亚的 ZZZK、来自挪威的 TSCMOO。

图丨10 月 31 日，《星际争霸》职业选手宋炳具与 AI 进行实时对战

虽然这次比赛不像 AlphaGo 与人类围棋冠军之间的世纪之战那样引起全球关注，但它仍具有重要意义。因为 AI 界认为，人工智能要掌握《星际争霸》异常困难。去年，AlphaGo 以压倒性优势战胜李世乭之后，AI 又在国际象棋和雅达利（Atari）的游戏中有所斩获，人们开始将注意力转移到《星际争霸》这类即时战略游戏上。

在围棋中，由于人工智能和人类玩家能看到棋盘，所以他们有时间来思考及制定策略。但《星际争霸》则会设置战争迷雾，使玩家无法看到战场全貌，这就要求人类选手或 AI 都必须具备预测战场态势和提前制定策略的能力。也正因此，《星际争霸》被视为 AI 进阶的跳板。

但显然这一次宋炳具是使 AI 打败人类的幻想破灭了，作为世界顶级的《星际争霸》选手，他在比赛中击败 4 个 AI 总共用时 27 分种（最长用时十分半，最短四分半）。虽然人工智能操作速度更快，还能同时执行多个任务，但它们仍然不是人类玩家的对手。挪威的人工智能 TSCMOO 最快时能在一分钟内完成 19000 次操作，与之相比，大多数职业玩家一分钟完成的操作最快也不过 300 次。

在比赛结束后接受《麻省理工科技评论》采访时，宋炳具表示人工智能与人类的竞技方式有所不同，“职业玩家只要一有机会就会立即发动进攻，相反，人工智能为了保存实力，不敢冒任何风险。”

图丨宋炳具

不过，在某些方面，人工智能还是很令宋炳具意外的，“我进攻时，它们在布防的过程中管理部队的操作很令人震惊。”

世宗大学计算机工程教授 Kim Kyung-joong 认为，人工智能由于缺乏有关《星际争霸》的训练数据而使得发挥极大受限。还有专家预测，一旦训练得当，游戏人工智能将足以击败职业《星际争霸》玩家。

为了实现这一目标，诸多巨头都在积极尝试人工智能的研发，争夺游戏 AI 的制高点。其中，DeepMind 公司的研究科学家 Oriol Vinyals 显然是这一领域最为传奇的人物。

图丨DeepMind 研究科学家 Oriol Vinyals

Oriol Vinyals 是谁？或许有些人对他感到陌生，但有一群人很早就听过他的大名，年少时，他曾是西班牙《星际争霸》游戏排名第一的电竞高手，你使用的 Google Gmail、图像识别服务也有出自于他写下的程序，他还弄了一个人工智能，可以跟你畅谈什么是人生的意义。他在去年入选 MIT TR35 榜单、名列全球 35 位最具创新力年轻人之一。

现在，他是 Google 旗下人工智能公司 DeepMind 的研究科学家，他让游戏世界变成 AI 人工智能的修道场，准备让 AI 再次痛击人类高手。这是继 AlphaGo 之后，人工智能发展的关键时刻之一。

图丨AlphaGo对战李世乭

AlphaGo 击败人类棋王，在围棋界建下一座难以征服高峰之后，DeepMind 又向另一个领域下了战帖，那就是游戏。选中了在电竞界备受玩家欢迎及推崇的《星际争霸》作为 AI 特训的环境。

《星际争霸》是暴雪娱乐（Blizzard Entertainment）在 1998 年推出的游戏，当年售出 150 万套，并且成为电竞领域的先驱游戏，10 年内总销售量则超过 950 万套，到了 2010 年发行的《星际争霸 II》，48 小时内就卖出 150 万套，打破了即时战略类游戏的销售记录。剧情时空设定在 26 世纪，由三个种族包括地球人后裔人族 Terran、虫族 Zerg、神族 Protoss，以在银河系中心争夺霸权，揭开游戏的序幕。

去年底，游戏界盛会 BlizzCon 2016 上，美国电子游戏商暴雪娱乐宣布与 DeepMind 合作，让 AI 在《《星际争霸》II》游戏环境里进行特训，协助人工智能研究发展，这项消息振奋了全球玩家及 AI 研究者的信心。

消息一公布之后，Oriol Vinyals 立刻在他的 twitter 写下：“《星际争霸》又回到我的生活了 :)”。

图丨 Oriol Vinyals 在 twitter 留言：“《星际争霸》又回到我的生活了”。

从电竞高手变成 AI 专家

没错，就像多数男孩小时候都有段深深被电子游戏所吸引的时光，出生巴塞罗那的 Oriol Vinyals，在 15 岁时开始玩《星际争霸》，而且还打出超强成绩，成为一度在西班牙排名第一、全欧洲排名第十六的知名电竞玩家，不过他并没有像多数高手一样走向职业电竞选手之路，反而选择投身计算机研究领域。

“我对游戏中的人工智能问题感到深深着迷。”他说。从此展开了从电竞高手酝酿变身为 AI 专家的过程。

他在西班牙拿到电信工程及数学双学位之后，前往美国进修，在卡内基梅隆大学人工智能学院完成了机器学习和计算机视觉的学位论文（undergrad thesis），接着又到加州大学圣迭戈分校，取得计算机科学及工程（Computer Science and Engineering）硕士学位，2009 年则进入加州大学伯克利分校攻读电机及计算机科学（Electrical Engineering & Computer Science）博士，他也参与了 Berkeley Overmind 项目。

Berkeley Overmind 在游戏 AI 领域相当知名，Overmind 其实就是取名于《星际争霸》游戏中虫族的“主宰”（Overmind）角色。这个计划深入研究利用各种 AI 计算技术，找出该采取什么样的步骤及策略以赢得比赛，简单来说，就是开发一个懂得如何打即时战略（real time strategy）游戏的人工智能。在 2010 年的人工智能和互动数字娱乐（AIIDE）大会上，首次举办了《星际争霸》AI 比赛（Starcraft AI Competition），在完整游戏模式类别，Overmind 拿下了冠军，一战成名。

他的开发成果成为 Google 服务内容

之后 Oriol Vinyals 进入了 Google AI 团队，负责为翻译系统打造新的技术，“我就是想知道计算机是否可以精准的描述一张图像，从像素到解释，这也是一种翻译的形式。”Oriol Vinyals 说。就是基于这个内心的想法，他更动了一行程序码，把自己写的图像程序取代了先前的法文翻译程序。

隔天，他向计算机秀了一张场景是热闹市集的图像，摊位旁边的地上放了很多香蕉。令人惊喜的结果出现了，程序写着：“一群人在市场买水果”。“成功了！它不是只说人站在街上。”Oriol Vinyals 还清楚记得当下的兴奋心情。这代表的是，机器可以识别复杂的图片，现在这项技术被应用在 Google 图像搜寻服务里，当用户输入关键字时，系统就会开始去“读”图像，呈现结果。

另外，几乎每个人都会使用的 Gmail，同样有他的心血在里头，“智能回复”功能就是其一，系统会针对邮件内容，自动给出三个建议的简短回复，用户在忙碌的时候选按一下，系统就会自动帮你回信。

2015 年，Google 研究团队发表了一篇论文，他们透过电影对白来训练的聊天机器人（chatbot）居然能跟人类谈论抽象的人生议题。一开始研究人员问了一些简单的问题，例如我的 VPN 连不上等 IT 问题，机器就象是一个专业的 IT 人员，工作得恰如其分，但接着问它“生命的意义是什么”、“活着的目的是什么”等形而上的问题，机器分别说：“追求最大的美好”、“为了永生”...... 等。对话让人从感觉从有趣变成了有点恐惧。而这个 chatbot 的开发者就是 Oriol Vinyals 和他的同事 Quoc V. Le。

图丨聊天人工智能和人对谈生命的意义（图片来源：Wired）

游戏比围棋更贴近真实世界

在 Google Brain 开发多项被实际应用的服务之后，Oriol Vinyals 在去年一月加入 DeepMind，挑战比下围棋还难的人工智能——教计算机打游戏，不靠输入死板的编码规则，而是只让计算机通过经验自主学习，用来训练机器的游戏环境就是 Oriol Vinyals 最擅长的《星际争霸》。

今年八月 DeepMind 和暴雪娱乐联合公布了《星海争霸 II》用于训练 AI 的工具，包含机器学习应用程序界面（API）、多达 65000 场《星海争霸 II》比赛的视频以及开源工具等，后续每月还会增加比赛视频，让 AI 学习人类玩家的战术，他们也把特定游戏元素拆为迷你游戏，例如地图探索、资源收集等，帮助 AI 训练特定技能。

图丨DeepMind 和暴雪娱乐联合发布会

之所以选择《星际争霸 II》，除了游戏本身的高人气之外，最重要的原因就是内容的复杂性，有三个特点，分别是信息不完整、资源管理、即时性。

在围棋比赛中，选手所观察的范围完全只在那一块棋盘上，所以人工智能思考的决策尺度在数百步之内。可是，游戏的困难度高出太多，特别是即时战略游戏，玩家必须展开长时间尺度的综合性策略，而且玩家只能在自己的单位范围内看到地图，无法同时看到整个比赛场景，也就是信息不完整的环境，必须靠记忆来记得对手的操作，但游戏进行的同时，对手也在玩，状况是变动性而非永久不变的，也考验玩家根据新情况来调整计划的能力。

再加上，游戏涉及采集资源、生产兵力等经济规划，考验玩家长远的谋略及技巧，因此被视为是 AI 训练的最佳领域，一但突破，AI 发展将来到一个新的里程碑。

DeepMind 指出，《星际争霸》的高维度行动空间（high-dimensional action space）跟过往在强化学习（reinforcement learning）的研究有很大的不同。像是，当玩家只是做一些简单任务，例如把基地扩展到某个位置时，必须协调鼠标点击（mouse clicks）、摄像头和可用资源才能达成，是有层次的行动和计划，这对强化学习相当具有挑战性。

不过，就像 AlphaGo 在打败人类棋王之前，许多人不认为机器会获胜，但也有人觉得机器胜算大，现在在游戏领域也有分歧的看法，“我不认为 AI 可以打败职业玩家，至少在我有生之前看不到。”拿下 2016 年《星际争霸 II》WCS 世界锦标赛冠军的韩国电竞高手 Byun Hyun Woo，先前接受《麻省理工科技评论》专访时这么说。他进一步解释，《星际争霸》属于即时战略游戏，必须对许多不确定性和变因做出很快的反应，但 AI 似乎仍不擅长应对意想不到的状况，另一个原因则是长期策略，“要打造一个能同时擅长做短期跟长期决策的 AI 太难了。”

图丨《星际争霸》选手李帝东

另一派人则认为机器或许有胜算，曾经是世界最强的虫族选手、纪录片《电竞高手 State of Play》主题人物之一的李帝东（LEE Jae-dong）则认为，AI 或许有机会能打赢人类，因为计算机不会感到疲累，速度也能比人类快得多。

但先放下究竟是机器胜还是人类赢的问题，回到人工智能研究上，以游戏来训练 AI“这件事需要有创新的战略、记忆以及处理不确定性问题的能力，这无疑是一个大跃进”Oriol Vinyals 说。

他解释，以记忆为例，这项技能可以应用在多种的环境，例如数据中心的计算机，当机器看到星期天用电总是比较高，它就会记得下一个周日也会有同样的状况，有助于执行数据中心的用电管理或是节电设计。

Oriol Vinyals 曾经表示：“要打败人类职业选手，还有很长的路要走。”不过，这个说法可能不适用。

图丨OpenAI击败Dendi

今年八月，Tesla CEO 马斯克创立的人工智能非营利组织 OpenAI 就完成一项壮举，在一场电竞表现赛中以一对一的方式击败《Dota 2》的职业选手 Dendi，震撼电竞圈。

过去，Berkeley Overmind 研究人员在训练 AI 时，就曾经让 AI 人工智能跟 Oriol Vinyals 对打，当时，尽管他已是世界级实力的高手，也曾经败在 Overmind AI 之下，媒体还曾以“Overmind 战胜专业玩家”作为报导标题。

现在，Oriol Vinyals 成为训练 DeepMind 游戏 AI 的主要科学家。2018年1月28-30日，他将在“EmTech China全球新兴科技峰会”上给《星际争霸》的电竞高手来场震撼教育。

点击“阅读原文”报名EmTech China峰会

-End-

参考：https://www.technologyreview.com/s/609242/humans-are-still-better-than-ai-at-starcraftfor-now/

点击“阅读原文”报名EmTech China峰会

反向激励，在加速这个社会的黑化

呼伦贝尔跨省抓捕，我弟弟指居期间死亡，泣求自治区调查真相

把抄袭说的如此冠冕堂皇，雷军让年轻人丢掉了耻辱感

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心