“你行你上”：有本事跟OpenAI Five打一把DOTA？| 极客头条

查看原文

其他

“你行你上”：有本事跟OpenAI Five打一把DOTA？| 极客头条

From 一一 AI科技大本营 2019-04-25

整理 | 一一

出品 | AI科技大本营（ID:rgznai100）

你们不是嫌弃世界冠军 OG 团队实力太水吗？“你行你上”的机会来了。

4 月 14 日凌晨，OpenAI Five 以 2:0 击败了 DOTA 世界冠军团队 OG 引发热议。比赛当天，OpenAI 也宣布要开放 OpenAI Five 竞技场模式，让每个感兴趣的人都参与其中。

4 月 18 日（太平洋标准时间）下午 6 点，OpenAI 如约开放了这一模式，全世界各路玩家都可以免费进行体验。开放时间为期三天，4 月 21 日(太平洋标准时间)晚上 11 点 59 分关闭，要体验一把人机对战的话可得抓紧时间。

参赛链接：https://arena.openai.com/#/

目前从其官网赛况来看，截止今天早上 10 点，OpenAI Five 与参与者打了 424 场比赛，AI 以 112-0 完胜人类玩家。

以下是人类参与者的部分赛况：

据 OpenAI 官方介绍，参与者可以在竞争模式和合作模式下体验 OpenAI Five。他们的 1v1 机器人可以通过巧妙的策略加以利用，但他们也并不知道 OpenAI Five 能在多大程度上可以做到这一点。

在此前决赛中，他们展示了 OpenAI Five 和人类在合作模式打游戏。一组是 Sheever、Blitz 和三个 OpenAI Five，对手是由 Capitalist、ODPixel 和三个 OpenAI Five 组成的团队。

不过，通过 OpenAI Five 在决赛上的表现，OpenAI 团队在最新的博客中分享了两个惊喜：

尽管训练 OpenAI Five 系统的目的是为了打败其他机器人，但他们却发现 OpenAI Five 其实还有与人类成为队友的基本能力，也就是说可以将一个竞争型 AI 变为合作型 AI。他们认为，如果能更努力去开发，未来 AI 系统能为人类做出非常多的贡献。
4 月 18 日到 21 日的竞技场模式测试将回答一个很重要的研究问题——OpenAI Five 的潜能可以被人类运用到何种程度，或者它们在其他哪些方面必定会被打败。OpenAI Five 这一深度强化学习智能体系统，可能会成为有史以来人类能与之交互的最大的 AI 部署系统。

OG战队与OpenAI开发团队

对于 OpenAI Five 竞技场模式，有很多人报以期待，reddit 上有网友评论称，“这特么太酷了，自从 OpenAI 1v1 首秀之后，人们已经要求要在网上跟机器人玩游戏了，现在它真的发生了！”

只是，如果在竞争模式跟 AI 打 DOTA，作为人类玩家的你会不会惨遭OpenAI Five 的虐杀，而输得毫无悬念呢？祝你们好运。

当然，玩游戏之余，你可能也想知道：OpenAI Five 取得胜利背后的“秘诀”是什么？为什么这次的 OpenAI Five 系统要比去年在 TI 表演赛上败给人类的AI系统更强？OpenAI 是如何训练 OpenAI Five 系统的？OpenAI 团队最近给出了解读。

为什么是 DOTA2？

一开始，OpenAI 团队研究 OpenAI Five 是为了解决超出现有深度强化学习算法能力范围的问题，他们希望通过现有的方法解决当下无法解决的问题，原以为这需要复杂的算法思想（比如分层强化学习（Hierarchical RL）），但他们惊讶地发现只需要改进的是规模，但实现和利用这个规模并不容易，这成了其研究的主要内容。

OpenAI Five 把世界看作是一串必须破译的数字。无论这些数字是以 DOTA 游戏形式（约 20000 个数字），还是以机械手形式（约 200 个），使用的都是通用学习代码。

为了创建 OpenAI Five，OpenAI 团队创造了一个名为 Rapid 的系统，用来以从未有过的规模去运行 PPO（Proximal Policy Optimization），结果出人意料，居然创造了一个不受任何基本性能限制的世界级 DOTA 机器人。

如今，RL 算法表现出了惊人的能力，但它在游戏或模拟环境之外却用处不大，但这个限制可能并没有听起来的那么糟糕，例如可以使用 Rapid 来控制机械手来重新移动一个模块，这需要首先进行模拟训练，然后在物理机器人上执行。他们认为，对于 RL 的下一个挑战是减少对经验的依赖。

虽然他们决定不再让 OpenAI Five 成为竞争对手，但社会进步和技术发展将继续推动未来的研究，这也并非 DOTA 比赛研究的终点，他们认为 DOTA 比赛对 RL 开发来说是一个比现在使用的标准环境更有趣、更复杂、也更好理解的环境。

算力

与 DOTA2 在去年的 TI 表演赛的失利相比，OpenAI Five 在 4 月 14 日战胜 OG 团队的主要原因是其训练的计算量增加了 8 倍。去年比赛后，OpenAI 团队将项目中的绝大部分计算用于训练 OpenAI Five 模型，同时还增加了训练时间。

OpenAI Five 的 TrueSkill，由于已经使用了额外的训练计算，所以用线来划分主要的系统变化。这张图的走向大致是线性的，意味着 OpenAI Five 不断从额外计算中获益。

总之，OpenAI Five 的当前版本已经训练了 800 petaflop/s /天，并且在10个实时月的时间内进行相当于人类大约 45000 年时长的 DOTA 游戏自我训练，相当于人类每天平均有 250 年的模拟训练。OpenAI Five 的最终版本与 TI 版本相比，胜率是 99.9%。

18 个英雄

从训练 5 名英雄到 18 名英雄时的训练进度几乎没有放缓，他们已经假设同样的情况如果发生在更多的英雄身上会怎样。TI比赛后，又花了很多精力去整合新的英雄。

他们花了几周时间去训练多达 25 个英雄的英雄池，将这些英雄带到大约 5k MMR(大约是95% DOTA 玩家的水平)。虽然在进步，但学习速度不够快，无法在决赛前达到职业水平。研究人员还没有时间去找到原因，但后来发现模型容量不足，需要更好的匹配来扩展英雄池，还需要更多的训练时间来让新英雄赶上老英雄。但想象一下，当一个人掌握了自己的英雄时，再去学习一个新英雄是多么困难。

对了，这里明明说训练了 18 个英雄，但为什么在与 OG 比赛时只放了 17 个英雄？因为还有一个英雄在 DOTA v7.20 版本中出现了明显变化，所以就没用。

最后，这么好的机会，要不要去体验下被机器人在 DOTA 中碾压的酸爽感？

（本文为AI科技大本营整理文章，转载请微信联系1092722531）

◆

精彩推荐

◆

5月25-27日，由中国IT社区CSDN与数字经济人才发展中心联合主办的第一届CTA核心技术及应用峰会将在杭州国际博览中心隆重召开。首届CTA核心技术及应用峰会将围绕人工智能，邀请技术领航者，与开发者共同探讨机器学习和知识图谱的前沿研究及应用。

同时，我们推出会议双日开发者盲定票，仅售299元（原票价1099元），限量30张。大会详情以及票务问题，请扫描下方二维码咨询。

推荐阅读

❤点击“阅读原文”，查看更多精彩文章。

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

中央批准朱军同志职务调整

三联，刺痛了多少中国人

戴上这手表，不止优雅，蛇年好运连连来

古琴养身：为什么弹古琴的女人会更有气质？99%的人都不知道！