“你行你上”:有本事跟OpenAI Five打一把DOTA?| 极客头条
整理 | 一一
出品 | AI科技大本营(ID:rgznai100)
你们不是嫌弃世界冠军 OG 团队实力太水吗?“你行你上”的机会来了。
4 月 14 日凌晨,OpenAI Five 以 2:0 击败了 DOTA 世界冠军团队 OG 引发热议。比赛当天,OpenAI 也宣布要开放 OpenAI Five 竞技场模式,让每个感兴趣的人都参与其中。
4 月 18 日(太平洋标准时间)下午 6 点,OpenAI 如约开放了这一模式,全世界各路玩家都可以免费进行体验。开放时间为期三天,4 月 21 日(太平洋标准时间)晚上 11 点 59 分关闭,要体验一把人机对战的话可得抓紧时间。
参赛链接:https://arena.openai.com/#/
目前从其官网赛况来看,截止今天早上 10 点,OpenAI Five 与参与者打了 424 场比赛,AI 以 112-0 完胜人类玩家。
以下是人类参与者的部分赛况:
据 OpenAI 官方介绍,参与者可以在竞争模式和合作模式下体验 OpenAI Five。他们的 1v1 机器人可以通过巧妙的策略加以利用,但他们也并不知道 OpenAI Five 能在多大程度上可以做到这一点。
在此前决赛中,他们展示了 OpenAI Five 和人类在合作模式打游戏。一组是 Sheever、Blitz 和三个 OpenAI Five,对手是由 Capitalist、ODPixel 和三个 OpenAI Five 组成的团队。
不过,通过 OpenAI Five 在决赛上的表现,OpenAI 团队在最新的博客中分享了两个惊喜:
尽管训练 OpenAI Five 系统的目的是为了打败其他机器人,但他们却发现 OpenAI Five 其实还有与人类成为队友的基本能力,也就是说可以将一个竞争型 AI 变为合作型 AI。他们认为,如果能更努力去开发,未来 AI 系统能为人类做出非常多的贡献。
4 月 18 日 到 21 日的竞技场模式测试将回答一个很重要的研究问题——OpenAI Five 的潜能可以被人类运用到何种程度,或者它们在其他哪些方面必定会被打败。OpenAI Five 这一深度强化学习智能体系统,可能会成为有史以来人类能与之交互的最大的 AI 部署系统。
对于 OpenAI Five 竞技场模式,有很多人报以期待,reddit 上有网友评论称,“这特么太酷了,自从 OpenAI 1v1 首秀之后,人们已经要求要在网上跟机器人玩游戏了,现在它真的发生了!”
只是,如果在竞争模式跟 AI 打 DOTA,作为人类玩家的你会不会惨遭OpenAI Five 的虐杀,而输得毫无悬念呢?祝你们好运。
当然,玩游戏之余,你可能也想知道:OpenAI Five 取得胜利背后的“秘诀”是什么?为什么这次的 OpenAI Five 系统要比去年在 TI 表演赛上败给人类的AI系统更强?OpenAI 是如何训练 OpenAI Five 系统的?OpenAI 团队最近给出了解读。
为什么是 DOTA2?
一开始,OpenAI 团队研究 OpenAI Five 是为了解决超出现有深度强化学习算法能力范围的问题,他们希望通过现有的方法解决当下无法解决的问题,原以为这需要复杂的算法思想(比如分层强化学习(Hierarchical RL)),但他们惊讶地发现只需要改进的是规模,但实现和利用这个规模并不容易,这成了其研究的主要内容。
OpenAI Five 把世界看作是一串必须破译的数字。无论这些数字是以 DOTA 游戏形式(约 20000 个数字),还是以机械手形式(约 200 个),使用的都是通用学习代码。
为了创建 OpenAI Five,OpenAI 团队创造了一个名为 Rapid 的系统,用来以从未有过的规模去运行 PPO(Proximal Policy Optimization),结果出人意料,居然创造了一个不受任何基本性能限制的世界级 DOTA 机器人。
如今,RL 算法表现出了惊人的能力,但它在游戏或模拟环境之外却用处不大,但这个限制可能并没有听起来的那么糟糕,例如可以使用 Rapid 来控制机械手来重新移动一个模块,这需要首先进行模拟训练,然后在物理机器人上执行。他们认为,对于 RL 的下一个挑战是减少对经验的依赖。
虽然他们决定不再让 OpenAI Five 成为竞争对手,但社会进步和技术发展将继续推动未来的研究,这也并非 DOTA 比赛研究的终点,他们认为 DOTA 比赛对 RL 开发来说是一个比现在使用的标准环境更有趣、更复杂、也更好理解的环境。
算力
与 DOTA2 在去年的 TI 表演赛的失利相比,OpenAI Five 在 4 月 14 日战胜 OG 团队的主要原因是其训练的计算量增加了 8 倍。去年比赛后,OpenAI 团队将项目中的绝大部分计算用于训练 OpenAI Five 模型,同时还增加了训练时间。
OpenAI Five 的 TrueSkill,由于已经使用了额外的训练计算,所以用线来划分主要的系统变化。这张图的走向大致是线性的,意味着 OpenAI Five 不断从额外计算中获益。
总之 ,OpenAI Five 的当前版本已经训练了 800 petaflop/s /天,并且在10个实时月的时间内进行相当于人类大约 45000 年时长的 DOTA 游戏自我训练,相当于人类每天平均有 250 年的模拟训练。OpenAI Five 的最终版本与 TI 版本相比,胜率是 99.9%。
18 个英雄
从训练 5 名英雄到 18 名英雄时的训练进度几乎没有放缓,他们已经假设同样的情况如果发生在更多的英雄身上会怎样。TI比赛后,又花了很多精力去整合新的英雄。
他们花了几周时间去训练多达 25 个英雄的英雄池,将这些英雄带到大约 5k MMR(大约是95% DOTA 玩家的水平)。虽然在进步,但学习速度不够快,无法在决赛前达到职业水平。研究人员还没有时间去找到原因,但后来发现模型容量不足,需要更好的匹配来扩展英雄池,还需要更多的训练时间来让新英雄赶上老英雄。但想象一下,当一个人掌握了自己的英雄时,再去学习一个新英雄是多么困难。
对了,这里明明说训练了 18 个英雄,但为什么在与 OG 比赛时只放了 17 个英雄?因为还有一个英雄在 DOTA v7.20 版本中出现了明显变化,所以就没用。
最后,这么好的机会,要不要去体验下被机器人在 DOTA 中碾压的酸爽感?
(本文为AI科技大本营整理文章,转载请微信联系1092722531)
◆
精彩推荐
◆
5月25-27日,由中国IT社区CSDN与数字经济人才发展中心联合主办的第一届CTA核心技术及应用峰会将在杭州国际博览中心隆重召开。首届CTA核心技术及应用峰会将围绕人工智能,邀请技术领航者,与开发者共同探讨机器学习和知识图谱的前沿研究及应用。
同时,我们推出会议双日开发者盲定票,仅售299元(原票价1099元),限量30张。大会详情以及票务问题,请扫描下方二维码咨询。
推荐阅读
❤点击“阅读原文”,查看更多精彩文章。