AI时代，人类还能守住电子竞技最后的壁垒吗？

Original 博文视点博文视点Broadview 2020-10-17

在过去的20年里，我们见证了许多游戏在人工智能面前纷纷“沦陷”。从1992年的双陆棋，到1997年的国际象棋，再到2016年轰动一时的围棋大战。如果说AI是为了解决现实世界的高阶挑战，那么近些年游戏则成了解决这些问题的重要依托。

你有想过把一款游戏玩上万年会达到什么水平吗？

2019年4月14日，OpenAI Five就帮助人类回答了这个问题。这个自称训练十个月相当于人类训练45000年的怪物迎战DOTA2世界冠军OG战队。然而这场被给予了希望的终极决战，面对AI的疯狂围剿，OG战队溃不成军。

似乎认为击败人类玩家还不够。去年9月，OpenAI又做了一个有意思的捉迷藏实验，这个游戏让智能AI程序扮演游戏双方进行相互博弈。

游戏早期的时候红蓝双方只是在没有目的的瞎跑；269万次游戏后红方学会了抓人；862万次游戏后蓝方学会移动障碍物来藏匿自己；2500万次过后，双方已完全掌握了四种基本游戏策略。但这并没有结束，令人意想不到的是，在经历了3.8亿场游戏后，AI程序惊人地创造出了让人瞠目结舌的全新游戏策略！

经历了围棋、星际争霸、Dota、扑克、麻将，以及自我博弈游戏后，我们看到了AI面对复杂问题时的高强能力。这让我们必须正视其背后最为核心的技术——

强化学习！

AI正是通过强化学习在不断成长，这是一种在不断试验和纠错的过程中学习并实现目标的特定机器学习技术。在这种学习方法中，不需要预先提供大量的数据，只要通过大量反复和自己对弈，以及大量的反复试验下，他们可以学会复杂的、创新的策略！

随着高性能计算、大数据和深度学习技术的突飞猛进，强化学习算法及其应用也得到更为广泛的关注和更加快速的发展。

如果我们能尽早掌握强化学习相关技能，必然将会成为当下市场的稀有人才！

想要有章法的入门强化学习算法

你需要一次这样的分享！

3月3日（周二）晚7点，博文视点学院邀请南开大学人工智能学院讲师、《深入浅出强化学习：编程实战》作者郭宪老师，带来精彩技术直播——

强化学习算法入门：思路梳理

我是郭宪，南开大学人工智能学院讲师，2016年1月获得工学博士学位，并到南开大学从事博士后研究工作，2018年7月任教于南开大学至今。著书《深入浅出强化学习：编程实战》（新书预售中）《深入浅出强化学习：原理入门》。目前主要研究方向和兴趣是仿生机器人智能运动控制、强化学习、机器人博弈。

本次分享将从强化学习的原理出发，梳理当前各种强化学习算法的特点，以及每种算法适应的场合及优缺点。通过梳理出的脉络帮助想要入门的你，能够全面系统地掌握强化学习各种算法。分享最后，也会介绍一下我的新书以及如何利用这本书更好的学习强化学习算法。下面是本次分享的大纲：

希望本次分享能帮助你对强化学习算法有一个更宏观的认识，对强化学习算法的学习更有章法，学习之路事半功倍！

想要入门强化学习的初学者，以及已经有些基础但对强化学习的各种算法仍然迷茫的新手。已经完全掌握或精通强化学习的读者也可参加，一起讨论，互相指正。

如果你想了解强化学习，请别犹豫，本次分享非常适合你！

识别下方二维码，添加小助手微信

回复【强化学习】免费进入直播群

如果喜欢本文

欢迎在看丨留言丨分享至朋友圈 三连

热文推荐

喜欢此内容的人还喜欢