查看原文
其他

带你动手编程的强化学习著作,每行代码都是它的温柔!

博文视点 博文视点Broadview 2020-11-06


如今,深度强化学习算法被认为是最有可能实现通用人工智能计算的方法。

由于深度强化学习算法融合了深度学习、统计、信息学、运筹学、概率论、优化等多个学科的内容,入门门槛高是事实。

虽然博文菌推荐过很多优秀的AI著作,但自己学起强化学习算法仍然是一团浆糊。看一眼读过无数遍的马尔可夫决策过程,像极了当年单词书上的 abandon叹口气,又瞅了瞅镜子中那张不太聪明的脸,陷入了沉思。

作为一个科技小编,其实我清楚我的问题出在哪里(不是脑子)

就像学游泳,只学理论而不下水,永远学不会。

只懂原理而不进行编程训练,那永远也别想学会强化学习算法!

淦!道理说的头头是道,可如何动手,去哪动手?

问题就在这里。市面上大部分强化学习著作的重心用在了描述算法原理上,至于算法的实现,讲得并不多。所以才让很多像博文菌这样的新手,在一页页的苦读后仍然很难入门。

不要把强化学习当作仇敌,除了死磕,一定存在更温柔的学习方法!



温柔的方法它来了!

今天介绍的这本书是2017年横空出世的《深入浅出强化学习:原理入门》的姊妹篇 ——

《深入浅出强化学习:编程实战》

这是一本以编程为主题的书!本书的写作初衷就是:

通过编程实例帮助那些想要学习强化学习算法的同学更深入、更清楚地理解算法!

在学习过程中,我们可以根据书中的代码进行动手编程,并修改程序中的超参数,然后根据运行结果不断体会算法原理。慢慢会发现,过去一直纠结的难点在动手之后竟然迎刃而解了!

它的到来就是为了破解我们无法上手实践的困境!

▼ 扫码了解本书详情 ▼





四大维度完善你的技能水平


 实战性强 以编程实战为主线,旨在帮助读者通过实战更清晰地理解算法并快速应用。

 系统全面 在马尔可夫理论框架下,介绍了最基本的算法,涵盖了基于值函数的算法,直接策略搜索方法,基于模型的强化学习方法等。

 前沿技术分析 剖析了AlphaZero强大技术背后的深度强化学习原理,并介绍了它在五子棋上的具体实现。

 操作性强 读者可根据书中的代码直接上手,并通过修改程序中的超参数,亲自体会算法原理。





三位专家联手出击


 本书由 郭宪、宋俊潇、方勇纯 三位老师精心打造 

郭宪,南开大学人工智能学院讲师,2016年1月获得工学博士学位,并到南开大学从事博士后研究工作,2018年7月任教于南开大学至今。

宋俊潇,香港科技大学博士,目前就职于启元世界,担任研究科学家,专注于决策智能相关算法的研究与开发。

方勇纯,南开大学人工智能学院院长、教授、博士生导师,国家杰出青年基金获得者(2013年),教育部长江学者特聘教授(2017年)。





清晰结构助力击碎入门障碍


本书首先介绍马尔可夫决策过程的理论框架,然后介绍基于动态规划的策略迭代算法和值迭代算法,在此基础上分3 篇介绍了目前强化学习算法中最基本的算法:

【第 1 篇】 基于值函数的强化学习算法 ,介绍了基于两种策略评估方法的强化学习算法,以及如何将函数逼近的方法引入强化学习算法中。

【第 2 篇】 直接策略搜索方法 ,介绍了基本的策略梯度方法、AC 方法、PPO 方法和DDPG 算法。

【第 3 篇】 基于模型的强化学习方法 ,介绍了基于MPC 的方法、AlphaZero 算法基本原理及在五子棋上的具体实现细节。





快速入门的组合拳



双册合并,效率革命!原理实现,精华提炼!





《深入浅出强化学习:原理入门》

▼ 详情通道 ▼

《深入浅出强化学习:编程实战》

▼ 详情通道 ▼



博文视点学院大咖直播课
郭宪老师亲自授课,通过梳理出的脉络帮助想要入门的你,能够全面系统地掌握强化学习各种算法。分享中也会介绍如何利用《深入浅出强化学习:编程实战》更好的学习强化学习算法。

现在扫描报名,仅需1元!



不想报名也没有关系
添加下方小橘子微信,回复“免费
20+门精品课程免费等你拿



如果喜欢本文欢迎 在看留言分享至朋友圈 三连

  热文推荐 





▼点击阅读原文,获取本书详情!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存