【每周一本书】之《深入浅出强化学习：原理入门》：零起点入门掌握AlphaGo的核心强化学习算法

Original 2018-02-06 abby 数据猿

【数据猿导读】《深入浅出强化学习：原理入门》试图从最简单的解决马尔科夫决策过程的动态规划算法，一路讲解到最前沿的深度强化学习算法（Deep Q Network，DQN），单刀直入，全无枝枝蔓蔓之感。不仅解释数学原理，而且注重编程实践

编辑 | abby

官网 | www.datayuan.cn

微信公众号ID | datayuancn

强化学习是机器学习的一个重要分支，它试图解决决策优化的问题。所谓决策优化，是指面对特定状态（State，S），采取什么行动方案（Action，A），才能使收益最大（Reward，R）。很多问题都与决策优化有关，比如下棋、投资、课程安排、驾车，动作模仿等。

AlphaGo的核心算法，就是强化学习。AlphaGo不仅稳操胜券地战胜了当今世界所有人类高手，而且甚至不需要学习人类棋手的棋谱，完全靠自己摸索，就在短短几天内，发现并超越了一千多年来人类积累的全部围棋战略战术。

最简单的强化学习的数学模型，是马尔科夫决策过程（Markov Decision Process，MDP）。之所以说MDP是一个简单的模型，是因为它对问题做了很多限制。

1．面对的状态st，数量是有限的。

2．采取的行动方案at，数量也是有限的。

3．对应于特定状态st，当下的收益rt是明确的。

4．在某一个时刻t，采取了行动方案at，状态从当前的st转换成下一个状态st+1。下一个状态有多种可能，记为 , i = 1... n。

换句话说，面对局面st，采取行动at，下一个状态是，不是确定的，而是概率的，状态转换概率，记为P( | st, at )。但是状态转换只依赖于当前状态st，而与先前的状态st-1, st-2 ...无关。

解决马尔科夫决策过程问题的常用的算法，是动态规划（Dynamic Programming）。

对马尔科夫决策过程的各项限制，不断放松，研究相应的算法，是强化学习的目标。例如对状态st放松限制：

1．假如状态st的数量，虽然有限，但是数量巨大，如何降低动态规划算法的计算成本；

2．假如状态st的数量是无限的，现有动态规划算法失效，如何改进算法；

3．假如状态st的数量不仅是无限的，而且取值不是离散的，而是连续的，如何改进算法；

4．假如状态st不能被完全观察到，只能被部分观察到，剩余部分被遮挡或缺失，如何改进算法；

5．假如状态st完全不能被观察到，只能通过其他现象猜测潜在的状态，如何改进算法。

放松限制，就是提升问题难度。在很多情况下，强化学习的目标，不是寻找绝对的最优解，而是寻找相对满意的次优解。

强化学习的演进，有两个轴线：一个是不断挑战更难的问题，不断从次优解向最优解逼近；另一个是在不严重影响算法精度的前提下，不断降低算法的计算成本。

今天为大家推荐的《深入浅出强化学习：原理入门》就试图从最简单的解决马尔科夫决策过程的动态规划算法，一路讲解到最前沿的深度强化学习算法（Deep Q Network，DQN），单刀直入，全无枝枝蔓蔓之感。不仅解释数学原理，而且注重编程实践。

《深入浅出强化学习：原理入门》用通俗易懂的语言深入浅出地介绍了强化学习的基本原理，覆盖了传统的强化学习基本方法和当前炙手可热的深度强化学习方法。开篇从最基本的马尔科夫决策过程入手，将强化学习问题纳入到严谨的数学框架中，接着阐述了解决此类问题最基本的方法——动态规划方法，并从中总结出解决强化学习问题的基本思路：交互迭代策略评估和策略改善。基于这个思路，分别介绍了基于值函数的强化学习方法和基于直接策略搜索的强化学习方法。最后介绍了逆向强化学习方法和近年具有代表性、比较前沿的强化学习方法。

除了系统地介绍基本理论，书中还介绍了相应的数学基础和编程实例。因此，《深入浅出强化学习：原理入门》既适合零基础的人员入门学习、也适合相关科研人员作为研究参考。

第一篇：强化学习基础

第二篇：基于值函数的强化学习方法

第三篇：基于直接策略搜索的强化学习方法

第四篇：强化学习研究及前沿

后记

【每周一本书】之《深度学习入门与实践》

本书由 数据猿联合电子工业出版社 共同推荐

【本栏目合作伙伴】：清华大学出版社、电子工业出版社、北京师范大学出版社、中国人民大学出版社。

欢迎更多合作伙伴加入！也欢迎勾搭小编，微信：wmh4178，备注“书”

金猿榜往期的获奖名单，将会在峰会现场隆重发布，期待我们的见面👇

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

微博遗存之七