什么时候强化学习未必好用？

其他

什么时候强化学习未必好用？

Original 2017-12-17 周末愉快 AI前线

作者 | Jason Xie

编译 | Erica Yi

编辑 | Emily

AI前线导读：强化学习已经取得了很多的成功，但是强化学习也不是适用于所有的情景。在本文中，作者会对一些强化学习正面临的问题进行讨论。

更多干货内容请关注微信公众号“AI前线”，（ID：ai-front）

强化学习（reinforcement learning）描述的是个体（agent）必须在环境（environment）中采取行动（action），以最大化设定的奖励（reward）函数的学习问题的集合。

不同于监督式深度学习，强化学习并不会出现大量明确标记好的输入 /输出对数据。大部分的强化学习都在网上进行，也就是说当个体积极地与它的环境进行多次迭代互动时，它最终开始学习采取怎样的行为会使自身奖励最大化的方案（policy）。

强化学习建立问题模型需要满足几个条件：

你可以量化环境描述中所有的变量，并且能够在每个时间步或者状态访问这些变量

上述两个条件，现实世界中几乎无法满足。在大多数的情况下，你往往只能访问部分的信息。而且因为这些信息是以个体为中心的观点（至少在机器人和未知环境互动的情况下）来衡量的，所以你访问的信息可能本身就有误，需要进一步的推断。

你可以定义一个具体的奖励函数（concrete reward function）并计算采取某种行动的奖励

奖励函数可能并不明显。比如，如果我设计了一个个体来为自动驾驶的车辆执行路径规划，我们应该如何从数学上来表达奖励呢？我们又如何知道我们定义的奖励函数是“好的”呢?
一种能解决这个问题的方法是 inverse reinforcement learning（PDF）

你能够承担起犯错的代价

无后顾之忧地去探索的自由不常有。如果我想基于强化学习开发一个自动驾驶车辆，它要撞成千上万次才能做出最简单的演习？
不应忽视的是，尽管如此，在模拟情景下的训练也已经在现实世界中让性能得到了提升，（见 Playing for Data: Ground Truth from Computer Games一文）

你有时间

因为强化学习主要在网上进行，所以为了建立一个有效的模型，你需要进行很多很多次的试验。当手边的任务很简单，行动是离散的，信息已经存在的情况下，这是可以接受的。但是在很多的情况下，问题表达式（problem formulation）要复杂得多，你必须在模拟器的准确度和训练时间以及实时性能的约束之间取得平衡。正是由于这些局限性，所以最近在强化学习方面的成功几乎完全是在模拟的受控环境中取得的（想想 DeepMind对 Atari和 AlphaGo的研究）。我们仍需要大量的研究，来克服这些局限性并使深度强化学习能够更有效的用于实时个体。

作者简介

Jason Xie 是一名对 AI和机器人感兴趣的学生。保持好奇，保持学习。

英文原文链接：

https://www.kdnuggets.com/2017/12/when-reinforcement-learning-not-used.html

反向激励，在加速这个社会的黑化

🪁来汕头，实现“露营自由”

微信潜规则：你发的朋友圈，其实别人看不见。

方志远：不能指望借助古人的智慧、指望倡导古人的精神来解决现实的问题

阿哲发圈点赞大太子！杰哥爆电母X视频，曝瓜三平台年度电母！