“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
地址:https://www.zhihu.com/people/liu-lan-25-44
论文题目: Successor Features for Transfer in Reinforcement Learning
论文链接: https://proceedings.neurips.cc/paper/2017/file/350db081a661525235354dd3e19b8c05-Paper.pdf
论文出处: NeurIPS 2017
这里的transfer in reinforcement learning指的是RL算法不是仅在某个具体任务中学习最优策略(传统强化学习),而是在不同任务之间通过transfer来学习的更一般的算法。本文提出的迁移学习框架,主要针对reward函数不同,但是环境的动力学模型保持不变的情况。所提出的方法基于两个key ideas: 1)successor features (SFs):一种将环境的模型从reward中分离出来的值函数表征; 2)generalized policy improvement (GPI):一种考虑一组策略,而不是单个策略的GPI(传统GPI的扩展)。将这两种想法放在一起,可以实现任务之间自由的信息交换(任务迁移)。 本文所期望的迁移方法需要具备两个性质:1)任务之间的信息流不应由反映任务本身之间的关系(例如层次或时间依赖性)的刚性图来规定。相反,只要有用,就应该跨任务交换信息。2)迁移应该尽可能地整合到RL框架中,而不是以单独的问题摆出,最好采用对智能体几乎透明的方式。 本文的创新基于两点:第一,将successor representation方法扩展,提出successor features来描述值函数;第二,将传统针对单个策略的GPI扩展成多个策略的GPI。 Successor Features (SFs) 的定义及其学习:
传统的强化学习,通过一个特定的reward函数来指定一个具体的任务,即 。这里,作者假设reward函数可以表示成 其中, 是关于 的特征, 时刻下该值记为 , 是权重。
(2)式中的 就是策略 下状态-动作二元组 的successor features(如下图所示)。因此,Q函数的学习,包含了对 和 的学习。 的学习,和reward有关。根据(1)式,如果有了 ,那么 的学习就是普通的监督式学习, 。当然, 也可以通过监督学习的方式学习。 关于 的学习,需要利用(2)式的贝尔曼方程形式,即 作者假设在环境的动力学模型不变的情况下, 是不变的。因此,根据(1)式,不同的 就描述了不同的任务,或者不同的MDP。作者将 表示下的所有任务定义为一个MDP集合: 这种情况下,假设source domain包括 个任务,即 ,分别对应 个不同的 ,即 ,和 个最优策略 。一旦 给定,或者学出来了,则新任务 的学习只需要研究 和 之间的关系就行了。 定理1. (GPI)假设 为 个不同的策略,并且 是它们动作值函数的近似,满足 这里的GPI是传统强化学习GPI的一种推广,它针对多个任务的策略 ,对当前任务的策略进行提升。定理1表明,策略(6)不会表现得比 中的任何一个策略差。如果 定理2. 令 ,并且 为策略 在 中执行时的动作值函数,其中 为 下的最优策略。给定一组近似动作值函数的集合 ,使其满足 定理2给出了从现有模型中进行迁移学习的误差上界。如果智能体之前学习过类似的任务,即 和 比较接近,则任务迁移就会比较成功。如果之前没有学习过,那就看前面学过的 个任务里,哪个距离 比较近了。 以上就是本文算法的核心部分了。在我看来,该算法最值得借鉴的地方就是将reward函数分解成两部分,一部分是状态转移数据的特征,是通用的;一部分是描述任务的权重,和任务有关。这样做,就把一族任务用特征函数 来表示了,而任务族内部各任务,则由权重向量 来表示。 但是这里的 如何设计,如何学习,哪些任务不在 以内,作者似乎并没有讲清楚。此外,作者考虑的是离散动作,有限状态的迁移强化学习。该算法在设计上,需要对所有的动作遍历。 关于SFs的迁移强化学习算法今天先介绍到这里,后续针对该算法还会有更详细的补充。 本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“源头活水”历史文章
更多源头活水专栏文章, 请点击文章底部“阅读原文 ”查看
分享、在看,给个三连击呗!