干货！基于非递减分位数网络的值分布强化学习及其高效探索方法

Original 林则 AI TIME 论道 2023-10-20

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

尽管值分布强化学习在过去几年中得到了广泛的研究，但仍然存在两方面未能解决问题：一是如何保证估计出来的分位数函数的有效性，二是如何有效地利用估计出来的分布信息。本文试图为这两个类问题的深入研究提供一些新的观点。我们首先提出一个非递减分位数函数网络，以保证得到的分位数估计的单调性，其次设计一个基于值分布强化学习的探索方法，该方法充分利用了学习到的分位数函数的信息。在本文中，我们讨论了我们的方法在理论上的必要性，并且通过在Atari 2600游戏中的优异表现，证实了实践中方法的有效性。

本期AI TIME PhD直播间，我们邀请到上海财经大学数理统计学博士生——旷骐，为我们带来报告分享《基于非递减分位数网络的值分布强化学习及其高效探索方法》。

旷骐：

上海财经大学数理统计学博士生，研究方向为强化学习、分位数回归。

背景

（1）强化学习介绍

强化学习在游戏中的应用最为广泛。强化学习可以用一个马尔可夫决策过程来表示，即一个智能体和环境交互的过程。

如上图，在t时刻，智能体会观测到当前的状态St，同时根据某个策略Π采用一个action，At。然后状态St会根据某个分布P转移到下一个状态St+1 ，同时智能体会获得一个Reward，Rt。

强化学习涉及到几个重要概念：

a）值函数Value Function。即在某个状态下服从策略Π，所能得到的未来累计回报的期望。

b）Action-value function。即在某个状态下采取动作a后，服从策略Π所能得到的未来累计回报的期望。

c）贝尔曼算子Bellman operator。可视为将Q函数拆成了两项，一个是当前的reward，一个是服从策略Π下未来累计回报的期望。

Q*代表最优策略下所对应的Q函数

（2）值分布强化学习介绍

我们之所以要研究值分布强化学习，是因为如果只关注期望，则会丢失很多与分布相关的信息，尤其是在实际场景之中。

比如上面的三张图，期望都是相同的，但是分布则大不一样。

正因如此，才产生了值分布强化学习的思路，我们尝试去model 累计回报这个随机变量 ZΠ，如下图所示。

值分布强化学习的优点：

（1）可以更好的应对环境的不确定性，学到一个相对更稳健的算法

（2）能够通过学到的分布去做一些风险偏好的动作或探索策略

下面我们来看下QR-DQN这个方法

这个方法的基本思路是把分位数回归结合进DQN算法之中。基于model 这些分布的目标，我们事先 define一些固定的分位点；同时估计这些分位点对应的分位数，用Zθ 表示这个离散化的估计。

Zθ 是一系列狄拉克函数的求和，每一个狄拉克函数的位置即我们要估计的分位数的位置。现在，原有问题转化为了如何去寻找最优的参数化模型Zθ 来近似最真实的分布Z。

我们可以用Wasserstein距离来度量两个分布之间的距离，等价于找一个projection 使得Z与Zθ 在瓦瑟斯坦距离下是最近的。

也就是下图阴影部分的面积，希望他们是越小越好。

当然，求解优化问题，可以考虑使用损失函数。

δij实际上就是贝尔曼算子的右边减去左边。无论是对当前的状态动作对（s,a)还是对下一时刻的状态动作对（s’，a’），都有n个对应的分位数去估计它。我们两两之间去取difference，因此共有N^2个。

上式是分位数相关的损失函数。接下来为了保证损失函数在0点附近的光滑性，我们使用了Huber loss。

在后续的研究中，有学者在QR-DQN的基础上提出了IQN的想法。

二者的不同之处在于，QR-DQN都是固定的分位点在每次训练时只学这些事先定义的这些分位点所对应的分位数。而IQN是每次训练时随机sample一系列不同的分位点，训练次数足够多以期望做到更好的近似。实验结果告诉我们，IQN的效果更佳。

（3）Motivation

对于Crossing问题，症结在于在高分位点下估计出来的分位数比低分位点下估计出来的分位点还要低，不满足单调性假设。无论是统计学、强化学习还是值分布强化学习，这个问题都是存在的。大概有两方面原因：一是样本早期训练不够充分。二是每个分位数都是独立估计的，没有添加单调性的约束。

Crossing问题可能会给我们的训练带来不稳定的影响。下面我们给出了一个例子。

上图是个打砖块的游戏。上方一行的图中没有添加单调性约束，而下方一行的图中添加了单调性约束。上下对比，我们可以看出，上方一行并不是递增，选择出来的动作也时左时右；而下方一行则随着训练次数的增加，选择的动作是比较正确的。

最右的图展示的是整个游戏所取得的分数，可以看到黄线在添加了单调性约束之后，该方法很快就达到很好的分数。此时的优化问题也就变成了带约束的优化问题。

我们希望给Wasserstein 距离加上单调性约束，使得分位数之间满足单调性。

解决方案

我们提出了一种改进的QR-DQN，称为NC-QR-DQN (Zhou et al.， 2020, NIPS)来解决这个问题。该方法由两个主要部分组成。

左边这部分和之前的QR-DQN相同，都是用CNN去提取图片的特征，区别在于右边。

先看右边上面那个网络，经过Softmax输出状态动作对所对应的一系列概率值，其和为1。我们对这些概率值累加，变成一个单增的序列。

右边下面的网络，将单增的序列映射回原来的值域。再加上尺度参数 ɑ 和位置参数 β，保证了序列的递增性。

qi(s, a) = α(s, a) × ψi,a + β(s, a)

其实这样并没有完全解决问题，因为这种方法应用到IQN上其实是无效的。因为对于两次不同迭代下的sample的τ和τ’，我们可以分别保证他们所学出的分位数分别递增；但是合到一起后，递增则无法满足。

因此学界提出了另一种新的方法，并借鉴了QR-DQN的一些想法。

事先定义 N个固定的分位点 Zθ，P(x,a)去学他们对应的分位数Pi。

先用baseline-network去生成当前状态动作对所对应的最小分位数，也就是△0。再用Incremental network 去生成后一个分位数相对前一个的增量信息△i，然后将他们累加起来生成n个递增的分位数。

基于这n个递增的分位数，我们构造了一个分段线性函数；每次sample的分位数τ所对应的分位数都是落在两个事先给定的分位数之间的。

这样，递增性问题就解决了。

下图说明这个方法可以扩展到所有的值分布强化学习。

最后我们来看一下实验成果。强化学习的方法最好的验证方式便是在游戏中运行，我们在所有游戏上跑一下看看效果如何。

如上图，黄色代表我们的NDQFN方法；蓝色代表baseline IQN方法。

从图中，我们可以看出我们的NDQFN方法是显著优于IQN的。

上图是这两种方法在55个游戏上的整体表现。

提

醒

论文链接：

https://www.ijcai.org/proceedings/2021/476

点击“阅读原文”，即可观看本场回放

整理：林则

审核：旷骐

直播预告

2月26日 PhD debate - 9

浅谈自然语言处理中的泛化性

模型泛化性指的是什么？

泛化性有着什么样的意义？

从自然语言处理的视角来看，模型泛化性分别有着怎样的独到之处？

目前的工作是如何处理这种特殊性的？以及未来的趋势如何？

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

2019年，清华大学人工智能研究院院长张钹院士、唐杰教授和李涓子教授等人联合发起“AI TIME science debate”，希望用辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

AI TIME是清华大学计算机系一群关注人工智能发展，并有思想情怀的青年学者创办的圈子。AI TIME旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家与爱好者，打造成为全球AI交流与知识分享的聚集地。

我知道你

在看

哦

点击 阅读原文 查看回放！

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

不仅要看已抓谁，还须一直抓到没

话费充值活动来了：95元充值100元电话费！

2024的最后一天，给大家的跨年推荐！

干货！基于非递减分位数网络的值分布强化学习及其高效探索方法

您可能也对以下帖子感兴趣

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

不仅要看已抓谁，还须一直抓到没

话费充值活动来了：95元充值100元电话费！

2024的最后一天，给大家的跨年推荐！

生成图片，分享到微信朋友圈

干货！基于非递减分位数网络的值分布强化学习及其高效探索方法

您可能也对以下帖子感兴趣