【源头活水】UMBRELLA：不确定性-觉察、利用规划的基于模型离线强化学习方法

人工智能前沿讲习 2022-05-20

收录于合集 #源头活水 308个

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注。

来源：知乎—黄浴

地址：https://zhuanlan.zhihu.com/p/435650357

一篇论文“UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning Leveraging Planning“，被NeurIPS 2021 Machine Learning for Autonomous Driving Workshop接收，作者来自德国多特蒙德大学。

离线强化学习（RL）提供了一个从离线数据学习决策的框架，对自动驾驶这样实时应用是一个有前途的方法。特别在安全-紧要的应用比如自动驾驶，可解释性和可迁移性是成功的关键。这促使人们提出利用规划的基于模型离线 RL 方法。然而，目前方法往往忽略多智体系统的随机行为所产生的任意（aleatoric）不确定性影响。本文提出一种不确定性-觉察、利用规划的基于模型离线强化学习（UMBRELLA）方法，该方法以可解释的基于学习方式联合解决SDV的预测、规划和控制问题。训练得到的以动作为条件随机动力学模型，捕获了交通场景中未来截然不同的演变。这个基于真实世界公共数据集的方法，在具有挑战性的自动驾驶模拟有效性提供了经验证据。

强化学习（RL）任务是控制一个动态系统，即描述为Markov Decision Process (MDP) ；当观测不完全具备GT，MDP变成POMDP；一个求解部分可观测的方法是，n-阶历史（nth-order history）法。

UMBRELLA 学习随机动力学模型、行为克隆（BC）策略和截断价值函数，如图 a 所示：UMBRELLA是MBOP（“Model-based offline planning“. ICLR, 2021）方法的延伸，并为不同的未来演变进行规划。每个模型都是 K 个神经网络的自举集成（boostrap ensemble）。每个集成头的权重初始化方式不同，但在同一数据集 D 进行训练。粗箭头指示使用规划/学习循环的部分，由于离线学习从"动作到数据"没有箭头。

预测其他智体对自动驾驶车的响应非常关键，主要面临人类行为的不确定性。以图 b 所示的情况为例：这里另一个智体（绿色）开始切入自驾车（白色）的车道；自驾车必须估计每个未来结果的概率（即另一个智体中止或继续机动），并相应地规划其动作。

UMBRELLA 使用连续潜变量 z 对在时间 t 其他智体行为的随机性进行建模。由于在规划期间枚举自驾车所有可能动作是难以解决的，因此根据学习的行为克隆策略对动作进行采样。这样可在规划范围H高效地专家一样推出N个潜状态轨迹。对轨迹采样后，该方法采用return-weighted的轨迹优化器。这项工作遵循n-阶历史方法解释状态，不是完全可观察（例如人类驾驶员意图），并且只是根据一直到最后当前时间t的观测进行估计。

UMBRELLA的增强模型捕捉自动驾驶环境中预测和规划之间的交互作用。该模型是CVAE（“Auto-Encoding Variational Bayes“. IICLR, 2014），输出下一个状态的预测和相应的奖励预测。当模型输出两个预测时，最小化训练期间的多任务均方误差损失。

潜变量 z对不同的未来预测进行建模，并确保对输入而言输出是不确定的。在训练期间，从后验分布中对潜变量进行采样。由于只能在推理过程中从先验分布中抽样，因此根据训练VAE的证据下限（Evidence Lower BOund，ELBO）目标定义，后验分布和先验分布之间的Kullback-Leibler（KL）发散度也最小化。

采用加权因子ζ的每个样本损失由下式给出

在推理过程中，该算法根据随机前向动力学模型推出有潜力的状态轨迹。为此，应用由行为克隆（BC）策略指导的动作采样过程。UMBRELLA学习一个行为克隆（BC）策略的自举集成。该模型将当前状态和以前的动作作为输入，并输出当前动作。通过连接先前的连续动作，学习的动作应该更平滑。

UMBRELLA 还学习截断价值函数，处于当前状态和先前执行的连续动作情况下估计后面H个episodes的预期 return。这样无需增加动态模型的推出次数，可有效地扩展规划范围。

如图是训练中随机前向动态模型的架构：

下图是行为克隆的策略网络架构：

而如图是截断价值网络架构：

如图是在训练和测试中的随机前向动态模型信号流：灰色的信号流只是针对训练，而黑色的信号流同时针对训练和推理。

UMBRELLA使用在控制和自动化方面的模型预测控制（MPC）来规划其动作。在每个规划步骤中，该算法求解有限范围最优控制问题，从而得到长度为H的最优轨迹T；然后执行最佳控制序列的第一个动作；一个最优控制问题的重复求解可减少建模错误的影响。

UMBRELLA的规划算法用于每个MPC规划周期，获得最佳的行动轨迹，其根据相关奖励对每个动作重新加权，即model predictive path integral (MPPI) 框架：

如下是UMBRELLA的规划伪代码算法：

由于假设人类驾驶员不会不稳定地切换其驾驶模式，因此潜变量在整个轨迹是固定的（第6行），从而产生一致的预测；通过从 BC 策略抽样一个有高斯噪声的动作，BC 策略引导轨迹的扩展（第 14 行）；之后，用混合系数将动作与上一个时间步（第 15 行）的轨迹一起平均；然后，UMBRELLA 用动力学模型（第 16 行）推出状态轨迹，并计算所有集成的平均奖励（第 17 行）；在轨迹的最后，计算截断价值函数的所有集成平均值。

另外还有UMBRELLA-P，一个悲观轨迹优化器。UMBRELLA 和 MBOP 用所有采样轨迹来计算加权轨迹；UMBRELLA-P 仅聚合总和超过return的集成头的那些轨迹。因此，该算法首先计算集成的所有奖励总和。然后，它选取总和超过return的集成项。最后，在轨迹中进行动作重新加权。因此，UMBRELLA-P在面对最坏情况结果时，面对认知（epistemic）不确定性进行优化，并悲观地采取动作。

文章通过实验想回答的是下面4个问题：

Q1：在交互式自动驾驶场景中，任意（aleatoric）不确定性建模是否能提升基于模型离线规划方法的性能？
Q2：该算法是否改进了简单的行为克隆策略？
Q3：UMBRELLA-P这种悲观变型是否改善了规划性能？
Q4：自动驾驶的背景下，基于模型离线规划方法有哪些局限性？

实验环境：第一个环境是基于Next Generation Simulation program’s Interstate 80（NGSIM I-80）数据集的具有挑战性的多智体自动驾驶环境。自驾车的目标是保持在车道中间，同时避免碰撞；第二个环境包括在CARLA模拟器中实现的城市多智体场景。自驾车应该沿路线前进，在繁忙的十字路口执行无保护左转，同时避免碰撞。如图（a）-（c）说明了这两个实验，在CARLA模拟器环境的可视化显示。

以下方法是实验的基准：

（i）1-step IL：行为克隆（BC）策略模仿专家驾驶的一个学习策略；
（ii）MBOP：确定性动力学模型的基于模型离线RL方法；（注：为公平比较，MBOP 所有其他组件都与 UMBRELLA 方法相同）
（iii）MPUR（“Model-predictive policy learning with uncertainty regularization for driving in dense traffic“. ICLR, 2019），只是在NGSIM环境中测试，一种基于模型的策略学习方法，解释了认知和任意不确定性；
（iv）人类：人类的基本GT行为，只是在NGSIM环境中测试；
（v）无操作：始终用零动作的策略，只是在NGSIM环境中测试。

实验测度包括：Success rate (SR)，Mean distance (MD)和mean successful time (MST)，最后一个只针对CARLA实验。

上面图（d）是 UMBRELLA规划的轨迹重叠的上下文图像，轨迹根据其预测的return进行着色；自驾车以白色表示，其他智体以绿色显示；黑色表示道路，红色表示车道标记。

下表是和基准的结果比较：ID = in-distribution，OOD = out-of-distribution

主要的局限性包括以下两个：

奖励函数不匹配：奖励不当设计是自动驾驶贡献中的常见问题，需要在未来的工作中解决。
BC策略的依赖：今后采用多模态BC策略。

这项工作提出一种基于模型离线强化学习方法，该方法考虑认知和任意不确定性。在交通密集的多个具有挑战性的自动驾驶场景进行实验，发现结合算法不确定性可以提高基于规划的方法性能。

此外，所提出的方法还改进简单行为克隆略的不良性能。文章还展示了在自动驾驶中，该方法和当前基于规划离线RL方法的局限性。未来的工作应侧重于改进行为克隆策略的先验，使用基于图的表示而不是光栅图像表示，并研究其他优化技术的使用。

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“源头活水”历史文章

请点击文章底部“阅读原文”查看

分享、在看，给个三连击呗！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

【源头活水】UMBRELLA：不确定性-觉察、利用规划的基于模型离线强化学习方法

Devign: 基于GNN的源代码漏洞检测

DriverGym，一个强化学习用于自动驾驶的开源平台

GRASSY | 利用图神经网络和几何散射方法优化分子图的生成

Very Deep VAE

联合意图识别和槽位填充，Slot-Gated机制

[ACM MM 2021] 基于深度学习的图像水印去除

SIGIR'21微软|基于自监督图学习的推荐系统

驾驶行为预测方法：分层自适应可迁移网络HATN

无监督异常检测场景下如何自动选择模型？

Graphormer：融合GNN与Transformer

[NAS论文][Transformer][预训练模型]精读NAS-BERT

NeurIPS 2021 | 助力半监督学习：一种课程伪标签方法FlexMatch和统一开源库TorchSSL

CPT：兼顾理解和生成的中文预训练模型

PointNet系列论文阅读与理解

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

生成图片，分享到微信朋友圈

【源头活水】UMBRELLA：不确定性-觉察、利用规划的基于模型离线强化学习方法

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡