“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
地址:https://zhuanlan.zhihu.com/p/435650357 一篇论文“UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning Leveraging Planning“,被NeurIPS 2021 Machine Learning for Autonomous Driving Workshop接收,作者来自德国多特蒙德大学。 离线强化学习(RL)提供了一个从离线数据学习决策的框架,对自动驾驶这样实时应用是一个有前途的方法。特别在安全-紧要的应用比如自动驾驶,可解释性和可迁移性是成功的关键。这促使人们提出利用规划的基于模型离线 RL 方法。然而,目前方法往往忽略多智体系统的随机行为所产生的任意(aleatoric)不确定性影响。本文提出一种不确定性-觉察、利用规划的基于模型离线强化学习(UMBRELLA)方法,该方法以可解释的基于学习方式联合解决SDV的预测、规划和控制问题。训练得到的以动作为条件随机动力学模型,捕获了交通场景中未来截然不同的演变。这个基于真实世界公共数据集的方法,在具有挑战性的自动驾驶模拟有效性提供了经验证据。 强化学习(RL)任务是控制一个动态系统,即描述为Markov Decision Process (MDP) ;当观测不完全具备GT,MDP变成POMDP;一个求解部分可观测的方法是,n-阶历史(nth-order history)法。 UMBRELLA 学习随机动力学模型、行为克隆(BC)策略和截断价值 函数,如图 a 所示:UMBRELLA是MBOP(“Model-based offline planning“. ICLR, 2021)方法的延伸,并为不同的未来演变进行规划。每个模型都是 K 个神经网络的自举集成(boostrap ensemble)。每个集成头的权重初始化方式不同,但在同一数据集 D 进行训练。粗箭头指示使用规划/学习循环的部分,由于离线学习从"动作到数据"没有箭头。 预测其他智体对自动驾驶车的响应非常关键,主要面临人类行为的不确定性。以图 b 所示的情况为例:这里另一个智体(绿色)开始切入自驾车(白色)的车道;自驾车必须估计每个未来结果的概率(即另一个智体中止或继续机动),并相应地规划其动作。 UMBRELLA 使用连续潜变量 z 对在时间 t 其他智体行为的随机性进行建模。由于在规划期间枚举自驾车所有可能动作是难以解决的,因此根据学习的行为克隆策略对动作进行采样。这样可在规划范围H高效地专家一样推出N个潜状态轨迹。对轨迹采样后,该方法采用return-weighted的轨迹优化器。这项工作遵循n-阶历史方法解释状态,不是完全可观察(例如人类驾驶员意图),并且只是根据一直到最后当前时间t的观测进行估计。 UMBRELLA的增强模型捕捉自动驾驶环境中预测和规划之间的交互作用。该模型是CVAE(“Auto-Encoding Variational Bayes“. IICLR, 2014),输出下一个状态的预测和相应的奖励预测。当模型输出两个预测时,最小化训练期间的多任务均方误差损失。 潜变量 z对不同的未来预测进行建模,并确保对输入而言输出是不确定的。在训练期间,从后验分布中对潜变量进行采样。由于只能在推理过程中从先验分布中抽样,因此根据训练VAE的证据下限(Evidence Lower BOund,ELBO)目标定义,后验分布和先验分布之间的Kullback-Leibler(KL)发散度也最小化。 在推理过程中,该算法根据随机前向动力学模型推出有潜力的状态轨迹。为此,应用由行为克隆(BC)策略指导的动作采样过程。UMBRELLA学习一个行为克隆(BC)策略的自举集成。该模型将当前状态和以前的动作作为输入,并输出当前动作。通过连接先前的连续动作,学习的动作应该更平滑。 UMBRELLA 还学习截断价值函数,处于当前状态和先前执行的连续动作情况下估计后面H个episodes的预期 return。这样无需增加动态模型的推出次数,可有效地扩展规划范围。 如图是在训练和测试中的随机前向动态模型信号流:灰色的信号流只是针对训练,而黑色的信号流同时针对训练和推理。 UMBRELLA使用在控制和自动化方面的模型预测控制(MPC)来规划其动作。在每个规划步骤中,该算法求解有限范围最优控制问题,从而得到长度为H的最优轨迹T;然后执行最佳控制序列的第一个动作;一个最优控制问题的重复求解可减少建模错误的影响。 UMBRELLA的规划算法用于每个MPC规划周期,获得最佳的行动轨迹,其根据相关奖励对每个动作重新加权,即model predictive path integral (MPPI) 框架: 由于假设人类驾驶员不会不稳定地切换其驾驶模式,因此潜变量在整个轨迹是固定的(第6行),从而产生一致的预测;通过从 BC 策略抽样一个有高斯噪声的动作,BC 策略引导轨迹的扩展(第 14 行);之后,用混合系数将动作与上一个时间步(第 15 行)的轨迹一起平均;然后,UMBRELLA 用动力学模型(第 16 行)推出状态轨迹,并计算所有集成的平均奖励(第 17 行);在轨迹的最后,计算截断价值函数的所有集成平均值。 另外还有UMBRELLA-P,一个悲观轨迹优化器。UMBRELLA 和 MBOP 用所有采样轨迹来计算加权轨迹;UMBRELLA-P 仅聚合总和超过return的集成头的那些轨迹。因此,该算法首先计算集成的所有奖励总和。然后,它选取总和超过return的集成项。最后,在轨迹中进行动作重新加权。因此,UMBRELLA-P在面对最坏情况结果时,面对认知(epistemic)不确定性进行优化,并悲观地采取动作。 Q1:在交互式自动驾驶场景中,任意(aleatoric)不确定性建模是否能提升基于模型离线规划方法的性能? Q3:UMBRELLA-P这种悲观变型是否改善了规划性能? Q4:自动驾驶的背景下,基于模型离线规划方法有哪些局限性? 实验环境:第一个环境是基于Next Generation Simulation program’s Interstate 80(NGSIM I-80)数据集的具有挑战性的多智体自动驾驶环境。自驾车的目标是保持在车道中间,同时避免碰撞;第二个环境包括在CARLA模拟器中实现的城市多智体场景。自驾车应该沿路线前进,在繁忙的十字路口执行无保护左转,同时避免碰撞。如图(a)-(c)说明了这两个实验,在CARLA模拟器环境的可视化显示。 (i)1-step IL:行为克隆(BC)策略模仿专家驾驶的一个学习策略; (ii)MBOP:确定性动力学模型的基于模型离线RL方法;(注:为公平比较,MBOP 所有其他组件都与 UMBRELLA 方法相同) (iii)MPUR(“Model-predictive policy learning with uncertainty regularization for driving in dense traffic“. ICLR, 2019),只是在NGSIM环境中测试,一种基于模型的策略学习方法,解释了认知和任意不确定性; (iv)人类:人类的基本GT行为,只是在NGSIM环境中测试; (v) 无操作:始终用零动作的策略,只是在NGSIM环境中测试。 实验测度包括:Success rate (SR),Mean distance (MD)和mean successful time (MST),最后一个只针对CARLA实验。 上面图(d)是 UMBRELLA规划的轨迹重叠的上下文图像,轨迹根据其预测的return进行着色;自驾车以白色表示,其他智体以绿色显示;黑色表示道路,红色表示车道标记。 下表是和基准的结果比较:ID = in-distribution,OOD = out-of-distribution 奖励函数不匹配:奖励不当设计是自动驾驶贡献中的常见问题,需要在未来的工作中解决。 这项工作提出一种基于模型离线强化学习方法,该方法考虑认知和任意不确定性。 在交通密集的多个具有挑战性的自动驾驶场景进行实验,发现结合算法不确定性可以提高基于规划的方法性能。 此外,所提出的方法还改进简单行为克隆略的不良性能。文章还展示了在自动驾驶中,该方法和当前基于规划离线RL方法的局限性。未来的工作应侧重于改进行为克隆策略的先验,使用基于图的表示而不是光栅图像表示,并研究其他优化技术的使用。 本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“源头活水”历史文章
更多源头活水专栏文章, 请点击文章底部“阅读原文 ”查看
分享、在看,给个三连击呗!