查看原文
其他

【源头活水】DriverGym,一个强化学习用于自动驾驶的开源平台



“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

来源:知乎—黄浴
地址:https://zhuanlan.zhihu.com/p/433904190
2021年arXiv上传论文“DriverGym: Democratising Reinforcement Learning for Autonomous Driving“,被NeurIPS 2021 Machine Learning for Autonomous Driving Workshop接收,作者来自Woven Planet (Toyota Motor)收购的Lyft Level 5团队和瑞士EPFL。
尽管强化学习 (RL) 方面取得了可喜的进展,但开发自动驾驶 (AD) 算法仍然具有挑战性:关键问题之一是缺乏在实际数据训练和有效验证 RL 策略的开源平台。DriverGym,一个开源和OpenAI Gym兼容的环境,专门开发用于自动驾驶的 RL 算法。DriverGym 提供超过 1000 小时专家记录数据,还支持反应性和数据驱动的智体行为。可用闭环评估协议在真实数据上验证RL策略性能。这项工作用监督学习和 RL 提供行为克隆基准,这些基准方法是在 DriverGym进行训练。
代码在线:https://lyft.github.io/l5kit/
如图就是DriverGym的开源环境:根据真实数据培训 RL 驾驶策略。RL 策略可以访问丰富的语义图来控制自车(红色)。其他智体(蓝色)可以从数据日志模拟,也可以用在真实数据预训练的专门策略进行控制。提供一个可扩展的评估系统(紫色),易于配置来评估训练策略的特性。
如图是开源RL仿真环境的比较:
DriverGym旨在提供灵活的界面来训练和评估 RL 政策,促进 RL 自动驾驶策略的制定。
状态表征捕获了自智体周围上下文信息,特别是周围智体的位置、速度、车道和红绿灯。以 3D张量形式进行编码,作为当前帧的鸟瞰 (BEV)光栅图像。DriverGym 支持 L5Kit 提供的光栅化模式。
如图是光栅化的模式例子:
与 Atari 环境相比,DriverGym 需要更多的时间生成观测结果,因为后者必须加载真实世界的数据,然后渲染高分辨率的光栅图像。
RL 策略产生的动作用于控制自智体的运动。该动作如 (x, y, yaw) 传播来更新自状态。尽管如此,DriverGym 并没有对策略本身做出任何严格的假设,例如,可以输出信息(加速、转向),并使用运动模型来解码下一步观测。
DriverGym 环境的一个重要组成部分是模拟周围智体的运动。DriverGym 允许灵活性,目前支持控制周围智体行为的两种方法是:日志重播(log replay)和反应性模拟(reactive simulation)。
在日志重播的epoch rollout期间,以完全相同的方式重播围绕自车的周围智体运动,就像在真实世界收集日志的情况一样。在反应性模拟中,智体行为是反应性的,而且逼真现实。
如图是一个episode rollout的可视化,其中红色是自车,蓝色是智体,绿线是策略预测绿线。
DriverGym 允许使用数据驱动模型模拟智体反应,这些模型从真实世界数据中学习智体行为;用户可以提供基于神经网络的智体模型,它们经过实际数据训练模拟智体行为。
环境中的奖励函数,量化了一个rollout中驾驶策略的表现,接着通过强化学习指导策略的训练。DriverGym 通过闭环评估 (CLE) 支持按帧计算的各种 AD 特定指标,并可以组合以构建奖励函数。
在安全-紧要的现实场景部署之前,必须有一个广泛的闭环评估 (CLE) 协议,正确评估 RL 策略的执行情况。CLE框架包括有见地的AD特定指标:第一组指标,特定于模仿学习,是基于距离的指标;第二组指标,特定于安全性,捕捉自车和周围智体之间发生的各种类型碰撞,其中包括前碰撞、侧碰撞和后碰撞。更重要的是,CLE 框架可以轻松扩展,纳入新的指标,帮助测试训练策略的各种属性。
如表是闭环评估协议提供的各种指标描述:
用 DriverGym 评估三种不同的算法,比较训练策略的有效性。
  • 第一个用 L2 模仿学习损失(SL) 的开环训练基准。
  • 众所周知,行为克隆存在训练和测试数据之间分布漂移的困难。第二个,ChaufferNet启发的更强基准方法,在训练轨迹 (SL+ P) 中引入合成扰动来缓解分布漂移。
  • 第三个,在 SB3 framework中实施的 RL 策略,即临近策略优化(Proximal Policy Optimization,PPO)。
如表报告三个模型在100个真实世界测试场景的三次运行(不同种子)表现。在基于距离的指标,PPO 在 ADE 方面与 SL + P 相似,但它受到高 FDE 的影响;PPO 显示的正面和侧面碰撞较少,但是显示的后碰撞次数要多得多,这可以解释为自车的被动性。最后,SL 是最差的,并证实了预期。
如图是评估方案:包括每帧计算 (1) 指标(例如 L2 位移误差);(2) 验证器,对每个场景的指标(L2 位移误差≤ 4 米);以及 (3) 每个场景的复合指标实施约束,取决于指标和验证器(通过的驾驶里程)的输出。

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“源头活水”历史文章


更多源头活水专栏文章,

请点击文章底部“阅读原文”查看



分享、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存