【源头活水】DriverGym，一个强化学习用于自动驾驶的开源平台

人工智能前沿讲习 2022-05-20

收录于合集 #源头活水 308个

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注。

来源：知乎—黄浴

地址：https://zhuanlan.zhihu.com/p/433904190

2021年arXiv上传论文“DriverGym: Democratising Reinforcement Learning for Autonomous Driving“，被NeurIPS 2021 Machine Learning for Autonomous Driving Workshop接收，作者来自Woven Planet (Toyota Motor）收购的Lyft Level 5团队和瑞士EPFL。

尽管强化学习（RL）方面取得了可喜的进展，但开发自动驾驶（AD）算法仍然具有挑战性：关键问题之一是缺乏在实际数据训练和有效验证 RL 策略的开源平台。DriverGym，一个开源和OpenAI Gym兼容的环境，专门开发用于自动驾驶的 RL 算法。DriverGym 提供超过 1000 小时专家记录数据，还支持反应性和数据驱动的智体行为。可用闭环评估协议在真实数据上验证RL策略性能。这项工作用监督学习和 RL 提供行为克隆基准，这些基准方法是在 DriverGym进行训练。

代码在线：https://lyft.github.io/l5kit/

如图就是DriverGym的开源环境：根据真实数据培训 RL 驾驶策略。RL 策略可以访问丰富的语义图来控制自车（红色）。其他智体（蓝色）可以从数据日志模拟，也可以用在真实数据预训练的专门策略进行控制。提供一个可扩展的评估系统（紫色），易于配置来评估训练策略的特性。

如图是开源RL仿真环境的比较：

DriverGym旨在提供灵活的界面来训练和评估 RL 政策，促进 RL 自动驾驶策略的制定。

状态表征捕获了自智体周围上下文信息，特别是周围智体的位置、速度、车道和红绿灯。以 3D张量形式进行编码，作为当前帧的鸟瞰（BEV）光栅图像。DriverGym 支持 L5Kit 提供的光栅化模式。

如图是光栅化的模式例子：

与 Atari 环境相比，DriverGym 需要更多的时间生成观测结果，因为后者必须加载真实世界的数据，然后渲染高分辨率的光栅图像。

RL 策略产生的动作用于控制自智体的运动。该动作如（x， y， yaw）传播来更新自状态。尽管如此，DriverGym 并没有对策略本身做出任何严格的假设，例如，可以输出信息（加速、转向），并使用运动模型来解码下一步观测。

DriverGym 环境的一个重要组成部分是模拟周围智体的运动。DriverGym 允许灵活性，目前支持控制周围智体行为的两种方法是：日志重播（log replay）和反应性模拟（reactive simulation）。

在日志重播的epoch rollout期间，以完全相同的方式重播围绕自车的周围智体运动，就像在真实世界收集日志的情况一样。在反应性模拟中，智体行为是反应性的，而且逼真现实。

如图是一个episode rollout的可视化，其中红色是自车，蓝色是智体，绿线是策略预测绿线。

DriverGym 允许使用数据驱动模型模拟智体反应，这些模型从真实世界数据中学习智体行为；用户可以提供基于神经网络的智体模型，它们经过实际数据训练模拟智体行为。

环境中的奖励函数，量化了一个rollout中驾驶策略的表现，接着通过强化学习指导策略的训练。DriverGym 通过闭环评估（CLE）支持按帧计算的各种 AD 特定指标，并可以组合以构建奖励函数。

在安全-紧要的现实场景部署之前，必须有一个广泛的闭环评估（CLE）协议，正确评估 RL 策略的执行情况。CLE框架包括有见地的AD特定指标：第一组指标，特定于模仿学习，是基于距离的指标；第二组指标，特定于安全性，捕捉自车和周围智体之间发生的各种类型碰撞，其中包括前碰撞、侧碰撞和后碰撞。更重要的是，CLE 框架可以轻松扩展，纳入新的指标，帮助测试训练策略的各种属性。

如表是闭环评估协议提供的各种指标描述：

用 DriverGym 评估三种不同的算法，比较训练策略的有效性。

第一个用 L2 模仿学习损失（SL）的开环训练基准。
众所周知，行为克隆存在训练和测试数据之间分布漂移的困难。第二个，ChaufferNet启发的更强基准方法，在训练轨迹（SL+ P）中引入合成扰动来缓解分布漂移。
第三个，在 SB3 framework中实施的 RL 策略，即临近策略优化（Proximal Policy Optimization，PPO）。

如表报告三个模型在100个真实世界测试场景的三次运行（不同种子）表现。在基于距离的指标，PPO 在 ADE 方面与 SL + P 相似，但它受到高 FDE 的影响；PPO 显示的正面和侧面碰撞较少，但是显示的后碰撞次数要多得多，这可以解释为自车的被动性。最后，SL 是最差的，并证实了预期。

如图是评估方案：包括每帧计算（1）指标（例如 L2 位移误差）；（2）验证器，对每个场景的指标（L2 位移误差≤ 4 米）；以及（3）每个场景的复合指标实施约束，取决于指标和验证器（通过的驾驶里程）的输出。

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“源头活水”历史文章

请点击文章底部“阅读原文”查看

分享、在看，给个三连击呗！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

【源头活水】DriverGym，一个强化学习用于自动驾驶的开源平台

GRASSY | 利用图神经网络和几何散射方法优化分子图的生成

Very Deep VAE

联合意图识别和槽位填充，Slot-Gated机制

[ACM MM 2021] 基于深度学习的图像水印去除

SIGIR'21微软|基于自监督图学习的推荐系统

驾驶行为预测方法：分层自适应可迁移网络HATN

无监督异常检测场景下如何自动选择模型？

Graphormer：融合GNN与Transformer

[NAS论文][Transformer][预训练模型]精读NAS-BERT

NeurIPS 2021 | 助力半监督学习：一种课程伪标签方法FlexMatch和统一开源库TorchSSL

CPT：兼顾理解和生成的中文预训练模型

PointNet系列论文阅读与理解

基于视觉的在线地图：一种Transformer网络方法

VirTex：多模态预训练模型

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

生成图片，分享到微信朋友圈

【源头活水】DriverGym，一个强化学习用于自动驾驶的开源平台

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡