查看原文
其他

【源头活水】ICCV‘21论文:自动驾驶中看不见车辆的安全-觉察运动预测



“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

来源:知乎—黄浴
地址:https://zhuanlan.zhihu.com/p/418446765
ICCV‘21 论文“Safety-aware Motion Prediction with Unseen Vehicles for Autonomous Driving“, 作者来自香港科技大学、西交大、瑞士EPFL和亚马逊公司。
由于复杂环境的不确定性以及遮挡和传感器范围局限导致的可见度不足,车辆的运动预测比较重要但具有挑战性。本文研究的是看不见车辆自动驾驶的安全-觉察运动预测。与现有车辆的轨迹预测任务不同,这里目标是预测一个占用地图(OGM),对可见和不可见车辆占用的每个位置,指出其最早时间。预测看不见车辆的能力对于自动驾驶的安全性至关重要。
作者提出一种具有安全意识的深度学习模型,该模型有三个新损失函数来预测最早的占用图(OGM)。
具体项目网页 https://github.com/xrenaa/Safety-Aware-Motion-Prediction
如图展示一个看不见车辆的例子。错过看不见车辆的预测会威胁到规划决策的安全,甚至导致碰撞:周围车辆(蓝色汽车)的真值绘制在蓝色虚线中;由于不确定性,很难做出完美的预测;在这种情况下,比真值更早进行预测更安全,即任何位置的预测到达/占用时间都早于真值;当做出比真值更早的预测(灰线)时,就会与候选轨迹发生碰撞;虽然真值轨迹实际上并没有与这个候选轨迹发生碰撞,但是规划器过滤掉这个轨迹是安全的;相反,如果预测晚于 真值,规划者可能会选择一个有风险的候选轨迹。
基于以上观察,提出安全-觉察运动预测的任务,包括以下两个方面:
1. 为安全起见,每个位置的预测占用时间应该早于真值,但尽可能准确。
2. 应该包括对看不见车辆的预测。
定义占有图(OGM):

而最早占有图(Earliest occupancy map)定义为

预测任务的目标是推导比真值 E(x, y) 更早但尽可能准确的预测 P(x, y)。为此定义硬损失(为安全)如下
硬损失确定预测 P(x, y) 的上限为真值E(x, y) 。只有硬损失会导致微小的解决方案,即所有值都为零。
还有软损失(为速度)为

软损失要求预测接近真值。
对看不见车辆的预测,在预测的最早占用图上应用看不见车辆的损失。引入一个看不见掩码(Unseen mask),使模型专注于对看不见车辆的预测,如图所示:看不见掩码覆盖未来任何看不见车辆占据的所有位置,这里输入是感知和地图定位给出的BEV栅格图像。
最后看不见车辆的损失定义为
如图是整个框架图:栅格图像由 U-Net 模型处理生成最早占用图,这里看成一个图像-图像的翻译问题;在 U-Net 内部用膨胀瓶颈(Dilated Bottleneck)来扩大感受野;对于看不见的车辆,设计一个看不见-觉察的自注意单元(self-attention unit)。
膨胀瓶颈:为了扩大感受野并利用非局部上下文信息,在 U-Net 中采用了膨胀卷积;膨胀卷积用稀疏内核替换标准卷积层中的内核,其中膨胀率定义内核中权重之间的间距;这样,在扩张率为 2 的情况下,3 × 3 内核的感受野大小等于 7 × 7 内核的感受野大小,而不会增加任何复杂度;因此,在 U-Net 架构中,引入一个由三个膨胀卷积组成的膨胀瓶颈,这样结合局部和全局上下文信息。
看不见-觉察的自注意单元架构如下:

自注意单元可以对特征图有意义的空间重要性进行编码,促进看不见车辆的预测。
注意掩码(attention mask)定义为
此外,为了聚合看不见车辆的掩码特征和原始特征,在自注意单元内部采用了跳跃连接。输入特征图 F 被馈送到两分支 CNN,分别生成密钥 K 和查询 Q。输出的特征图F',最终定义为

最后训练的损失为

其中Lh修正为可微分的:
而Lrec是场景重建损失,基于MSE(mean squared error):
实验中采用的基准方法是以下几个:
物理模型(Physical models): 取自nuScenes 数据集, 四种设置: 1) CV: 匀速; 2) CA: 匀加速和方向; 3) CM: 速度和方向变化率恒定; 4) CY: 速度大小和转速不变。
MTP: “Multimodal trajectory predictions for autonomous driving using deep convolutional network“. ICRA, 2019.
Trajectron++: “Trajectron++: Dynamically-feasible trajectory forecasting with heterogeneous data“. ECCV, 2020
P3: “Perceive, predict, and plan: Safe motion planning through interpretable semantic representations“. ECCV, 2020.
测度定义为以下几个:
Missing Rate (MR)
Aggressiveness
Unseen Recall (UR)

其中IoU测度定义

MSE (没有采用ADE,即Average Displacement Error)
实验结果如下:

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“源头活水”历史文章


更多源头活水专栏文章,

请点击文章底部“阅读原文”查看



分享、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存