CVPR23 | 3D Occupancy 预测冠军方案:FB-OCC
【OpenMMLab 社区开放麦】开播啦!!!技术下饭番追起来,每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时,也非常鼓励社区同学拿起话筒登上舞台,社区知识开放麦等你来玩~
本期精彩
网格占用预测(Occupancy Prediction),是指预测 3D 中每个体素的占用状态和语义类别体素空间,是自动驾驶汽车的一项重要任务。预测 3D 占用率对于开发安全、稳健的自动驾驶系统为规划堆栈提供丰富的信息。
视图转换模块是从多视图图像生成 BEV/Voxel 表征的关键模块。现有的试图转换模块主要分为以下两种,一种是以 LSS 为代表的前向投影。前向投影依据每个像素的深度将像素点投影到三维空间,但是由于现有深度的离散表征和透视关系,LSS 生产的 3D 表征具有稀疏和分布不均匀的缺陷。第二种投影是以 BEVFormer 为代表的反向投影,反应投影可以从任意 3D 位置出发,获取对应的图像空间表征,优势在于可以获取任意分辨率的稠密 3D 表征。但是反向投影也有明显的缺陷,由于无法有效的利用深度,极易建立的错误投影关系,在特征层面沿着射线方向出现大量 false-postive 特征。
为了解决现有投影方案的缺陷,我们提出了一种 Forward-Backward 投影机制,该方案结合了两种投影方案的优势,同时能够弥补现有方案的不足,通过 Backward 投影能够对 Forward 投影产生的稀疏特征进行填充,同时 Forward 投影产生的特征也能够作为 Backward 投影的初始化。
基于 Forward-Backward 投影和 Voxel-BEV 联合表征,我们设计一种新颖的 Occupancy prediction 算法 FB-OCC,在 2023 年 CVPR 自动驾驶挑战赛中,赢得了 Occupancy Prediction 任务的冠军。
分享时间
2023 年 7 月 6 日(周四)
20: 00 - 20: 40(分享)
20: 40 - 21: 00(Q&A)
分享嘉宾
李志琦
南京大学 Imagine Lab 博士生,研究方向包括自动驾驶 BEV/Occupancy 感知,全景分割,目标检测。
分享内容
Forward-Backward 投影机制
从 BEV 到 Occupancy 的改进
FB-OCC 方案实现
相关工作
FB-OCC: 3D Occupancy Prediction based on Forward-Backward View Transformation
paper:
https://opendrivelab.com/e2ead/AD23Challenge/Track_3_NVOCC.pdf
code:
https://github.com/NVlabs/FB-BEV
MMDetection 3D 算法库:
https://github.com/open-mmlab/mmdetection3d
交流群
同时为了方便大家交流沟通,我们建立了 3D 检测的技术交流群,欢迎大家扫码加群,与大佬 1v1,赶紧加入我们吧~
往期回顾
来自 TCL 工业研究院香港人工智能研究所的总经理俞大海博士分享了 TCL 应对 AI 技术发展的探索和应用。分享中探讨一系列先进技术的应用,包括基础模型(foundation model)、自我监督学习(self-supervised learning)、制造业中的 AI 视觉平台(AI Vision Platform in Manufactory),以及 AI 技术的民主化(democratization AI)。希望通过分享这些创新应用,激发更多的科技创新,推动人工智能在制造业中的广泛应用,开创更为美好的未来。
对这个方向感兴趣的同学,可以通过回放温习一下哦~
2023-06-30
2023-06-29