智慧视觉，赋能车辆搭载“火眼金睛”！丁勇教授团队荣获国际重大赛事前三甲

引领未来的浙大杭州科创中心 2023-02-21

“

近日，浙江大学微纳电子学院丁勇教授研究团队与默罕默德·本·扎耶德人工智能大学（MBZUAI）及上海云骥智行智能科技有限公司联合组织两支参赛队伍，分别在国际重大赛事2022 Waymo公开数据集挑战赛中的自动驾驶纯视觉3D目标检测（Camera-only 3D Detection）项目荣获第三名，在自动驾驶3D语义分割（3D Semantic Segmentation）项目荣获第二名。

背景介绍

当前，自动驾驶已成为国内外产业界、学术界共同关注的热点研究领域。自动驾驶使用先进的车载传感器（如高清摄像头、激光雷达等传感器）对驾驶场景进行环境感知，融合人工智能、计算机视觉、云计算等技术，经过驾驶场景理解、智能决策规划、自主车身控制等三大环节，最终实现代替人类操控机动车的新一代信息技术。

其中，驾驶场景理解是自动驾驶技术要解决的首要任务，准确的场景理解有助于车辆做出更合理智能的决策规划和安全舒适的车身控制，是实现自动驾驶的技术关键和基础。驾驶场景理解包含对场景内容的目标级的障碍物3D包围框检测（即场景3D目标检测）和细粒度的类别分割（即场景3D语义分割）等基础任务。检测结果可用于障碍物避让规划、障碍物轨迹跟踪预测等，分割结果可用于识别可行使区域等，都将直接影响智能决策规划的判断和自主车身控制的操作。因此，自动驾驶场景下3D目标检测和3D语义分割的研究对推动自动驾驶技术发展具有重大理论意义和应用价值。

比赛介绍

2022 Waymo公开数据集挑战赛（The 2022 Waymo Open Dataset Challenge）是由自动驾驶行业巨头之一Waymo公司举办的面向全世界的自动驾驶公开挑战赛，同时也是IEEE CVPR 2022 Workshop on Autonomous Driving（https://cvpr2022.wad.vision）的重要组成部分。Waymo公司始于谷歌在2009年开启的一项自动驾驶汽车计划，于2016年12月由Google独立出来，成为Alphabet公司旗下的子公司。发展至今，Waymo公司在自动驾驶领域已处于全球顶尖地位。

图1 Waymo公开数据集挑战赛和IEEE CVPR 2022 Workshop on Autonomous Driving

本次挑战赛基于Waymo开放的目前规模最大、场景最丰富多样化、难度最高的自动驾驶数据集进行，内容包括自动驾驶场景下的纯视觉3D目标检测挑战（Camera-only 3D Detection）、3D语义分割挑战（3D Semitic Segmentation）、物体运动预测挑战（Motion Prediction）和车流预测挑战（Occupancy and Flow Prediction）等4个项目。

本次挑战赛吸引了包括麻省理工学院（MIT）、佐治亚大学（UGA）、加利福尼亚大学（UC）、新加坡国立大学（NUS）、香港中文大学（CUHK）、北京大学（PKU）、地平线（Horizon Robotics）、商汤科技（SenseTime）、上海人工智能实验室（Shanghai AI Lab）等来自世界各地技术领先的高校、企业及研究所等科研机构的共同关注，据主办方统计，此次大赛总共收到1700余次结果提交，参赛队伍来自15余个国家，竞争十分激烈。

CVPR（IEEE/CVF Conference on Computer Vision and Pattern Recognition）是计算机视觉和人工智能领域的国际顶级会议。据2022最新统计的Google Scholar Metrics，CVPR的影响因子居全球所有学术会议、期刊中排名第四。

图2.Google Scholar Metrics排行榜截图（CVPR排行第四）

赛项介绍

1. 纯视觉3D目标检测

使用5个环视车载摄像头图像作为输入，以3D包围框的形式给出视场范围内的所有感兴趣物体在真实空间中的3D位置、尺寸及朝向等。该项目的主要难点在于如何从平面图像所提供的2D信息中精确地推理出物体在3D空间中的信息。同时，一些极端的光线和天气条件，例如黑夜、暴雨等，也使得该任务变得更加困难。

图3.纯视觉3D目标检测图示

在本次参赛中，丁勇教授团队使用了一种原创的跨模态知识蒸馏算法（Cross-Modality Knowledge Distillation），在模型训练过程中，通过知识蒸馏的技术手段将激光雷达传感器所提供的精确3D信息转移至基于相机传感器模型中，从而在不引入任何额外的推理开销的情况下，大幅度地提高检测精度和算法性能，斩获第三名的好成绩。

图4.纯视觉3D目标检测任务获奖公示页面截图（第三名）

2. 3D语义分割

可使用车载激光雷达点云和5个环视车载摄像头图像等多模态传感器数据作为输入，以点（Point）的形式预测场景点云中每个点的语义类别。该项目的难点在于如何从稀疏的、不规则的点云数据中学习细粒度的物体语义信息。不同于传统的2D图像语义分割，对自动驾驶中的3D场景进行语义分割具有更大的技术难度和更高的应用价值。

图5. 多模态数据图示：摄像头图像（左）与激光雷达点云（右）

图6. 3D语义分割结果图示

在本次参赛中，丁勇教授团队使用了一种原创的多模态感知模型，在点云数据的3D信息的基础上，充分利用图像数据中丰富的颜色信息和致密的纹理信息等特征来增强稀疏点云的特征表示能力，实现高效信息整合，提高模型在不同光照条件、天气下的鲁棒性，斩获第二名的好成绩。同时，应主办方邀请，该参赛方法还在CVPR 2022 Workshop on Autonomous Driving上进行3分钟的技术分享。

图7. 3D语义分割任务获奖公示页面截图（第二名）

图8.CVPR 2022 Workshop on Autonomous Driving技术分享PPT

3D目标检测和3D语义分割均以不同的细腻程度为决策规划和控制执行等下游环节提供重要的环境感知基础，是实现安全、舒适自动驾驶的关键感知技术。两个参赛方法均具有很高的创新性，大幅提高了检测性能和分割性能。

团队介绍

丁勇教授带领的自动驾驶研究团队始建于2018年，发轫于与上海云骥智行智能科技有限公司的联合创始人兼SVP罗春博士的合作。经过多年的潜心积累，研究团队先后与俄罗斯国立莫斯科大学、MBZUAI大学、上海云骥智行智能科技有限公司等建立密切的产教融合深度合作，联合承担了国家重点研发计划国际科技合作等重大科研项目，联合发表学术论文20余篇。

研究团队在自动驾驶技术的前端感知到决策规划等多个关键环节具有较强的研究储备和算法创新，所研算法的性能均达到国际领先和先进水平。在图像3D目标检测任务上发表顶级国际会议CVPR论文2篇、ECCV论文1篇；在点云3D目标检测任务上发表ACM MM（ACM Multimedia）国际会议论文2篇、IEEE期刊论文1篇；在点云3D语义分割任务上发表顶级国际会议ECCV论文1篇；在驾驶场景图像目标检索任务上获ECCV Commands for Autonomous Vehicles国际竞赛的第一名和第二名，ECCV workshop论文2篇。

获奖学生

李佳乐 2018级博士生

本次2022 Waymo 3D语义分割挑战赛第二名获得者，本科毕业于重庆大学，2018年保送至浙江大学电子科学与技术专业攻读博士学位，目前就读于直博四年级。李佳乐同学围绕自动驾驶前端感知这一研究主题，分别从3D目标检测和3D语义分割等多个维度开展系统性研究。

洪宇 2021级硕士生

本次2022 Waymo纯视觉3D目标检测挑战赛第三名获得者，本科毕业于浙江大学电子科学与技术专业，2021年保送至浙江大学微纳电子学院攻读研究生，目前就读于硕士一年级。其主要研究兴趣包括人工智能和自动驾驶技术等。

内容来源：浙江大学微纳电子学院

本文编辑：孔晓睿

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

智慧视觉，赋能车辆搭载“火眼金睛”！丁勇教授团队荣获国际重大赛事前三甲

您可能也对以下帖子感兴趣

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

生成图片，分享到微信朋友圈

智慧视觉，赋能车辆搭载“火眼金睛”！丁勇教授团队荣获国际重大赛事前三甲

您可能也对以下帖子感兴趣

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时