华为发布2D自动驾驶数据集，业内最大远超Waymo，主打半/自监督学习

Original Skylar 智车科技 2021-09-20

本文来源：智车科技

/ 导读 /

自动驾驶，作为人工智能领域的掌上明珠，是需要经过大量的数据学习和数据训练才能焕发光彩的。而数据的采集成本之高、难度之大，又让人望而却步。

近日，华为诺亚方舟实验室联合中山大学发布了新一代2D自动驾驶数据集SODA10M数据集。SODA10M拥有数据规模庞大、数据多样性强、泛化能力强三个特点。华为诺亚方舟实验室计划将基于这个数据集开放2D自动驾驶挑战赛，并且会设立奖项和奖金。

规模

10倍于Waymo，业内最大

在“规模”方面，SODA10M 比现有的BDD100K和Waymo等自动驾驶数据集大十倍，包含1000万张无标注的道路场景图像，2万个带标注的高质量2D边界框，拥有更多可供自动驾驶汽车学习的数据。

多样性

4个季节32个城市

在“多样性”方面，SODA10M数据集中的图片覆盖了4个不同的季节和32个城市。

这些照片是在各种条件下拍摄的，晴天雨天、白天黑夜、城市高速…..

1000万张无标注图片来自32个城市，囊括了国内大部分地区，2万张带标注的图片，直接标出了Pedestrian、Cyclist、Car、Truck、Tram、Tricycle这6种主要的人车场景，以供自动驾驶汽车如何应对各种情况。

据悉，华为是通过众包的方式，把采集任务分发给上万名出租车司机，由司机拍照或行车记录仪完成图片采集。

泛化专注自/半监督，用于ICCV2021 SSLAD挑战赛

在“泛化”方面，SODA10M数据集提供了一组卓越的数据，可用于预训练自动驾驶算法。这是由于数据集的多样性和大小，当使用MoCov1时，这导致比Waymo或Cityscapes等其他现有数据集有更好的泛化能力。

对比Waymo自动驾驶数据集和ImageNet自监督算法数据集，SODA10M表现优异。华为分别从目标检测，BDD100K，Cityscapes语义分割入手，结果SODA10M的自监督训练效果与ImageNet相仿，明显优于Waymo。

研究论文表明，SODA10M 可以作为训练和评估不同自/半监督学习方法的有前途的数据集。除了标准化评估之外，这还可以促进对先进技术的探索，以帮助推动自动驾驶系统向前发展。

后台回复“华为数据集”获取干货~

论文：

https://arxiv.org/pdf/2106.11118.pdf

数据集：

https://soda-2d.github.io/index.html

项目：

https://sslad2021.github.io/index.html

挑战：

https://sslad2021.github.io/pages/challenge.html

- End -

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看