百度Apollo发布海量自动驾驶数据集,还有两项重磅挑战赛
作者 | 费棋
近日, ApolloScape 宣布开放了大规模自动驾驶数据集。
它是 Apollo 自动驾驶项目的一个研究型项目,旨在促进自动驾驶的各方面创新,号称是世界上最大自主驾驶技术开源数据集。
根据 ApolloScape 官方介绍,它开放了对像素级标注的场景解析数据集和仿真工具的访问,并将定期添加新的数据集和新功能。
▌场景解析数据集
场景解析是自动驾驶的核心能力,他们通过高精度车载传感器采集并标注了大量道路场景。ApolloScape 发布的整个数据集包含数十万帧逐像素语义分割标注的高分辨率图像数据和与其对应的逐像素语义标注、稠密点云、立体图像、立体全景图像。为便于研究人员更好利用数据集的价值,他们在数据集中定义了共 26 个不同语义项的数据实例(例如汽车、自行车、行人、建筑、路灯等),而且并将进一步涵盖更复杂的环境、天气和交通状况等。截止目前,他们的数据集公开可以下载的数据量有 4 个。
在传感器与数据采集方面,他们采用的装备有 RIEGL VMX-1HA 移动测绘系统的中尺寸多功能越野车进行数据采集。该系统包括两个 LiDAR 传感器(每秒 500 条扫描线,覆盖 420 米内的 360 度视角),一部分 INS / GNSS 单元以及两个前向相机(VMX-CS6,3384 x 2710)。数据的采集频率为每米一张图像。
车载传感器采集车
数据概括
预计「场景解析」数据集将提供 20 万张附有对应的语义标注与深度信息的图像数据(截止到2018 年 3 月 8 日,提供了 80000+ 张图像),将分为训练集,验证集和测试集三部分,并提供文件列表。训练集和验证集用于设计算法和训练模型,包括图像和相对应的语义标注与深度信息。测试集的语义标注图像将用于内部测试,不提供下载。
RGB 图像总数:200000
深度图像总数: 200000
类别标注总数: 25
车道线标注总数: 28
图像分辨率: 3384 x 2710
GPS 轨迹: 有
相机内部和外部参数: 有
两帧图像之间的距离: 1 米
数据集示例
点云示例
深度图
数据集结构
数据集文件夹结构如下:
{root} / {type} / {road id} _ {level} / {record id} / {camera id} / {timestamp} _ {camera id} {ext}
root: 用户定义的根文件夹
type: 当前版本中有三种数据类型,即 ColorImage,Label 和 Pose。
road id: 道路 ID,例如 road001,road002。
level: seg 表示标签仅包含像素级别标签,ins 表示标签包含像素级别和实例级别标签。
record id: 记录是例如 Record001,Record002。每个记录包含多达几千个图像。
camera id: 采集系统所使用的两个前置相机,即相机 5 和相机 6。
timestamp: 图像名称的第一部分。
camera id: 图像名称的第二部分。
ext: 文件的扩展名。彩色图像为.jpg,标签图像为_bin.png,实例级标签的多边形列表为.json,实例级标签为_instanceIds.png。
每个相机和每个记录只有一个姿态文件(即 pose.txt)。该姿态文件包含相应摄像机和记录的所有图像的所有外部参数。姿势文件中每行的格式如下所示:
r00 r01 r02 t0 r10 r11 r12 t1 r20 r21 r22 t2 0 0 0 1 image_name
相机已经很好地经过了校准。相机的内在参数是:
Camera 5:
fx=2304.54786556982
fy=2305.875668062
Cx=1686.23787612802
Cy=1354.98486439791
Camera 6:
fx=2300.39065314361
fy=2301.31478860597
Cx=1713.21615190657
Cy=1342.91100799715
▌智能仿真工具
环境模拟用于自动驾驶在汽车和计算机行业引起了很多关注,它的主要挑战包括当自动驾驶汽车驾驶在有其他车辆、自行车或行人的道路时出现的安全问题。为了进行广泛测试和评估,需要开发出可用于测试的仿真系统,不仅适用于典型的相对安全的场景,而且还适用于不确定和危险的环境。他们目前的开放模拟工具包括 WorldSim 和 LogSim。他们也还在开发下一代技术,可用于生成真实世界驾驶场景和驾驶员行为的真实模拟。
▌挑战赛
CVPR 2018 自动驾驶研讨会:感知挑战赛
为了和外界共同推动自懂驾驶研究的先进技术,此前,百度研究院院长王海峰称,百度 Apollo 还将在今年的 CVPR (IEEE 国际计算机视觉与模式识别会议)上发起任务挑战赛。Apollo 将联合加州大学伯克利分校,在 CVPR 期间联合举办自动驾驶研讨会(Workshop on Autonomous Driving),并将基于 ApolloScape 的大规模数据集定义多项任务挑战。(相关赛程介绍:http://wad.ai/challenge.html)
在众多的自动驾驶技术中,环境感知与视觉社区最为相关。因此,他们发起的这项挑战即是为了了解计算机视觉算法在解决自动驾驶环境感知问题方面的现状。在这个挑战中,他们准备了许多具有精细注释的大规模数据集。基于数据集,他们定义了一组现实问题,并鼓励为自动驾驶创造新算法,而不只是应用于自动驾驶。
数据集
我们收集并注释了两个大型数据集。第一个由 Berkeley DeepDrive(BDD)提供。BDD 集包括 100K 个短视频剪辑(每个视频剪辑为 40 秒),每个视频剪辑中的一个关键帧都会进行注释。
第二套 ApolloScape 集由百度提供。ApolloScape 包含调查级别密集的 3D 点,并以视频速率注册了多视图 RGB 图像,每个像素和每个 3D 点都进行了语义标记。此外,还提供每张图像的精确位置。
任务
任务 1:可驱动区域分割(Drivable Area Segmentation )
首要任务是可驱动区域分割。此任务要求系统查找车辆正在行驶的道路区域或可能潜在驾驶的道路区域。
任务 2:道路对象检测(Road Object Detection)
该任务是检测与驾驶政策最相关的对象,更具体地说,要检测以下类别的对象:车辆、人和交通标志/信号。
任务 3:语义分割的域自适应(Domain Adaption of Semantic Segmentation)
BDD 数据集与 ApolloScape 相结合的优势在于覆盖天气、时间和地理等多个领域。在这个任务中,参与者在其中一个条件下给予注释,并且需要语义分割在不同条件下捕获的测试图像。两种类型的适应性将被评估。一个是时间/天气条件; 另一个是地理适应性,更特别的是来自加州(美国)和北京(中国)的培训/测试。
任务 4:实例级视频可移动对象分割(Instance-level Video Movable Object Segmentation)
在这个任务中,给予参与者一组具有良好像素级标记的视频序列,特别是车辆和行人等移动对象的实例也是标记。我们的目标是评估基于视频的场景解析的画面状态,这是一个由于缺乏精确标记而未被评估的任务。一些非常具有挑战性的环境被捕获了。相比之下,每帧的平均移动实例可以超过 50 个,而 KITTI 数据集中最多只能标注 15 辆汽车/行人。
IV 2018 智能汽车研讨会:智能仿真与导航挑战
除了 CVPR 2018 上的感知挑战赛,百度 Apollo 还将与 IV 2018 (The 2018 IEEE Intelligent Vehicles Symposium)联合举办一项仿真挑战。这项挑战将自动驾驶车辆投入到一个仿真路网中行驶,可以模仿真实的复杂驾驶场景和多车博弈过程,是目前最先进的智能驾驶仿真技术之一。
范围和目标
模拟已成为为自动驾驶提供更多训练数据的主流方法,也是自动驾驶进行稳定性和用户体验的大规模测试。诸如 Carla 和 Autonovi 等开源模拟工具的优秀案例为学界和业界的研究团体提供了便利。许多从事自动驾驶能力研究的大公司正在投入大量精力开发优秀的模拟器(例如百度的 Apollo,谷歌的 CarCraft 等)。尽管仿真和规划对自动驾驶研究和开发有普遍兴趣,但仍有许多研究挑战用于开发可以轻松应用于自动驾驶主题的多功能仿真框架。
新一年,AI科技大本营的目标更加明确,有更多的想法需要落地,不过目前对于营长来说是“现实跟不上灵魂的脚步”,因为缺人~~
所以,AI科技大本营要壮大队伍了,现招聘AI记者和资深编译,有意者请将简历投至:gulei@csdn.net,期待你的加入!
如果你暂时不能加入营长的队伍,也欢迎与营长分享你的精彩文章,投稿邮箱:suiling@csdn.net
AI科技大本营读者群(计算机视觉、机器学习、深度学习、NLP、Python、AI硬件、AI+金融、AI+PM方向)正在招募中,关注AI科技大本营微信公众号,后台回复:读者群,联系营长,添加营长请备注姓名,研究方向。
☟☟☟点击 | 阅读原文 | 查看更多精彩内容