超全的3D视觉数据集汇总

极市平台 2021-09-19

The following article is from 3D视觉工坊 Author Tom Hardy

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

1、 KITTI数据集

KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo)，光流(optical flow)，视觉测距(visual odometry)，3D物体检测(object detection)和3D跟踪(tracking)、语义分割等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图，39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成。

数据集链接：

http://www.cvlibs.net/datasets/kitti/raw_data.php

2、Cityscapes

Cityscapes是一个较为新的大规模数据集，它包含50个不同城市的街道场景中记录的各种立体视频序列，除了一组较大的20 000弱注释帧外，还具有5 000帧的高质量像素级注释。因此，数据集比以前的类似尝试要大一个数量级。Cityscapes数据集旨在评价视觉算法在城市场景语义理解中的性能：像素级、实例级和全景语义标注；支持旨在开发大量（弱）注释数据的研究，例如用于训练深层神经网络包含城市场景下双目图像及像素级语义分割标注。

数据集链接：

https://www.cityscapes-dataset.com/

3、牛津数据集

对牛津的一部分连续的道路进行了上百次数据采集，收集到了多种天气、行人和交通情况下的数据，也有建筑和道路施工时的数据。包含全景图像、激光雷达点云、导航信息。

数据集链接：

https://robotcar-dataset.robots.ox.ac.uk/datasets/

4、ApolloScape

百度Apollo开源的数据集，包含3D目标检测、语义分割、目标跟踪、立体视觉、场景识别等各类信息，数据量非常大！

数据集链接：

http://apolloscape.auto/

5、BDD100K

主要包括视频数据、道路目标检测、实例分割、可驾驶区域等相关数据。

其中：

视频数据：在一天中的许多不同时间、天气条件和驾驶场景中，探索超过1100小时驾驶体验的100000高清视频序列。我们的视频序列还包括GPS位置、IMU数据和时间戳。

道路目标检测：为公共汽车、红绿灯、交通标志、人、自行车、卡车、汽车、汽车、火车和骑手在100000张图像上标注的二维边框。

实例分割：使用像素级和丰富的实例级注释，浏览超过10000个不同的图像。

可驾驶区域：从100000张图片中学习复杂的驾驶决策。

数据集链接：

http://bdd-data.berkeley.edu/

6、Waymo Open Dataset

Waymo 数据集包含 3000 段驾驶记录，时长共 16.7 小时，平均每段长度约为 20 秒。整个数据集一共包含 60 万帧，共有大约 2500 万 3D 边界框、2200 万 2D 边界框。

此外，在数据集多样性上，Waymo Open Dataset 也有很大的提升，该数据集涵盖不同的天气条件，白天、夜晚不同的时间段，市中心、郊区不同地点，行人、自行车等不同道路对象，等等。

数据集链接：

https://github.com/waymo-research/waymo-open-dataset

7、nuScenes数据集

nuScenes数据集是自动驾驶公司nuTonomy建立的大规模自动驾驶数据集，该数据集不仅包含了Camera和Lidar，还记录了雷达数据。这个数据集由1000个场景组成（即scenes，这就是该数据集名字的由来），每个scenes长度为20秒，包含了各种各样的情景。在每一个scenes中，有40个关键帧（key frames），也就是每秒钟有2个关键帧，其他的帧为sweeps。关键帧经过手工的标注，每一帧中都有了若干个annotation，标注的形式为bounding box。不仅标注了大小、范围、还有类别、可见程度等等。这个数据集不久前发布了一个teaser版本（包含100个scenes），正式版（1000个scenes）的数据要2019年发布。这个数据集在sample的数量上、标注的形式上都非常好，记录了车的自身运动轨迹（相对于全局坐标），包含了非常多的传感器，可以用来实现更加智慧的识别算法和感知融合算法。

数据集链接：

https://www.nuscenes.org/download

8、3D Photography Dataset

华盛顿大学3D相机标定数据库。

数据集链接：

http://www-cvr.ai.uiuc.edu/ponce_grp/data/mview/

9、Matterport 3D重建数据集

A large-scale RGB-D dataset。该数据集包含10800个对齐的三维全景视图（RGB+每个像素的深度），来自90个建筑规模场景的194400个RGB+深度图像。

数据集链接：

https://matterport.com/

10、NoW Dataset

3D人脸重建相关数据集。该数据集包含用iPhone X拍摄的100名受试者的2054张2D图像，以及每个受试者的单独3D头部扫描。头部扫描是评估的基本依据。受试者的年龄、体重指数和性别（55名女性，45名男性）各不相同。

数据集链接：

https://ringnet.is.tue.mpg.de/challenge

11、Pix3D

单目图像3D模型匹配数据。

数据集链接：

http://pix3d.csail.mit.edu/

12、Replica Dataset

高质量室内场景三维重建数据。数据集中包含了18个高真实感的室内场景重建数据集Replica。每个场景由一个密集的网格、高分辨率高动态范围（HDR）纹理、每个基本语义类和实例信息以及平面镜和玻璃反射镜组成。副本的目标是使机器学习（ML）研究能够依赖于世界上视觉上、几何上和语义上真实的生成模型。

数据集链接：

https://github.com/facebookresearch/Replica-Dataset

13、Scan2CAD

将CAD模型与扫描数据对齐的数据集（适用于3D Object Pose Estimation，3D Reconstruction）

对于公共数据集，我们为注释提供：

97607扫描模型和CAD模型之间的关键点对应关系
扫描和计算机辅助设计之间的14225个对象
1506次扫描

用于Scan2CAD基准测试的附加注释隐藏测试集包括：

7557扫描模型和CAD模型之间的关键点对应关系
扫描和CAD之间的1160个对象
97次扫描

数据集链接：

https://github.com/skanti/Scan2CAD

14、ScanNet

ScanNet是一个RGB-D视频数据集，包含1500多个扫描中的250万个视图，使用3D相机姿势、曲面重建和实例级语义分段进行注释（3D重建相关）。

数据集链接：

http://www.scan-net.org/

15、NYC3Dcars

在现实世界中为视觉任务设置的车辆检测数据库。

3D重建：NYC3DCAR中的每张照片都已被GEO注册到地球，在地球为中心的地球固定坐标系统中提供完整的相机内部和外部信息，使得能够与现有地理空间数据无缝集成。
地理数据：已集成了诸如OpenStreetMap和NYC OpenData提供的配套数据库，以方便访问道路、人行道和中间多边形等地理特征以及道路网络连接。
车辆注释：人工注释器提供了数据库中包含的车辆的详细说明。注释包括一个完整的6自由度的车辆姿态，车辆类型，2D车辆包围盒，和大约一天的照片时间。

数据集链接：

http://nyc3d.cs.cornell.edu/

16、Expressive Hands and Faces

EHF数据集（丰富姿态的手部和脸部）包含一个受试者穿着最少的衣服的100个精确的帧，执行各种身体姿势，包括自然的手指关节，以及一些面部关节和表情。

每个帧包括以下时间同步模式：

全身RGB图像。
一个JSON文件，包含OpenPose检测到的二维特征（身体关节、手关节、面部特征）。
物体的三维扫描。
与上述扫描的3D SMPL-X对齐（3D网格），用作伪地面真值。
伪地面真值网格采用顶点到顶点（v2v）误差度量。这是一个比常见的三维关节误差范式更严格的度量标准，它不捕获表面误差和骨骼的旋转。
可以使用SMPL-X模型和SMPLify-X代码从单个RGB图像重建3D人体。

数据集链接：

https://smpl-x.is.tue.mpg.de/

17、TUM数据集

主要包含多视图数据集、3D物体的识别分割、场景识别、3D模型匹配、vSALM等各个方向的数据。

数据集链接：

https://vision.in.tum.de/

18、EUROC数据集

数据集中主要包含立体图像、同步IMU测量以及精确的运动和真实地面结构。

数据集链接：

https://projects.asl.ethz.ch/datasets/doku.php?id=kmavvisualinertialdatasets

-End-

提示：极市元旦福利（https://lucky.nocode.com/v2/s/7SPah7gtyjP）已开奖，还有两位小伙伴未填写地址，请在周三前填写～

*延伸阅读

CV细分方向交流群

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割、姿态估计、超分辨率、嵌入式视觉、OCR 等极市技术交流群（已经添加小助手的好友直接私信），更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~

△长按添加极市小助手

△长按关注极市平台

觉得有用麻烦给个在看啦~

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

反向激励，在加速这个社会的黑化

Wealth | 中国成本轮金价涨势的前沿和中心

“Green & IntelligentManufacturing” Chinese Bridge Online Program

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！

超全的3D视觉数据集汇总

1、 KITTI数据集

2、Cityscapes

3、牛津数据集

4、ApolloScape

5、BDD100K

6、Waymo Open Dataset

7、nuScenes数据集

8、3D Photography Dataset

9、Matterport 3D重建数据集

10、NoW Dataset

11、Pix3D

12、Replica Dataset

13、Scan2CAD

14、ScanNet

15、NYC3Dcars

16、Expressive Hands and Faces

17、TUM数据集

18、EUROC数据集

最强战队 | 三维视觉、SLAM方向全球顶尖实验室汇总

CVPR2019 |AR版“神笔马良”：从单张2D图片建立3D人物运动模型，华盛顿大学与Facebook 3D重建

谷歌重磅推出TensorFlow Graphics：为3D图像任务打造的深度学习利器

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

Wealth | 中国成本轮金价涨势的前沿和中心

“Green & IntelligentManufacturing” Chinese Bridge Online Program

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！

生成图片，分享到微信朋友圈

超全的3D视觉数据集汇总

1、 KITTI数据集

2、Cityscapes

3、牛津数据集

4、ApolloScape

5、BDD100K

6、Waymo Open Dataset

7、nuScenes数据集

8、3D Photography Dataset

9、Matterport 3D重建数据集

10、NoW Dataset

11、Pix3D

12、Replica Dataset

13、Scan2CAD

14、ScanNet

15、NYC3Dcars

16、Expressive Hands and Faces

17、TUM数据集

18、EUROC数据集

最强战队 | 三维视觉、SLAM方向全球顶尖实验室汇总

CVPR2019 |AR版“神笔马良”：从单张2D图片建立3D人物运动模型，华盛顿大学与Facebook 3D重建

谷歌重磅推出TensorFlow Graphics：为3D图像任务打造的深度学习利器

您可能也对以下帖子感兴趣