25个数据科学家必须了解的深度学习开放数据集
但是,你可以从哪里获得这些数据?现在你看到的很多研究论文都使用专有的数据集,而它们通常不会公开。如果你想学习并应用你新掌握的技能,从哪里获得数据集成了问题。
如果你有这个问题,别担心,我们策划了一系列公开可用的数据集列表以供所有人使用。
在本文中,我们列出了一系列高质量的数据集,每个深度学习爱好者都应该试着使用它们改进技能。完成处理这些数据集后,你就可以成为一名更好的数据科学家,而且你从中获得的知识将在你的职业生涯中发挥无可估量的价值。我们还收录了最新的技术成果(state-of-the-art ,SOTA),供你参考并改进模型。
更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)
首先,这些数据集的规模巨大!所以请确保你有网络连接顺畅,下载空间足够大。
这些数据集可以用于各种目的,你可以将之应用于各种深度学习技术,磨练技能,了解如何识别和构建每个问题,或和大家分享你的成果。
这些数据集分为三类: 图像处理、自然语言处理和音频 / 语音处理。
开始探索吧!
https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/
MNIST 是最受欢迎的深度学习数据集之一。这是一个手写数字数据集,包含一组 60,000 个示例的训练集和一个包含 10,000 个示例的测试集。这个数据库在实际数据中尝试学习技术和深度识别模式方面非常好用,同时可以在数据预处理花费最少的时间和精力。
大小:〜50 MB
记录数量:10 种类别的 70,000 张图片
SOTA:胶囊之间的动态路由(https://arxiv.org/pdf/1710.09829.pdf)
http://cocodataset.org/#home
COCO 是一个用于物体检测、分割和字幕的大型、丰富的数据集,它有几个特点:
对象分割
上下文识别
超像素素材分割
330K 张图像(标记> 200K)
150 万个对象实例
80 个对象类别
91 个素材类别
每张图片 5 个字幕
250,000 个带有关键点的人
大小:〜25 GB(压缩)
记录数量:330K 张图像,80 个对象类别,每幅图像 5 个字幕,25 万个关键点
SOTA:Mask R-CNNhttps://arxiv.org/pdf/1703.06870.pdf
http://www.image-net.org/
ImageNet 是根据 WordNet 层次结构组织的图像数据集。WordNet 包含大约 100,000 个短语,ImageNet 平均用 1000 张图像来说明每个短语。
大小:〜150GB
记录数量:图像总数:约 1,500,000;每张图像都有多个边界框和相应的类标签。
SOTA:深度神经网络的聚合残差转换(Aggregated Residual Transformations for Deep Neural Networks)https://arxiv.org/pdf/1611.05431.pdf
https://github.com/openimages/dataset
Open Images 是一个包含近 900 万个图像 URL 的数据集。这些数千万种类别的图像已经用图像级标签边框进行了注释。该数据集包含 9,011,219 张图像的训练集,41,260 张图像的验证集以及 125,436 张图像的测试集。
大小:500 GB(压缩)
记录数量:9,011,219 张超过 5k 个标签的图像
SOTA:Resnet 101 图像分类模型(在 V2 数据上训练):模型检查点,检查点自述文件,推理代码。https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/
http://www.visualqa.org/
VQA 是一个包含有关图像的开放式问题的数据集,这些问题需要理解视觉和语言。该数据集的一些有趣的特点是:
265,016 张图片(COCO 和抽象场景)
每张图片至少有 3 个问题(平均 5.4 个问题)
每个问题有 10 个合理答案
每个问题有 3 个看似合理(但可能不正确)的答案
自动评估指标
大小:25 GB(压缩)
记录数量:265,016 张图片,每张图片至少有 3 个问题,每个问题有 10 个合理答案
SOTA:视觉问答的技巧和诀窍:从 2017 年挑战赛中学习https://arxiv.org/abs/1708.02711
http://ufldl.stanford.edu/housenumbers/
这是用于开发对象检测算法的真实世界图像数据集。它需要很少的数据预处理,与本列表中提到的 MNIST 数据集类似,但具有更多标签数据(超过 600,000 张图像)。这些数据是从谷歌街景中查看的房屋号码中收集的。
大小:2.5 GB
记录数量:10 种类别的 6,30,420 张图片
SOTA:虚拟对抗训练的分布平滑https://arxiv.org/pdf/1507.00677.pdf
http://www.cs.toronto.edu/~kriz/cifar.html
这仍然是一个图像分类数据集,它由 10 个类的 60,000 张图像组成(每个类在上图中表示为一行),总共有 50,000 张训练图像和 10,000 张测试图像。数据集分为 6 个部分,其中有 5 个训练集和 1 个测试集。每个数据集包含 10,000 张图像。
大小:170 MB
记录数量:10 种类别的 60,000 张图片
SOTA:ShakeDrop 正则化https://openreview.net/pdf?id=S1NHaMW0b
https://github.com/zalandoresearch/fashion-mnist
Fashion-MNIST 包含 60,000 个训练图像和 10,000 个测试图像,是一个类似 MNIST 的时尚产品数据库。开发人员认为 MNIST 已被过度使用,因此他们创建了该数据集作为 MNIST 的直接替代品。每张图片都以灰度显示,并与 10 个类别的标签相关联。
大小:30 MB
记录数量:10 种类别的 70,000 张图片
SOTA:随机擦除数据增强https://arxiv.org/abs/1708.04896
http://ai.stanford.edu/~amaas/data/sentiment/
这是电影爱好者梦寐以求的数据集,可用于二元情感分类,并包含比之前此领域所有数据集都更多的数据。除了训练和测试评估示例之外,还有更多未标记的数据可供使用。原始文本和预处理的单词格式包也包括在内。
大小:80 MB
记录数量:25,000 个用于训练的高度两极化的电影评论,25,000 个评论用于测试
SOTA:学习结构化文本表示https://arxiv.org/abs/1705.09207
https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups
顾名思义,该数据集包含有关新闻组的信息。为了管理这个数据集,创建者从 20 个不同的新闻组中获取了 1000 篇 Usenet 文章。这些文章具有典型的特征,如主题行、签名和引用。
大小:20 MB
记录数量:来自 20 个新闻组的 20,000 条信息
SOTA:用于文本分类的极深卷积网络https://arxiv.org/abs/1606.01781
http://help.sentiment140.com/for-students/
Sentiment140 是一个可用于情感分析的数据集。作为一个流行的数据集,它可以帮你进行一场完美的 NLP 旅程。数据中的情绪已经被预先删除,最终的数据集具有以下 6 个特征:
推文具有两极分化性
推文 ID
推文日期
查询
用户名
推文文本
大小:80 MB(压缩)
记录数量:160,000 条推文
SOTA:用最先进的情绪模型数据集评估最新的情感数据集http://www.aclweb.org/anthology/W17-5202
https://wordnet.princeton.edu/
我们在上面的 ImageNet 数据集中提到,WordNet 是一个包含英文 Synsets(同义词集合)的大型数据库。 Synsets 是指描述不同的概念的同义词的集合。WordNet 的结构使其成为非常有用的 NLP 工具。
大小:10 MB
记录数量:通过少量“概念关系”将 117,000 个同义词集与其他同义词集相关联。
SOTA:Wordnet:现状和前景https://aclanthology.info/pdf/R/R11/R11-1097.pdf
https://www.yelp.com/dataset
这是 Yelp 为了学习目的而发布的一个开源数据集。它由数百万用户评论、商业属性和来自多个大都市地区的超过 20 万张照片组成。此数据集是全球 NLP 挑战赛常用的数据集。
大小:2.66 GB JSON,2.9 GB SQL 和 7.5 GB 的照片(全部压缩)
记录数:5,200,000 条评论,174,000 条商业属性,20 万张照片和 11 个大都市区
SOTA:Attentive Convolutionhttps://arxiv.org/pdf/1710.00519.pdf
https://corpus.byu.edu/wiki/
该数据集是维基百科全文的集合。它包含来自 400 多万篇文章,将近 19 亿字。这个 NLP 数据集之所以强大,是因为你可以通过单词、短语或段落本身的一部分进行搜索。
大小:20 MB
记录数:4,400,000 篇文章,19 亿字
SOTA:打破 Softmax 瓶颈:高级 RNN 语言模型https://arxiv.org/pdf/1711.03953.pdf
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
此数据集包含从 blogger.com 收集的数千名博主收集的博客帖子。每个博客都作为一个单独的文件,至少包含 200 个常用英语单词。
大小:300 MB
记录数:681,288 个帖子,超过 1.4 亿字
SOTA:Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attributionhttps://arxiv.org/pdf/1609.06686.pdf
http://statmt.org/wmt18/index.html
该数据集包含四种欧洲语言的训练数据,它的任务是改进当前的翻译方法。你可以进行以下语言互译:
英汉互译
英语 - 捷克语互译
英语 - 爱沙尼亚语互译
英语 - 芬兰语互译
英德互译
英语 - 哈萨克语互译
英俄互译
英语 - 土耳其语互译
大小:〜15 GB
记录数量:约 30,000,000 个句子及其翻译
SOTA:Attention Is All You Needhttps://arxiv.org/abs/1706.03762
这个数据集也是受 MNIST 数据集的启发而创建的,以识别音频样本中的数字。这是一个开放的数据集,所以希望随着人们贡献更多的样本,它会不断地增长。目前,它包含以下特点:
3 个扬声器
1500 个录音
英语发音
大小:10 MB
记录数量:1500 个音频样本
SOTA:使用采样级 CNN 架构的基于原始波形的音频分类https://arxiv.org/pdf/1712.00866.pdf
https://github.com/mdeff/fma
FMA 是用于音乐分析的数据集。该数据集由全长和 HQ 音频,预先计算的特征以及音轨和用户级元数据组成。它是一个开源数据集,用于评估 MIR 中的几个任务。以下是该数据集连同其包含的 csv 文件列表:
tracks.csv:每个曲目元数据,例如 ID,标题,艺术家,流派,标签和播放次数,适用于所有 106,574 首曲目。
genres.csv:所有 163 种风格的 ID 与其名称和 parent(用于推断流派层次和顶级流派)。
features.csv:用 librosa 提取的常用特征。
echonest.csv:由 Echonest(现在的 Spotify)为 13,129 首音轨的子集提供的音频功能。
大小:〜1000 GB
记录数量:约 100,000 个轨道
SOTA:学习从音频中识别音乐风格https://arxiv.org/pdf/1803.05337.pdf
http://mtg.upf.edu/ismir2004/contest/tempoContest/node5.html
该数据集包含舞曲音频文件,以真实音频格式进行了许多舞蹈风格的一些特征摘录。以下是该数据集的一些特征:
样本总数:698
持续时间:约 30 秒
总持续时间:约 20940 秒
大小:14GB(压缩)
记录数量:约 700 个音频样本
SOTA:A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles
https://pdfs.semanticscholar.org/0cc2/952bf70c84e0199fcf8e58a8680a7903521e.pdf
百万歌曲数据集(Million Song Dataset)
https://labrosa.ee.columbia.edu/millionsong/
百万歌曲数据集是一个包含一百万首当代流行音乐曲目的免费音频特征和元数据集合。其目的是:
鼓励对达到商业规模的算法进行研究
为评估研究提供参考数据集
作为使用 API 创建大型数据集的捷径(例如 The Echo Nest)
帮助新手研究人员入门 MIR 领域
该数据集的核心是一百万首歌曲的特征分析和元数据,它不包含任何音频,只包含派生的功能。示例音频可以通过使用哥伦比亚大学提供的代码从 7digital 等服务中获取。
大小:280 GB
记录数量:一百万首歌曲!
SOTA:Preliminary Study on a Recommender System for the Million Songs Dataset Challengehttp://www.ke.tu-darmstadt.de/events/PL-12/papers/08-aiolli.pdf
http://www.openslr.org/12/
该数据集是包含约 1000 小时时长英语语音的大型语料库。这些数据来自 LibriVox 项目的有声读物,已被合理分割并分配。如果你想找一个起点,请查看在 kaldi-asr.org 上训练好的声学模型和语言模型,而 http://www.openslr.org/11/ 适用于评估。
大小:〜60 GB
记录数:1000 小时的语音
SOTA:Letter-Based Speech Recognition with Gated ConvNetshttps://arxiv.org/abs/1712.09444
http://www.robots.ox.ac.uk/~vgg/data/voxceleb/
VoxCeleb 是一个大型的语音识别数据集。它包含从 YouTube 视频上收集的 1,251 位名人的约 10 万条语音。数据大致是性别均衡的(男性占 55%)。这些名人的口音、职业和年龄千差万别,开发和测试集之间没有重叠。识别出这些声音属于哪位明星可能是一个有趣的尝试。
大小:150 MB
记录数:1,251 位名人的 100,000 条语音
SOTA:VoxCeleb: a large-scale speaker identification datasethttps://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf
为了你们更好地训练,我们做了一份现实生活中会遇到的问题的列表。在这部分,我们列出了在我们的 DataHack 平台上遇到的深度学习实践问题。
https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/
以种族主义和性别歧视为形式的仇恨言论已成为 twitter 的麻烦,把这类推文与其他人隔离是很重要的工作。在这个实践问题中,我们提供了既包含正常又有仇恨推言论文的 Twitter 数据。作为数据科学家,你的任务是确定哪些推文是仇恨推文,哪些不是。
大小:3 MB
记录数量:31,962 条推文
https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/
对于所有深度学习爱好者来说,这是一个令人着迷的挑战。该数据集包含数千个印度演员的图像,你的任务是确定他们的年龄。所有图像都是手动从视频帧中剪切的,这导致演员的姿势、表情、光照、年龄、分辨率、遮挡和妆容的高度不确定性。
大小:48 MB(压缩)
记录数:训练集中的 19,906 幅图像和测试集中的 6636 幅图像
SOTA:深度学习——年龄检测问题的解决方案https://www.analyticsvidhya.com/blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/
https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/
这个数据集包含超过 8000 个、10 种类别的来自城市的声音片段,旨在介绍常见的音频处理分类方法。
大小:训练集 3GB(压缩),测试集 2 GB(压缩)
记录数量:来自 10 个种类的 8732 个来自城市的标注声音片段(<= 4s)
原文链接:https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/
如果你喜欢这篇文章,记得给我们留个言点个赞,给编辑小哥哥小姐姐们鼓励一下吧!