查看原文
其他

面面俱到,这 23 个公共数据集赶紧Mark起来!

CSDN 2021-08-26
者 | Nikola M. Zivkovic
译者 | 弯月     责编 | 晋兆雨
出品 | CSDN(ID:CSDNnews)
巧妇难为无米之炊,机器学习或深度学习的开发者常常为寻找合适的训练数据集而烦恼,除了常用的 Iris 数据集示例外,机器学习和深度学习领域还有哪些公共数据集呢?本文作者介绍一些个人最喜欢的 23 个数据集。不仅会介绍数据集和样本,而且还会介绍使用这些数据集的一些注意事项。

帕尔默企鹅数据集(Palmer Penguin Dataset)

1.1 数据集

这是迄今为止我最喜欢的数据集。如果你厌倦了 Iris 数据集,不妨试试这个。该数据集由 Kristen Gorman 博士与帕尔默站(美国设立的南极科学考察站)共同创建。该数据集由两个数据集组成,每个数据集包含 344 只企鹅的数据。

图源:rubikscode

与 Iris 数据集类似,该数据集包含来自帕尔默群岛 3 个岛屿的 3 种不同种类的企鹅。这三种企鹅分别是阿德利企鹅(Adelie)、颊带企鹅(Chinstrap)和巴布亚企鹅(Gentoo)。“Gentoo”听起来是不是很耳熟?因为 Gentoo Linux 就是以它命名的!另外,这些数据集还包括每种企鹅的嘴峰长(自鸟嘴基生羽处至上喙先端的直线距离)。在简化版的企鹅数据中,嘴峰的长度和高度分别被重命名为变量 culmen_length_mm 和 culmen_depth_mm。

1.2 数据集样本

下面,我们来加载数据:
data = pd.read_csv(f".\\Datasets\\penguins_size.csv")data.head()

请注意,我们在数据可视化中使用了 Pandas 库。此外,我们加载的是一个简化版的数据集。

1.3 该数据集的适用范围

该数据集非常适合练习解决分类和聚类问题。你可以通过它尝试各种分类算法,例如决策树、随机森林、SVM,或对数据集进行调整后,用它来解决聚类问题和练习无监督学习。

1.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • 基本信息:https://allisonhorst.github.io/palmerpenguins/articles/intro.html
  • GitHub主页:https://github.com/allisonhorst/palmerpenguins
  • Kaggle主页:https://www.kaggle.com/parulpandey/palmer-archipelago-antarctica-penguin-data


共享单车需求数据集


这个数据集非常有趣。虽说对于初学者来说有点复杂,但正因如此,它可以作为很好的练习。该数据集包含美国华盛顿特区共享单车计划的自行车租赁需求数据。共享单车与租赁系统通常都是很好的信息来源。特别是,该数据集不仅包含有关出行持续时间、出发地点、到达地点和花费时间等信息,而且还包含每个特定时间和日期的天气信息。

2.2 数据集样本

下面,我们来加载数据:
data = pd.read_csv(f".\\Datasets\\hour.csv")data.head()
每天的数据:
data = pd.read_csv(f".\\Datasets\\day.csv")data.head()

2.3 该数据集的适用范围

由于该数据集包含的信息种类繁多,因此非常适合练习解决回归问题。你可以尝试多元线性回归或神经网络。

2.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • UCI主页:https://archive.ics.uci.edu/ml/datasets/bike+sharing+dataset
  • Kaggle主页:https://www.kaggle.com/c/bike-sharing-demand


葡萄酒分类数据集


这是一个非常经典的数据集,特别是如果你喜欢种葡萄或希望成为侍酒师的话。该数据集由两个数据集组成。两者都包含来自葡萄牙 Vinho Verde 地区的葡萄酒的化学计量,一个记录的是红葡萄酒,另一个是白葡萄酒。由于隐私限制,该数据集中不包含有关葡萄种类、葡萄酒品牌、葡萄酒售价的数据,但是包含了关于葡萄酒质量的信息。

3.2 数据集样本

下面,我们来加载数据:
data = pd.read_csv(f".\\Datasets\\winequality-white.csv")data.head()

3.3 该数据集的适用问题

该数据集非常适合解决多元分类问题,也可用于回归问题。由于数据集中的类别不平衡(例如,正常葡萄酒的数量超过了优质或劣质的葡萄酒),因此非常适合不平衡数据集的分类问题。除此之外,并非所有特征都是相关的,因此也可用于练习特征工程和特征选择。

3.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • 基本信息:https://www.vinhoverde.pt/en/about-vinho-verde
  • UCI主页:https://archive.ics.uci.edu/ml/datasets/Wine+Quality


波士顿住房数据集


这个老牌数据集非常经典。许多教程、示例和书籍都使用了波士顿住房数据集,当然理由也非常充分。该数据集由 14 个特征组成,包含美国人口普查局收集的有关马萨诸塞州波士顿地区住房的信息。这是一个只有 506 个样本的小数据集。

4.2 数据集样本

下面,我们来加载数据:
data = pd.read_csv(f".\\Datasets\\boston_housing.csv")data.head()

4.3 该数据集的适用范围

该数据集非常适合练习解决回归任务。请注意,由于这个数据集很小,所以你会得到乐观的结果。

4.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • 基本信息:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
  • Kaggle主页:https://www.kaggle.com/c/boston-housing


电离层数据集(Ionosphere Dataset)


这个数据集也有一些年头了,它诞生于1989年。但是,该数据集非常有趣,其中包含由加拿大拉布拉多鹅湾的雷达系统收集的数据。该系统由 16 个高频天线的相控阵列组成,旨在检测电离层中的自由电子。一般来说,电离层有两种类型的结构:“好”与“坏”。这些雷达检测到这些结构并传递信号。该数据集包含 34 个自变量和 1 个因变量,以及总共 351 个观测值。

5.2 数据集样本

下面,我们来加载数据:
data = pd.read_csv(f".\\Datasets\\ionsphere.csv")data.head()

5.3 该数据集的适用问题

很显然,该数据集非常适合解决二元分类问题。有趣的是,这是一个不平衡的数据集,所以你也可以进行相应的练习。此外,想在该数据集上实现高精度并不容易,基准表现大约为64%,最高精度为94%左右。

5.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • UCI主页:https://archive.ics.uci.edu/ml/datasets/Ionosphere


Fashion MNIST数据集


MNIST 数据集是一个有名的练习图像分类和图像识别的数据集。但是,它有点过度使用了。如果你想要一个简单的数据集来练习图像分类,则可以试试 FashionMNIST。你可以利用这个数据集解决机器学习终极指南中的图像分类示例。
本质上,这个数据集是 MNIST 数据集的变体,它与 MNIST 数据集具有相同的结构,其中包含由 60,000 个服装图像样本组成的训练集和由 10,000  个服装图像样本组成的测试集。所有图像都经过了尺寸的标准化以及居中处理。图像的大小固定为 28×28,因此基本上不需要进行图像预处理。有些框架(如 TensorFlow 或 PyTorch)中包含了该数据集。

6.2 数据集样本

下面,我们来看看示例样本:

6.3 该数据集的适用问题

该数据集非常适合图像分类和图像生成任务。你可以使用简单的卷积神经网络(CNN)进行尝试,或者使用生成对抗网络 (GAN)来生成图像。

6.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • GitHub主页:https://github.com/zalandoresearch/fashion-mnist
  • Kaggle主页:https://www.kaggle.com/zalando-research/fashionmnist


猫、狗图像数据集


这是一个猫狗图像数据集,其中包含 23,262 张猫与狗的图像,用于二元图像分类。主文件夹下面还有两个文件夹:train1 和 test。
train1 文件夹包含训练图像,而 test 包含测试图像。请注意,图像名称以 cat 或 dog 开头。这些其实就是标签,这也意味着你可以利用这些名称定义目标。

7.2 数据集样本

下面,我们来看看示例样本:

7.3 该数据集的适用范围

该数据集主要有两种用途:首先,可用于练习图像分类以及对象检测;其次,相信每个人看到这些萌照都会尖叫不已。

7.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • 基本信息:https://www.microsoft.com/en-us/download/details.aspx?id=54765
  • Kaggle主页:https://www.kaggle.com/c/dogs-vs-cats


 威斯康星州乳腺癌(诊断)数据集


医疗保健行业使用机器学习和深度学习技术的人数正在稳步增加。如果你想试试看此类数据集,则可以考虑该数据集。该数据集中的数据是通过处理乳房肿块的细针穿刺的数字化图像提取出来的。每个特征都描述了数字化图像中发现的细胞核的特征。
该数据集由 569 个样本组成,其中包括 357 个良性样和 212 个恶性样本。该数据集中有三类特征,其中实数类型的特征最有用。它们是从数字化图像计算出来的,包含有关区域、细胞半径、纹理等信息。

8.2 数据集样本

下面,我们来加载数据:
data = pd.read_csv(f".\\Datasets\\breast-cancer-wisconsin.csv")data.head()

8.3 该数据集的适用范围

这是非常适合练习分类以及使用随机森林、SVM 等算法的医疗保健数据集之一。

8.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • kaggle主页:https://www.kaggle.com/uciml/breast-cancer-wisconsin-data
  • UCI主页:https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)


推特情绪分析与情感 Sentiment140 数据集


近年来,情绪分析成了监控和了解客户反馈的重要工具之一。这种检测消息和回复所携带潜在情感基调的方法已经完全自动化,这意味着企业可以更好、更快地了解客户的需求,并提供更好的产品和服务。
这种检测可以通过应用各种自然语言处理(NLP)技术来完成。这些数据集可以帮你练习此类技术,而且非常适合该领域的初学者。Sentiment140 包含通过 Twitter API 提取的 1,600,000 条推文。它们的结构略有不同。

9.2 数据集样本

下面,我们来加载数据:
data = pd.read_csv(f".\\Datasets\\training.1600000.processed.noemoticon.csv")data.head()

9.3 该数据集的适用范围

如前所述,这是一个用于情感分析的数据集。情感分析是最常见的文本分类工具。这是通过分析文本片段确定情感的过程,可确定情感是是积极的、消极的还是中性的。了解品牌和产品的社会情感是现代企业必不可少的工具之一。

9.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
Kaggle主页:
  • https://www.kaggle.com/c/twitter-sentiment-analysis2
  • https://www.kaggle.com/kazanova/sentiment140


BBC新闻数据集


这也是一个有趣的文本数据集。该数据集来自 BBC 新闻,由 2225 篇文章组成,每篇文章都有标签。一共 5 个类别:科技、商业、政治、娱乐和体育。该数据集非常均衡,每个类别的文章数量都差不多。

10.2 数据集样本

下面,我们来加载数据:
data = pd.read_csv(f".\\Datasets\\BBC News Train.csv")data.head()

10.3 该数据集的适用范围

该数据集非常适合文本分类。你也可以更进一步,分析每篇文章的情感。总的来说,该数据集适用于各种自然语言处理任务和实践。

10.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • Kaggle主页:https://www.kaggle.com/c/learn-ai-bbc


垃圾短信分类器数据集


垃圾邮件检测是互联网中最早使用的机器学习任务之一。这类任务也属于自然语言处理和文本分类。因此,如果你尝试解决这类问题,该数据集是一个不错的选择。而且该数据集非常适合初学者。
该数据集的来源有多个,比如 425 条垃圾短信(spam)是从 Grumbletext 网站上抓取的,3,375 条短信是从新加坡国立大学的 NUS SMS Corpus (NSC) 随机选择的非垃圾短信(ham),还有450 条短信是来自 Caroline Tag 的博士论文等。该数据集本身包含两列:标签(ham或spam)和原始文本。

11.2 数据集样本

下面,我们来看看示例样本:
ham What you doing?how are you?
ham Ok lar... Joking wif u oni...
ham dun say so early hor... U c already then say...
ham MY NO. IN LUTON 0125698789 RING ME IF UR AROUND! H*
ham Siva is in hostel aha:-.
ham Cos i was out shopping wif darren jus now n i called him 2 ask wat present he wan lor. Then he started guessing who i was wif n he finally guessed darren lor.
spam FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use from your phone now! ubscribe6GBP/ mnth inc 3hrs 16 stop?txtStop
spam Sunshine Quiz! Win a super Sony DVD recorder if you canname the capital of Australia? Text MQUIZ to 82277. B
spam URGENT! Your Mobile No 07808726822 was awarded a L2,000 Bonus Caller Prize on 02/09/03! This is our 2nd attempt to contact YOU! Call 0871-872-9758 BOX95QU

11.3 该数据集的适用范围

顾名思义,该数据集最适合用于垃圾邮件检测和文本分类。此外,也经常用于工作面试。

11.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • UCI主页:https://archive.ics.uci.edu/ml/datasets/sms+spam+collection
  • Kaggle主页:https://www.kaggle.com/uciml/sms-spam-collection-dataset


CelebA 数据集


如果你想研究面部检测解决方案、构建面部生成器或创建深度伪造模型,那么该数据集是最佳选择。该数据集拥有 20 多万张名人的照片,每张图像包含 40 个属性注释,可以为你的研究项目提供一个很好的起点。此外,它还包括姿势与背景变化。

12.2 数据集样本

下面,我们来看看示例样本:

12.3 该数据集的适用范围

该数据集可以解决多个问题。首先,可用于解决各种面部识别与计算机视觉问题;其次,还可用于使用不同的生成算法生成图像;最后,你还可以利用它来开发新的深度伪造模型或深度伪造检测模型。

12.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • 基本信息:http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html


YouTube-8M 数据集


这是最大的多标签视频分类数据集。由 Google 创建,拥有 800 万个带有注释和 ID 的分类 YouTube 视频。注释由 YouTube 视频注释系统创建,使用了 48000 个视觉实体的词汇表。该词汇表也可供下载。
请注意,该数据集还提供了 TensorFlow Record 文件格式。除此之外,该数据集还有一个扩展:YouTube-8M Segments 数据集,其中包含经过人工检验的分类注释。

13.2 数据集样本

以下命令可以下载该数据集:
mkdir -p ~/yt8m/2/frame/traincd ~/yt8m/2/frame/traincurl data.yt8m.org/download.py | partition=2/frame/train mirror=us python

13.3 该数据集的适用范围

你可以使用该数据集执行多种操作。你可以通过该数据集开发分类算法,因为它提供了准确的标签。
此外,你还可以创建低成本的视频分类模型。最后,你还可以寻找并分享特定的视频片段(即时间概念定位)。

13.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • 基本信息:https://arxiv.org/abs/1609.08675
  • 下载:http://research.google.com/youtube8m/


亚马逊评论数据集


情感分析是最常见的文本分类工具,我们可以通过分析文本确定情感:积极的、消极的还是中性的。了解客户对品牌、产品或服务情感,同时监控在线对话是现代商业的基本工具之一,而情感分析是实现这一目标的第一步。该数据集来自亚马逊的产品评论与元数据,包括 1996 年 5 月~ 2018 年 10 月的 2.331 亿条评论。

14.2 该数据集的适用范围

该数据集非常适合创建产品情感分析的入门模型,你可以使用它来快速创建可用于生产的模型。

14.3 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • 基本信息与下载链接:https://jmcauley.ucsd.edu/data/amazon/


钞票认证数据集


这是一个有趣的数据集。你可以使用它来构建检测真/伪钞的解决方案。该数据集包含大量从数字化图像中提取的数据。这些图像都是通过工业相机(一般用于印刷检查)创建的。图像为 400 x 400 像素,该数据集非常整洁,包含 1372 个示例且没有缺失值。

15.2 数据集样本

下面,我们来加载数据:
data = pd.read_csv(f".\\Datasets\\data_banknote_authentication.csv")data.head()

15.3 该数据集的适用问题

该数据集非常适合二元分类与各种算法。此外,你还可以修改它,并用它来处理聚类,以及建立无监督学习的聚类算法。

15.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • UCI主页:https://archive.ics.uci.edu/ml/datasets/banknote+authentication#
  • Kaggle主页:https://www.kaggle.com/ritesaluja/bank-note-authentication-uci-data


LabelMe 数据集


LabelMe 也是一个计算机视觉数据集,这是一个带有真实标签的大型图像数据库,可用于物体检测和识别。注释有两个不同的来源,其中之一是 LabelMe 在线注释工具。
你可以通过 LabelMe Matlab 工具箱下载所有图像,也可以在线使用图像。

16.2 数据集样本

下面是一个带有标签的数据:

16.3 该数据集的适用范围

该数据集非常适合物体检测和物体识别。

16.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • 基本信息与下载链接:http://labelme.csail.mit.edu/Release3.0/index.php


Sonar 数据集


如果你对地质学感兴趣,那么可以尝试一下这个数据集。它由声纳信号构成,包含两部分:第一部分名为“sonar.mines”,包含 111 个模式,这些模式是在不同角度和不同条件下由金属圆柱体反射声纳信号生成的;第二部分名为“sonar.rocks”,由 97 个模式组成,同样是通过反射声纳信号获得的,但这部分是在岩石上完成的。这是一个不平衡的数据集,包含 208 个示例、60 个输入特征和一个输出特征。

17.2 数据集样本

下面,我们来加载数据:
data = pd.read_csv(f".\\Datasets\\sonar.csv")data.head()

17.3 该数据集的适用范围

该数据集非常适合二元分类,目标是检测输入是 mine 还是 rock,最高的准确率为 88%。

17.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • 基本信息:https://www.is.umk.pl/projects/datasets.html#Sonar
  • UCI主页:https://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+(Sonar,+Mines+vs.+Rocks)


皮马印第安人糖尿病数据集

这也是一个用于实践分类的医疗保健数据集,来自美国国家糖尿病、消化和肾脏疾病研究所。目标是根据某些诊断度量预测患者是否患有糖尿病。
该数据集包含 768 个观测值,具有 8 个输入特征和 1 个输出特征。它不是一个平衡的数据集,而且缺失值都被替换为 0。

18.2 数据集样本

下面,我们来加载数据:
data = pd.read_csv(f".\\Datasets\\pima-indians-dataset.csv")data.head()

18.3 该数据集的适用范围

该数据集适合二元分类问题。

18.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • 基本信息:https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.names
  • Kaggle主页:https://www.kaggle.com/uciml/pima-indians-diabetes-database


小麦种子数据集


这个数据集非常有趣,而且很简单,非常适合初学者,可以用它来代替 Iris 数据集。该数据集包含三种小麦品种的种子信息:卡马小麦(Kama)、罗萨小麦(Rosa) 和 加拿大小麦(Canadian)。这是是一个平衡的数据集,每个类别包含 70 个实例。数据是使用软 X 射线技术检测小麦内核结构得出的测量值。

19.2 数据集样本

下面,我们来加载数据:
data = pd.read_csv(f".\\Datasets\\seeds_dataset.csv")data.head()

19.3 该数据集的适用范围

可以利用该数据集尝试解决问题类题。

19.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • UCI主页:https://archive.ics.uci.edu/ml/datasets/seeds
  • Kaggle主页:https://www.kaggle.com/jmcaro/wheat-seedsuci


《危险边缘》 问题数据集


这是一个漂亮的数据集,包含 216,930 个 危险问题及其答案和其他数据,可用于自然语言处理项目。除了问题和答案,该数据集还包含有关问题类别和价值的信息。

20.2 数据集样本

下面,我们来加载数据:
data = pd.read_csv(f".\\Datasets\\joepardy.csv")data.head()

20.3 该数据集的适用范围

这是一个丰富的数据集,用途有很多种。可以运行分类算法,并预测问题的类别或问题的价值。但是,该数据集最出圈的用途是训练 BERT 模型。

20.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • Kaggle主页:https://www.kaggle.com/tunguz/200000-jeopardy-questions


鲍鱼数据集


这是一个面向多分类问题的数据集,但也用作回归问题。目标是预测鲍鱼的年龄。该数据集不平衡,拥有4,177 个实例,8 个输入变量和 1 个输出变量。

21.2 数据集样本

下面,我们来加载数据:
data = pd.read_csv(f".\\Datasets\\abalone.csv")data.head()

21.3 该数据集的适用范围

该数据集主要有两个用途:回归任务和分类任务。你可以利用它构建多元线性回归、SVM、随机森林等算法,或者构建一个可以解决此类问题的神经网络。

21.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • UCI主页:https://archive.ics.uci.edu/ml/datasets/abalone
  • Kaggle主页:https://www.kaggle.com/rodolfomendes/abalone-dataset


虚假新闻数据集


在我们的生活中,虚假新闻、深度造假和其他类型的欺骗满天飞,无论我们喜欢与否。该数据集非常适合自然语言处理任务,其中包含标记的真实和虚假新闻,以及新闻主体和作者。

22.2 数据集样本

下面,我们来加载数据:
data = pd.read_csv(f".\\Datasets\\fake_news\\train.csv")data.head()

22.3 该数据集的适用范围

该数据集适合自然语言处理文本分类任务。

22.4 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • Kaggle主页:https://www.kaggle.com/c/fake-news/overview


ImageNet 数据集


最后一个重要的数据库是计算机视觉数据集之王:ImageNet。该数据集是所有深度学习和计算机视觉突破性发展的基准。没有它,就没有如今深度学习的世界。ImageNet 是一个按照 WordNet 层次结构组织的大型图像数据库,其中的每一个实体都由一组名为 synset 的单词与短语来描述。每个 synset 都包含大约 1000 个图像,层次结构的每个节点都包含成百上千的图像。

23.2 该数据集的适用问题

它是学术与研究领域的首选数据集,主要任务是图像分类,但是也可用于各种不同的任务。

23.3 参考资源

你可以通过以下链接,找到有关该数据集的更多信息:
  • 官方网站:https://image-net.org/
原文链接:https://rubikscode.net/2021/07/19/top-23-best-public-datasets-for-practicing-machine-learning/
声明:本文由CSDN翻译,转载请注明来源。 


小米手机在欧洲首次登顶,市场份额超越苹果;腾讯推出游戏“双减双打”新措施;三星成全球最大芯片厂商|极客头条

SOA+AIOT=无限可能,上汽零束AIOT沙龙上海站火热报名中

危!Python 官方存储库 PyPI 再成“祸源”?

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存