查看原文
其他

机器学习 | 43种开源数据集(附地址/调用方法)

数据Seminar 2022-12-31

The following article is from 大数据DT Author 张春强 张和平 等

本文转载自公众号大数据DT(ID:hzdashuju)

作者:张春强 张和平 唐振

本文摘编自《机器学习:软件工程方法与实现》,经出版方授权发布



导读

学习机器学习是一个不断探索和实验的过程,因此,本文将主要介绍常见的开源数据集,便于读者学习和实验各种机器学习算法。




01 开源数据集介绍

在学习机器学习算法的过程中,我们经常需要数据来学习和试验算法,但是找到一组适合某种机器学习类型的数据却不那么方便。下文对常见的开源数据集进行了汇总。

1. UCI数据集
  • 类型:比较全面,各类型数据都有涉及
  • 网址:http://archive.ics.uci.edu/ml/datasets.php

2. Kaggle竞赛数据集
  • 类型:比较全面,各类型数据都有涉及
  • 网址:https://www.kaggle.com/datasets

3. ImageNet
  • 类型:计算机视觉数据
  • 网址:http://image-net.org/

4. VisualData
  • 类型:计算机视觉数据
  • 网址:https://www.visualdata.io/

5. MS COCO
  • 类型:计算机视觉数据
  • 网址:http://mscoco.org/

6. Stanford CoreNLP
  • 类型:情感分析数据
  • 网址:http://nlp.stanford.edu/sentiment/code.html

7. IMDB
  • 类型:情感分析数据
  • 网址:http://ai.stanford.edu/~amaas/data/sentiment/

8. Sentiment140
  • 类型:情感分析数据
  • 网址:http://help.sentiment140.com/for-students/

9. HotspotQA
  • 类型:自然语言处理
  • 网址:https://hotpotqa.github.io/

10. Enron Email
  • 类型:自然语言处理
  • 网址:https://www.cs.cmu.edu/~./enron/

11. Amazon
  • 类型:自然语言处理
  • 网址:https://snap.stanford.edu/data/web-Amazon.html

12. 百度Apolloscapes
  • 类型:自动驾驶
  • 网址:http://apolloscape.auto/

13. Berkeley DeepDrive
  • 类型:自动驾驶
  • 网址:http://bdd-data.berkeley.edu/

14. Robotcar
  • 类型:自动驾驶
  • 网址:http://robotcar-dataset.robots.ox.ac.uk/

15. Data.gov
  • 类型:公共政府数据集
  • 网址:https://www.data.gov/

16. Food Environment Atlas
  • 类型:公共政府数据集
  • 网址:https://catalog.data.gov/dataset/food-environment-atlas-f4a22

17. Annual Survey of School System Finances
  • 类型:公共政府数据集
  • 网址:https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

18. NCES
  • 类型:公共政府数据集
  • 网址:https://nces.ed.gov/

19. Data USA
  • 类型:公共政府数据集
  • 网址:http://datausa.io/

20. 中国国家统计局
  • 类型:公共政府数据集
  • 网址:http://www.stats.gov.cn/

21. Quandl
  • 类型:金融与经济数据集
  • 网址:https://www.quandl.com/

22. WorldBank
  • 类型:金融与经济数据集
  • 网址:https://data.worldbank.org/

23. IMF
  • 类型:金融与经济数据集
  • 网址:https://www.imf.org/en/Data

24. Markets
  • 类型:金融与经济数据集
  • 网址:https://markets.ft.com/data/

25. Google Trends
  • 类型:金融与经济数据集
  • 网址http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0

26. US Macro Regional
  • 类型:金融与经济数据集

  • 网址:https://www.aeaweb.org/resources/data/us-macro-regional

27. Google Audioset
  • 类型:语音数据集
  • 网址:https://research.google.com/audioset/

28. 2000 HUB5 English
  • 类型:语音数据集
  • 网址:https://catalog.ldc.upenn.edu/LDC2002T43

29. LibriSpeech
  • 类型:语音数据集
  • 网址:http://www.openslr.org/12/



02 scikit-learn中的数据集

scikit-learn是Python中进行数据挖掘和建模中常用的机器学习工具包。scikit-learn的datasets模块主要提供了一些导入、在线下载及本地生成数据集的方法。模块的主要函数如下所示:

  1. sklearn.datasets.load_<name>:自带数据集(数据量较小)
  2. sklearn.datasets.fetch_<name>:在线下载的数据集
  3. sklearn.datasets.make_<name>:生成指定类型的随机数据集
  4. sklearn.datasets.load_svmlight_file:svmlight/libsvm格式的数据集
  5. sklearn.datasets.fetch_mldata:mldata.org在线下载数据集

自带数据集的datasets模块里包含自带数据集,使用load_*加载即可,使用示例如下所示:

from sklearn.datasets import load_irisdata = load_iris()# 查看数据描述print(data.DESCR)X = data.datay = data.target
自带数据集的基本信息及序号30、31、32的自带数据集做简单的介绍如下。读者也可以使用data.DESCR,查看其英文描述。

30. 波士顿房价数据集
  • 调用方法:load_boston
  • 模型类型:回归
  • 数据规模(样本*特征):506*13
这个数据集包含了506处波士顿不同地理位置的房产的房价数据(因变量),房屋以及房屋周围的详细信息(自变量),其中包含城镇犯罪率、一氧化氮浓度、住宅平均房间数等13个维度的数据,波士顿房价数据集能够应用到回归问题上。波士顿房价数据集与属性描述如下所示:
  • CRIM:城镇人均犯罪率。
  • ZN:住宅用地超过25000平方英尺的比例。
  • INDUS:城镇非零售商用土地的比例。
  • CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。
  • NOX:一氧化氮浓度。
  • RM住宅平均房间数。
  • AGE:1940 年之前建成的自用房屋比例。
  • DIS:到波士顿五个中心区域的加权距离。
  • RAD:辐射性公路的接近指数。
  • TAX:每10000 美元的全值财产税率。
  • PTRATIO:城镇师生比例。
  • MEDV:自住房的平均房价,以千美元计。

31. 鸢尾花数据集
  • 调用方法:load_iris
  • 模型类型:分类
  • 数据规模(样本*特征):105*4
鸢尾花数据集是一个非常经典的数据集,著名的统计学家Fisher在研究判别分析问题时收集了一些关于鸢尾花的数据,包含了150个鸢尾花样本,对应3种鸢尾花,各50个样本,以及它们各自对应的4种关于外形的数据(自变量)。该数据集可用于多分类问题,测量数据如下所示。
  • sepal length (cm):萼片长度。
  • sepal width (cm):萼片宽度。
  • petal length (cm):花瓣长度。
  • petal width (cm):花瓣宽度。

类别共分为三类:Iris Setosa、Iris Versicolour和Iris Virginica。


32. 手写数字数据集
  • 调用方法:load_digits
  • 模型类型:分类
  • 数据规模(样本*特征):1797*64

这个数据集是结构化数据的经典数据,共有1797个样本,每个样本有64个元素,对应一个8×8像素点组成的矩阵,矩阵中值的范围是0~16,代表颜色的深度,控制每一个像素的黑白浓淡,所以每个样本还原到矩阵后代表一个手写体数字。


33. 糖尿病数据集
  • 调用方法:load_diabetes
  • 模型类型:回归
  • 数据规模(样本*特征):422*10

34. 葡萄酒数据集
  • 调用方法:Load_wine
  • 模型类型:分类
  • 数据规模(样本*特征):178*13

35. 乳腺癌数据集
  • 调用方法:load_breast_cancer
  • 模型类型:分类
  • 数据规模(样本*特征):569*30

36. 体能训练数据集
  • 调用方法:load_linnerud
  • 模型类型:多元回归
  • 数据规模(样本*特征):20*3
scikit-learn在线下载数据集的datasets模块包含在线下载数据集的方法,调用fetch_*接口从网络下载,示例如下所示:
from sklearn.datasets import fetch_20newsgroupsnewsgroups_train = fetch_20newsgroups(subset='train')newsgroups_test = fetch_20newsgroups(subset='test')
注意,fetch_*接口由于需要从国外网址下载数据,速度可能很慢!
在线下载数据集的基本信息如下所示:

37. Olivetti脸部图像数据集
  • 调用方法:fetch_olivetti_faces
  • 模型类型:降维
  • 数据规模(样本*特征):400*64*64

38. 20类新闻分类数据集(文本)
  • 调用方法:fetch_20newsgroups
  • 模型类型:分类
  • 数据规模(样本*特征):18846*1

39. 20类新闻文本数据集(特征向量)
  • 调用方法:fetch_20newsgroups_vectorized
  • 模型类型:分类
  • 数据规模(样本*特征):18846*130107

40. 带标签的人脸数据集
  • 调用方法:fetch_lfw_people
  • 模型类型:分类
  • 数据规模(样本*特征):13233*5828

41. 路透社新闻语料数据集
  • 调用方法:fetch_rcv1
  • 模型类型:分类
  • 数据规模(样本*特征):804414*47236

42. 加州住房数据集
  • 调用方法:fetch_california_housing
  • 模型类型:回归
  • 数据规模(样本*特征):20640*8

43. 森林植被
  • 调用方法:fetch_covtype
  • 模型类型:多分类
  • 数据规模(样本*特征):581012*54

scikit-learn包括用于以svmlight/libsvm格式加载数据集的实函数。在这种格式中,每一行都采用表格,此格式特别适用于稀疏数据集。在该模块中,使用SciPy稀疏CSR矩阵,并使用numpy数组,示例如下。svmlight / libsvm格式的公共数据集可以从网上下载。

网址:https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/

from sklearn.datasets import load_svmlight_file X_train , y_train = load_svmlight_file ("/ path / to / train_dataset.txt " )newsgroups_test = fetch_20newsgroups(subset='test')
openml.org是机器学习数据和实验的公共存储库,允许每个人上传开放数据集。sklearn.datasets能够从存储库下载数据集。示例如下:
from sklearn.datasets import fetch_openmlmice = fetch_openml(name='miceprotein', version=4)print(mice.DESCR) mice.url
更多数据集信息描述请查看官网:https://www.openml.org/search?type=data



关于作者


张春强,是一位具有3年C/C++、7年大数据和机器学习经验且富有创造力的技术专家,在技术一线摸爬滚打近10年,先后就职于大型IT、世界500强企业,目前就职于某大型金融科技集团,负责数据挖掘、机器学习相关工作的管理和研发。


张和平,现就职于某互联网金融集团科技公司,任大数据模型工程师,负责机器学习在金融风控和用户运营方面的应用工作,善于运用机器学习、数据挖掘、知识图谱和大数据技术解决实际的业务问题。在大数据风控建模、用户画像、大数据平台建设等方面有丰富的实践经验。








点击阅读原文进入CCAD数据库



·END·


星标⭐我们不迷路!

想要文章及时到,文末“在看”少不了!


点击搜索你感兴趣的内容吧


往期推荐


数据呈现 | 60种数据可视化图表使用场景及制作工具整理大全 !

好享学丨「跨越山河,踏遍万里」口说无凭。在这里我终于发现了所有故事的秘密

学术前沿丨2020年《管理世界》农经领域文章汇总

数据交流丨2020年《管理世界》上发的三农文章用的都是啥数据?(文末有免费数据资源)

软件应用 | 一张图就能彻底搞定Pandas!

好享学丨没想到我们与数据可视化,竟谈了场千年的恋爱!

学术前沿丨2020年《food policy》中国相关文章(文末送数据)








数据Seminar




这里是大数据、分析技术与学术研究的三叉路口



文丨大数据DT

推荐丨青酱



    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存