其他
面面俱到,这 23 个公共数据集赶紧Mark起来!
帕尔默企鹅数据集(Palmer Penguin Dataset)
1.1 数据集
图源:rubikscode
1.2 数据集样本
data = pd.read_csv(f".\\Datasets\\penguins_size.csv")
data.head()
1.3 该数据集的适用范围
1.4 参考资源
基本信息:https://allisonhorst.github.io/palmerpenguins/articles/intro.html GitHub主页:https://github.com/allisonhorst/palmerpenguins Kaggle主页:https://www.kaggle.com/parulpandey/palmer-archipelago-antarctica-penguin-data
共享单车需求数据集
2.2 数据集样本
data = pd.read_csv(f".\\Datasets\\hour.csv")data.head()
data = pd.read_csv(f".\\Datasets\\day.csv")data.head()
2.3 该数据集的适用范围
2.4 参考资源
UCI主页:https://archive.ics.uci.edu/ml/datasets/bike+sharing+dataset Kaggle主页:https://www.kaggle.com/c/bike-sharing-demand
葡萄酒分类数据集
3.2 数据集样本
data = pd.read_csv(f".\\Datasets\\winequality-white.csv")data.head()
3.3 该数据集的适用问题
3.4 参考资源
基本信息:https://www.vinhoverde.pt/en/about-vinho-verde UCI主页:https://archive.ics.uci.edu/ml/datasets/Wine+Quality
波士顿住房数据集
4.2 数据集样本
data = pd.read_csv(f".\\Datasets\\boston_housing.csv")
data.head()
4.3 该数据集的适用范围
4.4 参考资源
基本信息:https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html Kaggle主页:https://www.kaggle.com/c/boston-housing
电离层数据集(Ionosphere Dataset)
5.2 数据集样本
data = pd.read_csv(f".\\Datasets\\ionsphere.csv")data.head()
5.3 该数据集的适用问题
5.4 参考资源
UCI主页:https://archive.ics.uci.edu/ml/datasets/Ionosphere
Fashion MNIST数据集
6.2 数据集样本
6.3 该数据集的适用问题
6.4 参考资源
GitHub主页:https://github.com/zalandoresearch/fashion-mnist Kaggle主页:https://www.kaggle.com/zalando-research/fashionmnist
猫、狗图像数据集
7.2 数据集样本
7.3 该数据集的适用范围
7.4 参考资源
基本信息:https://www.microsoft.com/en-us/download/details.aspx?id=54765 Kaggle主页:https://www.kaggle.com/c/dogs-vs-cats
威斯康星州乳腺癌(诊断)数据集
8.2 数据集样本
data = pd.read_csv(f".\\Datasets\\breast-cancer-wisconsin.csv")
data.head()
8.3 该数据集的适用范围
8.4 参考资源
kaggle主页:https://www.kaggle.com/uciml/breast-cancer-wisconsin-data UCI主页:https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)
推特情绪分析与情感 Sentiment140 数据集
9.2 数据集样本
data = pd.read_csv(f".\\Datasets\\training.1600000.processed.noemoticon.csv")data.head()
9.3 该数据集的适用范围
9.4 参考资源
https://www.kaggle.com/c/twitter-sentiment-analysis2 https://www.kaggle.com/kazanova/sentiment140
BBC新闻数据集
10.2 数据集样本
data = pd.read_csv(f".\\Datasets\\BBC News Train.csv")
data.head()
10.3 该数据集的适用范围
10.4 参考资源
Kaggle主页:https://www.kaggle.com/c/learn-ai-bbc
垃圾短信分类器数据集
11.2 数据集样本
11.3 该数据集的适用范围
11.4 参考资源
UCI主页:https://archive.ics.uci.edu/ml/datasets/sms+spam+collection Kaggle主页:https://www.kaggle.com/uciml/sms-spam-collection-dataset
CelebA 数据集
12.2 数据集样本
12.3 该数据集的适用范围
12.4 参考资源
基本信息:http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
YouTube-8M 数据集
13.2 数据集样本
mkdir -p ~/yt8m/2/frame/traincd ~/yt8m/2/frame/traincurl data.yt8m.org/download.py | partition=2/frame/train mirror=us python
13.3 该数据集的适用范围
13.4 参考资源
基本信息:https://arxiv.org/abs/1609.08675 下载:http://research.google.com/youtube8m/
亚马逊评论数据集
14.2 该数据集的适用范围
14.3 参考资源
基本信息与下载链接:https://jmcauley.ucsd.edu/data/amazon/
钞票认证数据集
15.2 数据集样本
data = pd.read_csv(f".\\Datasets\\data_banknote_authentication.csv")
data.head()
15.3 该数据集的适用问题
15.4 参考资源
UCI主页:https://archive.ics.uci.edu/ml/datasets/banknote+authentication# Kaggle主页:https://www.kaggle.com/ritesaluja/bank-note-authentication-uci-data
LabelMe 数据集
16.2 数据集样本
16.3 该数据集的适用范围
16.4 参考资源
基本信息与下载链接:http://labelme.csail.mit.edu/Release3.0/index.php
Sonar 数据集
17.2 数据集样本
data = pd.read_csv(f".\\Datasets\\sonar.csv")
data.head()
17.3 该数据集的适用范围
17.4 参考资源
基本信息:https://www.is.umk.pl/projects/datasets.html#Sonar UCI主页:https://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+(Sonar,+Mines+vs.+Rocks)
皮马印第安人糖尿病数据集
18.2 数据集样本
data = pd.read_csv(f".\\Datasets\\pima-indians-dataset.csv")
data.head()
18.3 该数据集的适用范围
18.4 参考资源
基本信息:https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.names Kaggle主页:https://www.kaggle.com/uciml/pima-indians-diabetes-database
小麦种子数据集
19.2 数据集样本
data = pd.read_csv(f".\\Datasets\\seeds_dataset.csv")
data.head()
19.3 该数据集的适用范围
19.4 参考资源
UCI主页:https://archive.ics.uci.edu/ml/datasets/seeds Kaggle主页:https://www.kaggle.com/jmcaro/wheat-seedsuci
《危险边缘》 问题数据集
20.2 数据集样本
data = pd.read_csv(f".\\Datasets\\joepardy.csv")
data.head()
20.3 该数据集的适用范围
20.4 参考资源
Kaggle主页:https://www.kaggle.com/tunguz/200000-jeopardy-questions
鲍鱼数据集
21.2 数据集样本
data = pd.read_csv(f".\\Datasets\\abalone.csv")
data.head()
21.3 该数据集的适用范围
21.4 参考资源
UCI主页:https://archive.ics.uci.edu/ml/datasets/abalone Kaggle主页:https://www.kaggle.com/rodolfomendes/abalone-dataset
虚假新闻数据集
22.2 数据集样本
data = pd.read_csv(f".\\Datasets\\fake_news\\train.csv")
data.head()
22.3 该数据集的适用范围
22.4 参考资源
Kaggle主页:https://www.kaggle.com/c/fake-news/overview
ImageNet 数据集
23.2 该数据集的适用问题
23.3 参考资源
官方网站:https://image-net.org/