数据集资源分享!!!
1 数据集概念介绍
数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
dataset是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。每一行可以看做是一个样本。
通常情况下,数据集可以按不同类型分类,比如:
大数据集和小数据集
宽数据集(wide datasets)和高瘦数据集(tall skinny datasets)
大数据集和小数据集根据数据大小来划分,这个不用解释。
宽数据集,一般来说,就是列数比较多,行数比较少。说明样本量少,但每个样本的属性比较多。典型的此类数据集包括神经影像、基因组以及其他。这类数据集的特点是获得每个样本的成本会比较高。
高瘦数据集,一般来说,就是列数较少,而行数比较多。这类比较典型的就是互联网社交类数据,比如某宝用户数据信息,用户数量以亿计,每个用户的属性信息数量级则相对很小。
用图表来做个简单的示意,宽数据集和高瘦数据集如下:
2 数据集资源推荐
下面是重点,分享一些优秀的数据集资源给大家。
像python的一些库,ski-learn, seaborn等,本身带有少量的数据集,比如下面文章用到的“iris”数据集。
当然,这里首先推荐的是UCI的数据集。 UCI(University of California, Irvine)提供了很多数据集供大家使用,包括一些经典的数据集,比如“iris”,"Forest Fires"等。
UCI数据集的地址为:
http://archive.ics.uci.edu/ml/index.php
另外,在Quora上,也看到有个主题“Where can I find large datasets open to the public?”,很多人提供了许多优秀的资源,建议大家可以关注下。
这里,我搬运了一部分资源过来。
Cross-disciplinary data repositories, data collections and data search engines:
http://datasource.kapsarc.org
https://www.kaggle.com/datasets
http://www.assetmacro.com
http://usgovxml.com
http://aws.amazon.com/datasets
http://databib.org
http://datacite.org
http://figshare.com
http://linkeddata.org
http://reddit.com/r/datasets
http://thewebminer.com/
http://thedatahub.org alias http://ckan.net
http://quandl.com
Social Network Analysis Interactive Dataset Library (Social Network Datasets)
Datasets for Data Mining
http://enigma.io
http://www.ufindthem.com/
http://NetworkRepository.com - The First Interactive Network Data Repository
http://MLvis.com
Open Data Inception - A Comprehensive List of 2500+ Open Data Portals in the World
http://data.opendatasoft.com OpenDataSoft catalog
Single datasets and data repositories
http://archive.ics.uci.edu/ml/
http://crawdad.org/
http://data.austintexas.gov
http://data.cityofchicago.org
http://data.govloop.com
http://data.gov.uk/
data.gov.in
http://data.medicare.gov
http://data.seattle.gov
http://data.sfgov.org
http://data.sunlightlabs.com
https://datamarket.azure.com/
http://developer.yahoo.com/geo/g...
http://econ.worldbank.org/datasets
http://en.wikipedia.org/wiki/Wik...
http://factfinder.census.gov/ser...
http://ftp.ncbi.nih.gov/
http://gettingpastgo.socrata.com
http://googleresearch.blogspot.c...
http://books.google.com/ngrams/
http://medihal.archives-ouvertes.fr
http://public.resource.org/
http://rechercheisidore.fr
http://snap.stanford.edu/data/in...
http://timetric.com/public-data/
https://wist.echo.nasa.gov/~wist...
http://www2.jpl.nasa.gov/srtm
http://www.archives.gov/research...
http://www.bls.gov/
http://www.crunchbase.com/
http://www.dartmouthatlas.org/
http://www.data.gov/
http://www.datakc.org
http://dbpedia.org
http://www.delicious.com/jbaldwi...
http://www.faa.gov/data_research/
http://www.factual.com/
http://research.stlouisfed.org/f...
http://www.freebase.com/
http://www.google.com/publicdata...
http://www.guardian.co.uk/news/d...
http://www.infochimps.com
http://www.kaggle.com/
http://build.kiva.org/
http://www.nationalarchives.gov....
http://www.nyc.gov/html/datamine...
http://www.ordnancesurvey.co.uk/...
http://www.philwhln.com/how-to-g...
http://www.imdb.com/interfaces
http://imat-relpred.yandex.ru/en...
http://www.dados.gov.pt/pt/catal...
http://knoema.com
http://daten.berlin.de/
http://www.qunb.com
http://databib.org/
http://datacite.org/
http://data.reegle.info/
http://data.wien.gv.at/
http://data.gov.bc.ca
https://pslcdatashop.web.cmu.edu/ (interaction data in learning environments)
http://www.icpsr.umich.edu/icpsrweb/CPES/ - Collaborative Psychiatric Epidemiology Surveys: (A collection of three national surveys focused on each of the major ethnic groups to study psychiatric illnesses and health services use)
http://www.dati.gov.it
http://dati.trentino.it
http://www.databagg.com/
http://networkrepository.com - Network/ML data repository w/ visual interactive analytics
Home (United Nations Environment Programme Grid Genava a lot of GIS datasets
PS:由于微信公众号不支持超链接,我把部分数据集的链接放在github上了,各位可以在微信公众号后台回复"2017040"来获取(不是文章后留言)。
本期推荐阅读: