查看原文
其他

数据集资源分享!!!

LEMON Python数据之道 2022-09-04


1 数据集概念介绍

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。

dataset是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。每一行可以看做是一个样本。

通常情况下,数据集可以按不同类型分类,比如:

  1. 大数据集和小数据集

  2. 宽数据集(wide datasets)和高瘦数据集(tall skinny datasets)

大数据集和小数据集根据数据大小来划分,这个不用解释。

宽数据集,一般来说,就是列数比较多,行数比较少。说明样本量少,但每个样本的属性比较多。典型的此类数据集包括神经影像、基因组以及其他。这类数据集的特点是获得每个样本的成本会比较高。

高瘦数据集,一般来说,就是列数较少,而行数比较多。这类比较典型的就是互联网社交类数据,比如某宝用户数据信息,用户数量以亿计,每个用户的属性信息数量级则相对很小。

用图表来做个简单的示意,宽数据集和高瘦数据集如下:

2 数据集资源推荐

下面是重点,分享一些优秀的数据集资源给大家。

像python的一些库,ski-learn, seaborn等,本身带有少量的数据集,比如下面文章用到的“iris”数据集。

通过简单示例来理解什么是机器学习

当然,这里首先推荐的是UCI的数据集。 UCI(University of California, Irvine)提供了很多数据集供大家使用,包括一些经典的数据集,比如“iris”,"Forest Fires"等。

UCI数据集的地址为: 

http://archive.ics.uci.edu/ml/index.php

另外,在Quora上,也看到有个主题“Where can I find large datasets open to the public?”,很多人提供了许多优秀的资源,建议大家可以关注下。

这里,我搬运了一部分资源过来。

Cross-disciplinary data repositories, data collections and data search engines:

  1. http://datasource.kapsarc.org

  2. https://www.kaggle.com/datasets

  3. http://www.assetmacro.com

  4. http://usgovxml.com

  5. http://aws.amazon.com/datasets

  6. http://databib.org

  7. http://datacite.org

  8. http://figshare.com

  9. http://linkeddata.org

  10. http://reddit.com/r/datasets

  11. http://thewebminer.com/

  12. http://thedatahub.org alias http://ckan.net

  13. http://quandl.com

  14. Social Network Analysis Interactive Dataset Library (Social Network Datasets)

  15. Datasets for Data Mining

  16. http://enigma.io

  17. http://www.ufindthem.com/

  18. http://NetworkRepository.com - The First Interactive Network Data Repository

  19. http://MLvis.com

  20. Open Data Inception - A Comprehensive List of 2500+ Open Data Portals in the World

  21. http://data.opendatasoft.com OpenDataSoft catalog

Single datasets and data repositories

  1. http://archive.ics.uci.edu/ml/

  2. http://crawdad.org/

  3. http://data.austintexas.gov

  4. http://data.cityofchicago.org

  5. http://data.govloop.com

  6. http://data.gov.uk/

  7. data.gov.in

  8. http://data.medicare.gov

  9. http://data.seattle.gov

  10. http://data.sfgov.org

  11. http://data.sunlightlabs.com

  12. https://datamarket.azure.com/

  13. http://developer.yahoo.com/geo/g...

  14. http://econ.worldbank.org/datasets

  15. http://en.wikipedia.org/wiki/Wik...

  16. http://factfinder.census.gov/ser...

  17. http://ftp.ncbi.nih.gov/

  18. http://gettingpastgo.socrata.com

  19. http://googleresearch.blogspot.c...

  20. http://books.google.com/ngrams/

  21. http://medihal.archives-ouvertes.fr

  22. http://public.resource.org/

  23. http://rechercheisidore.fr

  24. http://snap.stanford.edu/data/in...

  25. http://timetric.com/public-data/

  26. https://wist.echo.nasa.gov/~wist...

  27. http://www2.jpl.nasa.gov/srtm

  28. http://www.archives.gov/research...

  29. http://www.bls.gov/

  30. http://www.crunchbase.com/

  31. http://www.dartmouthatlas.org/

  32. http://www.data.gov/

  33. http://www.datakc.org

  34. http://dbpedia.org

  35. http://www.delicious.com/jbaldwi...

  36. http://www.faa.gov/data_research/

  37. http://www.factual.com/

  38. http://research.stlouisfed.org/f...

  39. http://www.freebase.com/

  40. http://www.google.com/publicdata...

  41. http://www.guardian.co.uk/news/d...

  42. http://www.infochimps.com

  43. http://www.kaggle.com/

  44. http://build.kiva.org/

  45. http://www.nationalarchives.gov....

  46. http://www.nyc.gov/html/datamine...

  47. http://www.ordnancesurvey.co.uk/...

  48. http://www.philwhln.com/how-to-g...

  49. http://www.imdb.com/interfaces

  50. http://imat-relpred.yandex.ru/en...

  51. http://www.dados.gov.pt/pt/catal...

  52. http://knoema.com

  53. http://daten.berlin.de/

  54. http://www.qunb.com

  55. http://databib.org/

  56. http://datacite.org/

  57. http://data.reegle.info/

  58. http://data.wien.gv.at/

  59. http://data.gov.bc.ca

  60. https://pslcdatashop.web.cmu.edu/ (interaction data in learning environments)

  61. http://www.icpsr.umich.edu/icpsrweb/CPES/ - Collaborative Psychiatric Epidemiology Surveys: (A collection of three national surveys focused on each of the major ethnic groups to study psychiatric illnesses and health services use)

  62. http://www.dati.gov.it

  63. http://dati.trentino.it

  64. http://www.databagg.com/

  65. http://networkrepository.com - Network/ML data repository w/ visual interactive analytics

  66. Home (United Nations Environment Programme Grid Genava a lot of GIS datasets

PS:由于微信公众号不支持超链接,我把部分数据集的链接放在github上了,各位可以在微信公众号后台回复"2017040"来获取(不是文章后留言)。

本期推荐阅读:

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存