查看原文
其他

AWS 上可用的公用数据集,任何人都可以免费访问

2018-04-03 AWS AI研习社

AWS 托管了各种公用数据集,且任何人都可以免费访问。

过去,查找、下载、自定义和分析卫星图像或基因组数据等大型数据集需要几个小时或几天的时间。当数据在 AWS 上公开提供后,任何人都可以分析任意数量的数据,而无需自行下载或存储这些数据。您可以使用 AWS 计算和数据分析产品 (包括 Amazon EC2、Amazon Athena、AWS Lambda 和 Amazon EMR) 来分析这些数据集。

  地理空间和环境数据集

在 AWS 上的地球页面了解更多有关如何使用 AWS 上的地理空间数据的信息。

  • AWS 上的 Landsat:地球陆地卫星图像集合,持续采集由 Landsat 8 卫星拍摄的卫星图像。

    http://amazonaws-china.com/public-data-sets/landsat/

  • AWS 上的 Sentinel-2:地球陆地卫星图像集合,持续采集由 Sentinel-2 卫星拍摄的卫星图像。

    https://amazonaws-china.com/public-datasets/sentinel-2/

  • AWS 上的 GOES:GOES 可以持续提供北美的气候影像并监控该地区的气象和太空环境数据。

    https://amazonaws-china.com/cn/public-datasets/goes/

  • AWS 上的 SpaceNet:包含商业卫星图像和带标签的训练数据的语料库,用于促进计算机视觉算法的创新发展。

    http://amazonaws-china.com/public-data-sets/spacenet/

  • AWS 上的 OpenStreetMap:OSM 是一款免费的可编辑世界地图服务,由志愿者创建和维护。可定期在 Amazon S3 中对 OSM 数据进行存档。

    https://amazonaws-china.com/cn/public-datasets/osm/

  • AWS 上的 MODIS:从美国地质调查局和美国航空航天局管理的中等分辨率成像光谱仪 (MODIS) 中选择产品。

    https://amazonaws-china.com/public-datasets/modis/

  • Terrain Tiles:一个全球数据集,提供裸地地形高度,平铺显示以便于使用,在 S3 上提供。

    https://amazonaws-china.com/cn/public-datasets/terrain/

  • NAIP:在美国大陆农作物生长季节捕获的 1 米航空图像

    https://amazonaws-china.com/cn/public-datasets/naip/

  • AWS 上的 NEXRAD:来自下一代气象雷达 (NEXRAD) 网络的实时和存档数据。

    https://amazonaws-china.com/cn/public-datasets/nexrad/

  • NASA NEX:由美国航空航天局维护的地球科学数据集,包括气候变化预测和地球表面的卫星图像。

    http://amazonaws-china.com/nasa/nex/

  • 哥伦比亚特区激光雷达:华盛顿特区的激光雷达点云数据。

    https://amazonaws-china.com/public-datasets/dc-lidar/

  • EPA 风险筛选环境指标:从 EPA 风险筛选环境指标 (RSEI) 模型得出的详细空气模型结果。

    https://amazonaws-china.com/public-datasets/epa-rsei/

  • HIRLAM 气象模型:HIRLAM (高分辨率有限区域模型) 是一个由芬兰气象研究所管理的实际天气和中尺度气象预测模型。

    https://amazonaws-china.com/public-datasets/fmi-hirlam/

  基因组和生命科学数据集

了解更多有关云中基因组的信息。

  • 1000 Genomes Project:人类遗传变异详图。

    https://amazonaws-china.com/1000genomes/

  • AWS 上的 TCGA:来自 The Cancer Genome Atlas (TCGA) 的原有的及处理过的基因组、转录组和表观基因组数据,可供符合条件的研究人员通过癌症基因组云进行访问。

    http://amazonaws-china.com/public-data-sets/tcga/

  • AWS 上的 ICGC:完整的基因组序列数据,可供符合条件的研究人员通过国际癌症基因组联盟 (ICGC) 访问。

    http://amazonaws-china.com/public-data-sets/icgc/

  • 3000 Rice Genome on AWS:3024 种大米的基因排序。

    https://amazonaws-china.com/public-data-sets/3000-rice-genome/

  • Genome in a Bottle (GIAB):有助于将整个人类基因组序列投入医学实践的某些参考基因组。

    https://amazonaws-china.com/cn/public-datasets/giab/

  机器学习数据集

了解更多有关 AWS 上人工智能和机器学习的信息。

  • Common Crawl:包含超过 50 亿网页的 Web 爬取数据语料库。

    https://amazonaws-china.com/public-data-sets/common-crawl/

  • Amazon Bin Image Dataset:拥有超过 500000 个 bin JPEG 图像和对应的 JSON 元数据文件,描述了正在运营的亚马逊运营中心中的产品。

    https://amazonaws-china.com/public-datasets/amazon-bin-images/

  • GDELT:超过 2.5 亿条记录,可从几乎每个国家/地区的每个角落监控全球的广播、出版物和 Web 新闻,每天更新。

    https://amazonaws-china.com/public-datasets/gdelt/

  • Multimedia Commons:约 100M 的图像和视频的集合,附带影音功能和注释。

    http://amazonaws-china.com/public-data-sets/multimedia-commons/

  • Google Books Ngrams:包含 Google Books 的 n-gram 语料库的数据集。

    https://amazonaws-china.com/datasets/google-books-ngrams/

  • AWS 上的 SpaceNet:包含商业卫星图像和带标签的训练数据的语料库,用于促进计算机视觉算法的创新发展。

    http://amazonaws-china.com/public-data-sets/spacenet/

  金融数据

  • Deutsche Börse 公开数据集:来自 Deutsche Börse 市场交易系统的实时数据,免费向公众提供。

    https://amazonaws-china.com/public-datasets/deutsche-boerse-pds/

  监管和统计数据

  • AWS 上的 IRS 990 Filings:从 2011 年至今提交 IRS 的部分 990 电子报表中可以由计算机读取的数据。

    https://amazonaws-china.com/public-datasets/irs-990/

  • AWS 上的 ACS PUMS:使用资源描述框架 (RDF) 数据模型以链接数据格式提供美国人口普查美国社区调查 (ACS) 公用微数据样本 (PUMS)。

    https://amazonaws-china.com/public-datasets/us-census-acs/

  • AWS 上的 USAspending.gov:USAspending.gov 数据库包含联邦政府的所有开支数据,包括合同、津贴、贷款、员工薪资等。

    http://amazonaws-china.com/public-datasets/usaspending

算机视觉基础(从算法到实战应用)班

限时拼团,最后一周

已有100+人参加了此拼团

最高每人优惠200元!



新人福利



关注 AI 研习社(okweiwu),回复  1  领取

【超过 1000G 神经网络 / AI / 大数据资料】



亚马逊 Alexa Prize 比赛冠军团队专访:聊天机器人的突破与创新

▼▼▼

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存