查看原文
其他

生物信息神奇网站系列(十二):机器学习数据集

2018-02-23 王通 基因学苑

编者按

天天都被媒体的大数据,机器学习,人工智能忽悠,但是常言道“巧妇难为无米之炊”,要实现这些,数据才是重点;有时候想测试一些算法,手头没有现成的测试数据也比较麻烦。不过,加州大学欧文分校提供了一个机器学习的数据集,可以从中下载大量数据,用于机器学习研究。

专栏一:手把手教你生信分析平台搭建专栏合集

专栏二:

生物信息神奇网站系列(一):R绘图Gallery

生物信息神奇网站系列(二):Python绘图Gallery

生物信息神奇网站系列(三):Seqanswers

生物信息神奇网站系列(四):Biostars

生物信息神奇网站系列(五):文件格式解析

生物信息神奇网站系列(六):Omictools

生物信息神奇网站系列(七):Mybiosoftware

生物信息神奇网站系列(八):SCI-HUB

生物信息神奇网站系列(九):批量下载序列

生物信息神奇网站系列(十):生物数据库集合

生物信息神奇网站系列(十一):CodeSchool

十二:加州大学欧文分校机器学习数据集

http://archive.ics.uci.edu/ml/index.php


1、登录网站,可以看到“Welcome to the UC Irvine Machine Learning Repository!”。下面是对网站的一些介绍,目前收入418个数据集。


2、这些数据集可以根据多个维度进行分类,例如分析类型,数据类型,研究领域,属性,文件类型等,并且每个分类数据的数量。

3、我们可以使用Life Science分类下的数据,目前已经收录97个数据集。

4、这其中乳腺癌的数据集Breast比较常用,在多个利用机器学习进行诊断的案例中都会用到。点击Breast的连接就会看到这个数据集相关的内容。包括数据介绍以及FTP下载目录。

http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29


5、页面中会给出页面详细的介绍。



6、点击Download: Data Folder,链接到数据下载ftp页面,直接点击文件就可以下载了。

7、也可以鼠标右键点击,直接复制下载链接,直接在程序中进行下载,例如在R中,直接利用read.table()函数下载即可。


---------- END ----------

(添加作者微信,备注好单位+姓名)



您可能还会感兴趣的

手把手教你生信分析平台搭建专栏合集
《R语言入门与数据分析》视频教程上线了
Perl还是Python或者R
绘制manhanttan图
利用R绘制GO条目图
如何在Linux下优雅的装X
利用R实现vlookup
生物学才是终极学科


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存