干货,如何让科研小白快速进行数据挖掘
The following article is from 猫头鹰教室 Author 静夜谧思
数据挖掘一直都是个好东西,可以不做实验就可以给文章加几张图,挖掘的好的话,还可以直接发文章。但是对于像我这种科研小白来说,用各种复杂的代码去进行数据挖掘还是很难的,简单易行的挖掘神器更适合我,今天给大家推荐一款数据挖掘神器——TCGAportal。
进入TCGAportal网站,网址为http://tumorsurvival.org/。可以看到该网站相当简洁。
该网站目前已经收录了28种癌症数据,在这里我以乳腺癌为例,选择Breast,在下方会出现TCGA-BRCA数据集,点击进入,会出现搜索界面。
Gene Symbol:所查询基因的名称,这里以EGFR为例;
Data Set:数据集选择,在前一步中我们已经选择过TCGA-BRCA;
Devide Patient:对病人进行划分,既可以选定提示的划分方式,也可以自己设定,非常方便,这里我们选择median;
Subtype:肿瘤类型(在其他肿瘤中可能是肿瘤分期),乳腺癌大致可以划分为5大类,因此在这里可以任意选择,这里我们选择所有的乳腺癌类型。
点击submit,待刷新后,直接生成病人生存曲线可视化图片,同时,在旁边还由生存柱状图,这种图片是可以直接保存使用的。
如果你觉得不好看,没关系,点击右下角的Download,可以直接下载数据,自己进行生存曲线绘制(下载的数据也显示的很清楚,包括名称、肿瘤类型、基因表达量、存活状态和存活时间)。
在生存曲线的下方,还可以看到EGFR蛋白在乳腺癌各种不同亚型中的表达量,方便我们比较,同样数据也是可以下载的。
接着往下是基因表达和甲基化状态热图。
此外,还能显示出基因表达和突变情况。
此外,该网站还能对一些肿瘤中基因表达进行相关性分析,比如在结肠癌(colon)数据集TCGA-COAD中,在搜索界面会出现相关性分析。
点击submit后,会显示基因直接的相关性。
除了能对基因进行特定肿瘤类型分析,还网站还能进行Pan-cancer分析,点击Pan-cancer,在搜索界面输入待查询基因EGFR。
点击submit,可以获得该基因在不同类型肿瘤中以及正常组织中表达情况。
除了这些功能外,该网站还能进行功能富集分析,点击Tools,即可进入功能富集界面。