癌症相关数据库专题-TCGA
TCGA简介TCGA线上使用TCGA数据再分析工具
TCGA简介
肿瘤基因组图谱计划(The Cancer Genome Atlas,TCGA)由美国National Cancer Institute(NCI)和 National Human Genome Research Institute(NHGRI)联合启动。TCGA使用高通量基因组技术旨在加深人类对癌症的分子机制的理解,进而提高人类对癌症的诊断、治疗和预防的能力。
TCGA于2006年正式启动,至2009年它主要重点关注3种肿瘤:多形性成胶质细胞瘤( glioblastoma multiforme)、肺癌及卵巢癌。目前TCGA数据已经了涵盖33种肿瘤类型,包括10种稀有肿瘤类型。
TCGA大致包含以下信息:
临床信息。每个癌症病人来了之后,会记录好他的临床信息,这个记录可以非常详细,年龄、性别、抽不抽烟、用过什么药、之前有没有被治疗过、什么发病原因、什么肿瘤时期、什么分型等等。
各种组学数据。同一个病人可能会测RNA-seq的、miRNA-seq、做甲基化芯片等等,但是并不是每个人每种都测了一遍,可能有人只测了RNA-seq,他就只有RNA-seq数据。另外,一个人可能既取了肿瘤组织,也取了远端的组织或者血液样本,这就是为什么会有normal的sample,但不一定每个人都取了,所以你会发现normal的样本总是很少,甚至没有。
TCGA线上使用
使用TCGA数据库找到乳腺癌的TCGA项目数据集中,受影响人数排名前100的基因。
打开TCGA主页https://portal.gdc.cancer.gov/,点击”Exploration“选项卡。
在打开页面的左边Cases选项卡中,分别选择Primary site:Breast,Project:TCGA-BRCA。Disease Type中只有一个亚型,可不选。
在此时的页面右侧,点击Genes,接着点击右下角Save/Edit Gene Set即可保存基因列表。
在出来的新页面中选择只保存前100个基因即可。
TCGA数据再分析工具
TCGA官网就可以做数据的分析工作,然而大多数文章并不是直接这么做的,官网分析更多的是用于超早期的概念探索,一些常见的TCGA分析工具有:
cbioportal
最出名,http://www.cbioportal.org/
特色:最基本的简单分析,基因突变、共表达/共突变的基因,下载数据也可以。
Ge-mini
特色:手机app,可随时查看,主要关注基因表达量的变化
UALCAN
最细致,http://ualcan.path.uab.edu/index.html
特色:1. 对肿瘤样本做了很细很专业的分组subgroup,生存分析、表达量都可以选择更细的亚型或临床表型做对比。
生存分析时,还能对比不同分期、性别、年龄、体重等临床特征。
OncoLnc
特色:可以做mRNA, miRNA, or lncRNA的生存分析
firebrowse
最人性化,http://www.firebrowse.org/
特色:1. 下载数据方便
图形化显示一起发生突变的基因,还能在网页上交互式的改图
参考资料:
TCGA肿瘤数据库使用训练(一)。解螺旋。
TCGA,她已经用了七年 | 资深用户深度点评。嘉因。
还有更多文章,请移步公众号阅读
如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。