TCGA数据库讲解与数据下载
TCGA (The cancer genome atlas)是一个非常重要的癌症数据库,其主要收录各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。
TCGA官网:https://cancergenome.nih.gov/abouttcga/overview
01
数据等级
TCGA存储的数据可分为三个级别:
Level 1: 原始的测序数据(fasta,fastq等)
Level 2:比对好的bam文件
Level 3:为经过处理及标准化的数据
Level 1和Level 2文件很大,若要下载可使用官方提供的小工具:GDC Data Transfer Tool,然后自己重新比对来call mutation, 或者提取count data做差异表达分析(不适合懒人操作,且大多数人很难拿到权限,下面会说)。
02
数据权限
Level 1和Level 2数据为controlled-access(限制下载),Level 3有部分是controlled-access,其余是开放下载,若你想下载的数据level显示“Unauthorized”,则表示不能直接下载,需要先向TCGA申请使用权限。
比如:
理论上,限制下载的数据可以通过申请dbgap账号获得下载权限,但是申请这个账号需要NIH/NCI资格审核,且需要提供eRA account ID(在美国申请grant对应的ID),所以一般只有国外PI才可能申请通过。所以对小白来说这个基本是行不通的,小编建议还是乖乖下载3级数据。
03
三级数据下载
TCGA-3级数据下载网站主要有两个:
① TCGA官方的data-portal: portal.gdc.cancer.gov
优点:数据最全,更新最快
缺点:每个样本是一个单独的文件,如果下载某一个癌症的RNA数据,要下载好几百个文件,然后合并(嫌麻烦的往下翻,小编强力推荐方法②!!)。
下载方法介绍:
在主页搜索想要下载的癌症类型
以表达数据为例,可见LUAD共有515个case有RNA-Seq数据,点击进入。
左边可以对样本进行筛选,点击右侧数字可以下载表达数据(Exp),临床数据(Clinical)和Annotation(注释信息,可以找到样本ID对应的case,control情况)。
注意表达数据根据分为了HTSeq-Counts,HTSeq-FPKM,HTSeq-FPKM-UQ三种类型,Counts是数据后台没有处理的原始表达量,而FPKM和FPKM-UQ是两种数据标准化处理后的数据,一般差异表达下载counts,下载所有样本后合并,用DESeq即可。
FPKM,FPKM-UQ计算方法:
② Firehose服务器:gdac.broadinstitute.org
优点:数据也来源于 portal.gdc.cancer.gov,但是将同一种癌症、同种类型的数据合并到了一起,超级方便,一键下载,无需合并数据。
下载方法介绍:
点击LUAD对应的Data-Browse
稍等片刻,会弹出LUAD项目所有样本合并后的3级数据,需要什么数据点击文本即可下载,非常方便快捷。当然也可以下载临床数据等,各取所需了。
今天小编就为大家介绍这么多,当然还有其他下载方法,以及一些TCGA在线分析工具,不需要下载数据即可进行分析,小编下次再给大家介绍喽。
生信草堂
将会与更多的优秀微信公众号合作,把最优秀的微信推文呈现给大家,希望可以帮助读者更多的了解生信技术,培养和提高读者的生信分析能力!
号外,号外,号外
你想和生信分析大神做好朋友么?
你想认识更多爱好生信分析的小伙伴么?
你想让自己的生信分析走上快车道么?
那就赶快加入我们的微信群吧:生信草堂交流群
或加我们的微信,请标注“加入生信草堂”,我们会把您拉入我们的社区:Edison686868;mly-1800