TCGA数据下载—TCGAbiolinks包参数详解
TCGA是目前使用最多的肿瘤组学数据库,虽然群主已经录制TCGA系列视频教程:
悄咪咪的上线了TCGA知识图谱视频教程(B站和YouTube直达) 里面也提到了各种下载工具,但是作为学徒的我,学习过后也有一些自己的心得,希望大家能喜欢我的教程!
今天我们介绍使用TCGAbiolinks包下载TCGA数据库的数据。TCGAbiolinks包是从TCGA数据库官网接口下载数据的R包。它的一些函数能够轻松地帮我们下载数据和整理数据格式。
其实就是broad研究所的firehose命令行工具的R包装!
最近才开始使用TCGAbiolinks这个包从TCGA数据库官网下载数据,发现很多参数不知道去哪里找,所以就查找资料总结了一下。以下载肝脏肝细胞癌(LIHC)
的count
值为例,下载数据最主要的一个函数是GDCquery()
。我们在R里运行:
> ?GDCquery
就像学习所有之前没用过的包一样,第一步永远是查看下 help
文档,里面介绍了各个参数,齁长~齁长的,不过没关系,我们一会儿进行一一介绍,也不是哪个都有用。
首先我们看下 help
文档里的Usage
部分:
Usage
GDCquery(project, data.category, data.type, workflow.type,
legacy = FALSE, access, platform, file.type, barcode,
experimental.strategy, sample.type)
发现GDCquery
函数一共有11个参数:
1.project
;
2.data.category
;
3.data.type
;
4.workflow.type
;
5.legacy = FALSE
;
6.access
;
7.platform
;
8.file.type
;
9.barcode
;
10.experimental.strategy
;
11.sample.type
其次我们看一下 help
文档里的Examples
部分:
query <- GDCquery(project = "TCGA-ACC",
data.category = "Copy Number Variation",
data.type = "Copy Number Segment")
注:GDCquery函数参数详解官网网址:
http://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html#useful_information
安装R包
老规矩,使用我们生信技能树的镜像切换大法,保证分分钟安装成功!
rm(list = ls())
options()$repos
options()$BioC_mirror
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options()$repos
options()$BioC_mirror
source("https://bioconductor.org/biocLite.R")
biocLite("TCGAbiolinks")
library("TCGAbiolinks")
介绍各参数
1.project
可以使用TCGAbiolinks:::getGDCprojects()$project_id)
得到各个癌种的项目id,总共有45个ID值。
如:将要下载的肝癌项目编号为project="TCGA-LIHC"
> TCGAbiolinks:::getGDCprojects()$project_id
[1] "TCGA-READ" "TARGET-CCSK" "TCGA-MESO" "TCGA-CHOL"
[5] "NCICCR-DLBCL" "TARGET-WT" "TCGA-TGCT" "TCGA-PRAD"
[9] "TCGA-LAML" "TCGA-ESCA" "TCGA-SARC" "TCGA-ACC"
[13] "TCGA-PAAD" "TCGA-BLCA" "TCGA-KICH" "FM-AD"
[17] "TCGA-LUSC" "TCGA-THYM" "TCGA-GBM" "TCGA-UCEC"
[21] "TCGA-COAD" "TCGA-LUAD" "TARGET-AML" "TARGET-NBL"
[25] "TCGA-DLBC" "TCGA-UVM" "TCGA-THCA" "TARGET-OS"
[29] "TCGA-LGG" "TCGA-STAD" "TCGA-LIHC" "TCGA-CESC"
[33] "TCGA-HNSC" "TCGA-KIRC" "VAREPOP-APOLLO" "TCGA-SKCM"
[37] "TCGA-BRCA" "TCGA-OV" "TCGA-PCPG" "CTSP-DLBCL1"
[41] "TCGA-UCS" "CPTAC-3" "TCGA-KIRP" "TARGET-RT"
[45] "TARGET-ALL-P3"
2.data.category
可以使用TCGAbiolinks:::getProjectSummary(project)
查看project
中有哪些数据类型,如查询"TCGA-LIHC"
,有7种数据类型(就是前面群主视频多次提到的数据类型),case_count
为病人数,file_count
为对应的文件数。小编要下载表达谱,所以设置data.category="Transcriptome Profiling"
> TCGAbiolinks:::getProjectSummary("TCGA-LIHC")
$`data_categories`
case_count file_count data_category
1 376 2122 Transcriptome Profiling
2 376 1537 Copy Number Variation
3 375 3032 Simple Nucleotide Variation
4 377 430 DNA Methylation
5 377 423 Clinical
6 377 1637 Sequencing Reads
7 377 1634 Biospecimen
$case_count
[1] 377
$file_count
[1] 10815
$file_size
[1] 1.729756e+13
3.data.type
筛选要下载的文件的数据类型。没有命令可以查看data.type
里都有哪些数据类型,但是根据官网连接,如下表图,和所查资料,我们可以总结出常用的data.type
都有:
#下载rna-seq的counts数据
data.type = "Gene Expression Quantification"
#下载miRNA数据
data.type = "miRNA Expression Quantification"
#下载Copy Number Variation数据
data.type = "Copy Number Segment"
这里下载表达谱为data.type = "Gene Expression Quantification"
4.workflow.type
不同的数据类型,有其对应的参数可供选择。
workflow.type
有三种类型分别为:
HTSeq - FPKM-UQ:FPKM上四分位数标准化值
HTSeq - FPKM:FPKM值/表达量值
HTSeq - Counts:原始count数
小编需要下载count数,所以workflow.type=“HTSeq - Counts”
。
5.legacy = FALSE
这个参数主要是因为TCGA数据有两个入口可以下载,GDC Legacy Archive
和 GDC Data Portal
,区别主要是注释参考基因组版本不同分别是:GDC Legacy Archive(hg19
和GDC Data Portal(hg38)
。参数默认为FALSE,下载GDC Data Portal(hg38)。这里小编的建议是,下载转录组层面的数据使用hg38,下载DNA层面的数据使用hg19,因为比如做SNP分析的时候很多数据库没有hg38版本的数据,都是hg19的。
6.access
数据开放和不开放,有两个参数:controlled
, open
。
我们这里使用:access=“open”
7.platform
这里涉及到的平台种类非常多,可以具体去官网看每种数据都有什么平台的可以下载。这个参数可以省略不设置。
8.file.type
主要是在GDC Legacy Archive下载数据的时候使用,可以参考官网说明。这里小编在GDC Data Portal下载数据,所以该参数省略不设置。
9.barcode
A list of barcodes to filter the files to download。可以根据这个参数设置只下载某个样本等。如:
barcode = c("TCGA-14-0736-02A-01R-2005-01", "TCGA-06-0211-02A-02R-2005-01")
10.experimental.strategy
两个下载入口参数选择
GDC Data Portal:WXS, RNA-Seq, miRNA-Seq, Genotyping Array.
Legacy: WXS, RNA-Seq, miRNA-Seq, Genotyping Array, DNA-Seq, Methylation array, Protein expression array, WXS,CGH array, VALIDATION, Gene expression array,WGS, MSI-Mono-Dinucleotide Assay, miRNA expression array, Mixed strategies, AMPLICON, Exon array, Total RNA-Seq, Capillary sequencing, Bisulfite-Seq
11.sample.type
A sample type to filter the files to download,可以对样本类型进行过滤下载。这里我要下载所有样本类型数据,不设置。部分值选择如下(全部可以查看官网):如sample.type = "Recurrent Solid Tumor"
下面我们开始下载数据:
根据上面的讲解,小编要下载的数据为LIHC,表达谱,count值,因此个参数设置如下:
#先从数据库里找到符合各项参数要求的数据
query <- GDCquery(project = "TCGA-LIHC",
legacy = FALSE,
experimental.strategy = "RNA-Seq",
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "HTSeq - Counts")
#再使用命令GDCdownload()下载
GDCdownload(query)
下载成功后的运行结果
> GDCdownload(query)
Downloading data for project TCGA-LIHC
GDCdownload will download 424 files. A total of 104.380925 MB
Downloading as: Fri_Apr_26_00_38_40_2019.tar.gz
Downloading: 100 MB
怎么说了,用法其实是熟悉就好,重点是下载数据后可以做什么,这个时候就要看另外一个学徒的表演了:批量COX回归生存分析图,指定挑选lncRNA基因,森林图,ROC曲线打包给你
TCGA教程长期更新列表
TCGA的28篇教程-使用R语言的cgdsr包获取TCGA数据(cBioPortal)
TCGA的28篇教程-使用R语言的RTCGA包获取TCGA数据 (离线打包版本)
TCGA的28篇教程-使用R语言的RTCGAToolbox包获取TCGA数据 (FireBrowse portal)
TCGA的28篇教程-批量下载TCGA所有数据 ( UCSC的 XENA)
文献俱乐部2019笔记分享
2019年2月份第2周(总第54周)测173个成年人的大脑的102个基因
2019年2月份第3周(总第55周)2.5万汉族人的GWAS乳腺癌风险基因
生信工程师入门课 全国巡讲约你
五月份,郑州、西安约起