查看原文
其他

TCGA数据下载—TCGAbiolinks包参数详解

小鬼 生信技能树 2022-06-07

TCGA是目前使用最多的肿瘤组学数据库,虽然群主已经录制TCGA系列视频教程:

悄咪咪的上线了TCGA知识图谱视频教程(B站和YouTube直达) 里面也提到了各种下载工具,但是作为学徒的我,学习过后也有一些自己的心得,希望大家能喜欢我的教程! 

今天我们介绍使用TCGAbiolinks包下载TCGA数据库的数据。TCGAbiolinks包是从TCGA数据库官网接口下载数据的R包。它的一些函数能够轻松地帮我们下载数据和整理数据格式。

其实就是broad研究所的firehose命令行工具的R包装!

最近才开始使用TCGAbiolinks这个包从TCGA数据库官网下载数据,发现很多参数不知道去哪里找,所以就查找资料总结了一下。以下载肝脏肝细胞癌(LIHC)count值为例,下载数据最主要的一个函数是GDCquery()。我们在R里运行:

> ?GDCquery

就像学习所有之前没用过的包一样,第一步永远是查看下 help 文档,里面介绍了各个参数,齁长~齁长的,不过没关系,我们一会儿进行一一介绍,也不是哪个都有用。

首先我们看下 help 文档里的Usage部分:

Usage

GDCquery(project, data.category, data.type, workflow.type,
  legacy = FALSE, access, platform, file.type, barcode,
  experimental.strategy, sample.type)

发现GDCquery函数一共有11个参数:

1.project

2.data.category

3.data.type

4.workflow.type

5.legacy = FALSE

6.access

7.platform

8.file.type

9.barcode

10.experimental.strategy

11.sample.type

其次我们看一下 help 文档里的Examples部分:

query <- GDCquery(project = "TCGA-ACC",
                  data.category = "Copy Number Variation",
                  data.type = "Copy Number Segment")

注:GDCquery函数参数详解官网网址:

http://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html#useful_information

安装R包

老规矩,使用我们生信技能树的镜像切换大法,保证分分钟安装成功!


rm(list = ls()) 
options()$repos 
options()$BioC_mirror
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options()$repos 
options()$BioC_mirror

source("https://bioconductor.org/biocLite.R")
biocLite("TCGAbiolinks")
library("TCGAbiolinks")

介绍各参数

1.project

可以使用TCGAbiolinks:::getGDCprojects()$project_id)得到各个癌种的项目id,总共有45个ID值。

如:将要下载的肝癌项目编号为project="TCGA-LIHC"

> TCGAbiolinks:::getGDCprojects()$project_id
 [1"TCGA-READ"      "TARGET-CCSK"    "TCGA-MESO"      "TCGA-CHOL"     
 [5"NCICCR-DLBCL"   "TARGET-WT"      "TCGA-TGCT"      "TCGA-PRAD"     
 [9"TCGA-LAML"      "TCGA-ESCA"      "TCGA-SARC"      "TCGA-ACC"      
[13"TCGA-PAAD"      "TCGA-BLCA"      "TCGA-KICH"      "FM-AD"         
[17"TCGA-LUSC"      "TCGA-THYM"      "TCGA-GBM"       "TCGA-UCEC"     
[21"TCGA-COAD"      "TCGA-LUAD"      "TARGET-AML"     "TARGET-NBL"    
[25"TCGA-DLBC"      "TCGA-UVM"       "TCGA-THCA"      "TARGET-OS"     
[29"TCGA-LGG"       "TCGA-STAD"      "TCGA-LIHC"      "TCGA-CESC"     
[33"TCGA-HNSC"      "TCGA-KIRC"      "VAREPOP-APOLLO" "TCGA-SKCM"     
[37"TCGA-BRCA"      "TCGA-OV"        "TCGA-PCPG"      "CTSP-DLBCL1"   
[41"TCGA-UCS"       "CPTAC-3"        "TCGA-KIRP"      "TARGET-RT"     
[45"TARGET-ALL-P3" 

2.data.category

可以使用TCGAbiolinks:::getProjectSummary(project)查看project中有哪些数据类型,如查询"TCGA-LIHC"有7种数据类型(就是前面群主视频多次提到的数据类型)case_count为病人数,file_count为对应的文件数。小编要下载表达谱,所以设置data.category="Transcriptome Profiling"

> TCGAbiolinks:::getProjectSummary("TCGA-LIHC")
$`data_categories`
  case_count file_count               data_category
1        376       2122     Transcriptome Profiling
2        376       1537       Copy Number Variation
3        375       3032 Simple Nucleotide Variation
4        377        430             DNA Methylation
5        377        423                    Clinical
6        377       1637            Sequencing Reads
7        377       1634                 Biospecimen

$case_count
[1377

$file_count
[110815

$file_size
[11.729756e+13

3.data.type

筛选要下载的文件的数据类型。没有命令可以查看data.type里都有哪些数据类型,但是根据官网连接,如下表图,和所查资料,我们可以总结出常用的data.type都有:

 #下载rna-seq的counts数据
 data.type = "Gene Expression Quantification"
 #下载miRNA数据
 data.type = "miRNA Expression Quantification"
 #下载Copy Number Variation数据
 data.type = "Copy Number Segment"

这里下载表达谱为data.type = "Gene Expression Quantification"

1556293360665.png

4.workflow.type

不同的数据类型,有其对应的参数可供选择。

workflow.type 有三种类型分别为:

  • HTSeq - FPKM-UQ:FPKM上四分位数标准化值

  • HTSeq - FPKM:FPKM值/表达量值

  • HTSeq - Counts:原始count数

小编需要下载count数,所以workflow.type=“HTSeq - Counts”

5.legacy = FALSE

这个参数主要是因为TCGA数据有两个入口可以下载,GDC Legacy ArchiveGDC Data Portal,区别主要是注释参考基因组版本不同分别是:GDC Legacy Archive(hg19GDC Data Portal(hg38)。参数默认为FALSE,下载GDC Data Portal(hg38)。这里小编的建议是,下载转录组层面的数据使用hg38,下载DNA层面的数据使用hg19,因为比如做SNP分析的时候很多数据库没有hg38版本的数据,都是hg19的。

1556293412665.png

6.access

数据开放和不开放,有两个参数:controlled, open

我们这里使用:access=“open”

7.platform

这里涉及到的平台种类非常多,可以具体去官网看每种数据都有什么平台的可以下载。这个参数可以省略不设置。

1556293428897.png

8.file.type

主要是在GDC Legacy Archive下载数据的时候使用,可以参考官网说明。这里小编在GDC Data Portal下载数据,所以该参数省略不设置。

9.barcode

A list of barcodes to filter the files to download。可以根据这个参数设置只下载某个样本等。如:

barcode = c("TCGA-14-0736-02A-01R-2005-01", "TCGA-06-0211-02A-02R-2005-01")

10.experimental.strategy

两个下载入口参数选择

  • GDC Data Portal:WXS, RNA-Seq, miRNA-Seq, Genotyping Array.

  • Legacy: WXS, RNA-Seq, miRNA-Seq, Genotyping Array, DNA-Seq, Methylation array, Protein expression array, WXS,CGH array, VALIDATION, Gene expression array,WGS, MSI-Mono-Dinucleotide Assay, miRNA expression array, Mixed strategies, AMPLICON, Exon array, Total RNA-Seq, Capillary sequencing, Bisulfite-Seq

11.sample.type

A sample type to filter the files to download,可以对样本类型进行过滤下载。这里我要下载所有样本类型数据,不设置。部分值选择如下(全部可以查看官网):如sample.type = "Recurrent Solid Tumor"

1556293447018.png

下面我们开始下载数据:

根据上面的讲解,小编要下载的数据为LIHC,表达谱,count值,因此个参数设置如下:

#先从数据库里找到符合各项参数要求的数据
query <- GDCquery(project = "TCGA-LIHC"
                 legacy = FALSE
                 experimental.strategy = "RNA-Seq"
                 data.category = "Transcriptome Profiling"
                 data.type = "Gene Expression Quantification"
                 workflow.type = "HTSeq - Counts")

#再使用命令GDCdownload()下载
GDCdownload(query)

下载成功后的运行结果

> GDCdownload(query)
Downloading data for project TCGA-LIHC
GDCdownload will download 424 files. A total of 104.380925 MB
Downloading as: Fri_Apr_26_00_38_40_2019.tar.gz
Downloading: 100 MB 


怎么说了,用法其实是熟悉就好,重点是下载数据后可以做什么,这个时候就要看另外一个学徒的表演了:批量COX回归生存分析图,指定挑选lncRNA基因,森林图,ROC曲线打包给你




TCGA教程长期更新列表


文献俱乐部2019笔记分享



生信工程师入门课    全国巡讲约你


五月份,郑州、西安约起

全国巡讲第6、7站-郑州和西安(生信技能树爆款入门课)

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存