查看原文
其他

TCGA3.R包TCGAbiolinks下载数据

豆豆花花 生信星球 2022-06-06

 今天是生信星球陪你的第511天


   大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~

   就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~

   这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!

本系列是我的TCGA学习记录,跟着生信技能树B站课程学的,已获得授权(嗯,真的^_^)。课程链接:https://www.bilibili.com/video/av49363776
数据下载方法有好几种,上节讲到的gdc涉及到linux命令,有点难度,有R包可以做,方法不唯一。

目录:
TCGA-1.数据下载
TCGA2.GDC数据整理

1.指定癌症种类

可以查看所有支持的癌症种类的缩写

TCGAbiolinks:::getGDCprojects()$project_id
# [1] "TCGA-READ"      "TARGET-CCSK"    "TCGA-MESO"      "TCGA-CHOL"     
# [5] "NCICCR-DLBCL"   "TARGET-WT"      "TCGA-TGCT"      "TCGA-PRAD"     
# [9] "TCGA-LAML"      "TCGA-ESCA"      "TCGA-SARC"      "TCGA-ACC"      
# [13] "TCGA-PAAD"      "TCGA-BLCA"      "TCGA-KICH"      "FM-AD"         
# [17] "TCGA-LUSC"      "TCGA-THYM"      "TCGA-GBM"       "TCGA-UCEC"     
# [21] "TCGA-COAD"      "TCGA-LUAD"      "TARGET-AML"     "TARGET-NBL"    
# [25] "TCGA-DLBC"      "TCGA-UVM"       "TCGA-THCA"      "TARGET-OS"     
# [29] "TCGA-LGG"       "TCGA-STAD"      "TCGA-LIHC"      "TCGA-CESC"     
# [33] "TCGA-HNSC"      "TCGA-KIRC"      "VAREPOP-APOLLO" "TCGA-SKCM"     
# [37] "TCGA-BRCA"      "TCGA-OV"        "TCGA-PCPG"      "CTSP-DLBCL1"   
# [41] "TCGA-UCS"       "CPTAC-3"        "TCGA-KIRP"      "TARGET-RT"     
# [45] "TARGET-ALL-P3"

延续前面的例子,我们用的是"TCGA-LUAD"

cancer_type="TCGA-LUAD"

2.下载临床数据

clinical <- GDCquery_clinic(project = cancer_type, type = "clinical")

clinical[1:4,1:4]
# submitter_id year_of_diagnosis classification_of_tumor last_known_disease_status
1 TCGA-05-4244              2009            not reported              not reported
2 TCGA-05-4245              2009            not reported              not reported
3 TCGA-05-4249              2007            not reported              not reported
4 TCGA-05-4250              2007            not reported              not reported
dim(clinical)
# [1522  74

一步到位,下载的就是个数据框了。看了一下更新日期,2019年8月,挺新的。

3.下载miRNA数据

query <- GDCquery(project = cancer_type, 
                  data.category = "Transcriptome Profiling", 
                  data.type = "miRNA Expression Quantification", 
                  workflow.type = "BCGSC miRNA Profiling")
GDCdownload(query, method = "api", files.per.chunk = 50)
expdat <- GDCprepare(query = query)

将expdat调整成需要的表达矩阵的样子:

library(tibble)
rownames(expdat) <- NULL
expdat <- column_to_rownames(expdat,var = "miRNA_ID")
exp = t(expdat[,seq(1,ncol(expdat),3)])
exp[1:3,1:3]
# hsa-let-7a-1 hsa-let-7a-2 hsa-let-7a-3
# read_count_TCGA-MN-A4N1-01A-11H-A24S-13        16215        16415        16480
# read_count_TCGA-55-A48Z-01A-12H-A24S-13        30773        30370        31100
# read_count_TCGA-95-8494-01A-11H-2325-13        44628        44387        44701

行名有点挫,不要在意那些细节,要改很容易,懒得。

4.总结

和上一节作比较,样本数量、临床信息数量均一致,miRNA数量都是1881,clinical列数略有不同、样本顺序不同。
本节也是和上一节一样,得到一个临床信息数据框和一个表达矩阵。

这个包还不错,很优秀~

参考资料:
https://www.jianshu.com/p/559d9604fcdf

TCGA数据下载—TCGAbiolinks包参数详解
TCGA数据库下载:多种方法及优缺点介绍
TCGA的pan-caner资料大全(以后挖掘TCGA数据库就用它)

插个小广告!

生信零基础入门学习小组长期报名中

GEO数据挖掘广州专场课程

再给生信技能树打个call!

全国巡讲第21站(长沙线下培训)

全球公益巡讲招学徒


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存