其他
TCGA3.R包TCGAbiolinks下载数据
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
本系列是我的TCGA
学习记录,跟着生信技能树B站课程学的,已获得授权(嗯,真的^_^)。课程链接:https://www.bilibili.com/video/av49363776
数据下载方法有好几种,上节讲到的gdc涉及到linux命令,有点难度,有R包可以做,方法不唯一。
1.指定癌症种类
可以查看所有支持的癌症种类的缩写
TCGAbiolinks:::getGDCprojects()$project_id
延续前面的例子,我们用的是"TCGA-LUAD"
cancer_type="TCGA-LUAD"
2.下载临床数据
clinical <- GDCquery_clinic(project = cancer_type, type = "clinical")
clinical[1:4,1:4]
# submitter_id year_of_diagnosis classification_of_tumor last_known_disease_status
# 1 TCGA-05-4244 2009 not reported not reported
# 2 TCGA-05-4245 2009 not reported not reported
# 3 TCGA-05-4249 2007 not reported not reported
# 4 TCGA-05-4250 2007 not reported not reported
dim(clinical)
# [1] 522 74
一步到位,下载的就是个数据框了。看了一下更新日期,2019年8月,挺新的。
3.下载miRNA数据
query <- GDCquery(project = cancer_type,
data.category = "Transcriptome Profiling",
data.type = "miRNA Expression Quantification",
workflow.type = "BCGSC miRNA Profiling")
GDCdownload(query, method = "api", files.per.chunk = 50)
expdat <- GDCprepare(query = query)
将expdat调整成需要的表达矩阵的样子:
library(tibble)
rownames(expdat) <- NULL
expdat <- column_to_rownames(expdat,var = "miRNA_ID")
exp = t(expdat[,seq(1,ncol(expdat),3)])
exp[1:3,1:3]
# hsa-let-7a-1 hsa-let-7a-2 hsa-let-7a-3
# read_count_TCGA-MN-A4N1-01A-11H-A24S-13 16215 16415 16480
# read_count_TCGA-55-A48Z-01A-12H-A24S-13 30773 30370 31100
# read_count_TCGA-95-8494-01A-11H-2325-13 44628 44387 44701
行名有点挫,不要在意那些细节,要改很容易,懒得。
4.总结
和上一节作比较,样本数量、临床信息数量均一致,miRNA数量都是1881,clinical列数略有不同、样本顺序不同。
本节也是和上一节一样,得到一个临床信息数据框和一个表达矩阵。
这个包还不错,很优秀~
参考资料:
https://www.jianshu.com/p/559d9604fcdf
TCGA数据下载—TCGAbiolinks包参数详解
TCGA数据库下载:多种方法及优缺点介绍
TCGA的pan-caner资料大全(以后挖掘TCGA数据库就用它)
插个小广告!
再给生信技能树打个call!