查看原文
其他

TCGA的28篇教程-整理GDC下载的xml格式的临床资料

生信技能树 生信技能树 2022-06-06

长期更新列表:

使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据 (FireBrowse portal)TCGA的28篇教程-  批量下载TCGA所有数据 ( UCSC的 XENA)TCGA的28篇教程- 数据下载就到此为止吧
TCGA的28篇教程- 指定癌症查看感兴趣基因的表达量TCGA的28篇教程- 对TCGA数据库的任意癌症中任意基因做生存分析

临床资料因为一直在更新,很多朋友可能需要去下载最新版的,所以不得不使用GDC官网下载的方式。

GDC给出了一系列的用户友好的选择框,你只需要根据条条框框来选择就可以下载到自己想要的数据,而不需要去几百个文件夹里面漫无目的的查找了。 https://gdc-portal.nci.nih.gov/legacy-archive/search/f 根据自定义搜索过滤条件拿到了 mainfest 文件就可以使用下面代码下载:

# https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
mkdir -p ~/biosoft/gdc_client
cd ~/biosoft/gdc_client/
wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.3.0_OSX_x64.zip 
wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.3.0_Ubuntu14.04_x64.zip
unzip gdc-client_v1.3.0_OSX_x64.zip

/gdc-client --help
./gdc-client download --help 
mkdir clinical
./gdc-client download -m ~/Documents/Nutstore/github/TCGA-KIRC-miRNA-example/GDC/gdc_manifest.2018-08-05-clinical.txt -d clinical
#  Successfully downloaded: 522
mkdir miRNAseq
./gdc-client download -m ~/Documents/Nutstore/github/TCGA-KIRC-miRNA-example/GDC/gdc_manifest.2018-08-05-LUAD-miRNA-seq.txt -d miRNAseq
#  Successfully downloaded: 567
或者直接从微云下载:链接:https://share.weiyun.com/5XsyuzH 密码:68pm7e 

但是有个很严重的问题是该下载方式会对每一个病人给出一个xml格式文件记录着临床信息。

简单给一个代码:

# Load the packages required to read XML files.
library("XML")
library("methods")
dir='/Users/jmzeng/biosoft/gdc_client/miRNAseq/'
all_fiels=list.files(path = dir ,pattern='*.xml$',recursive=T)
cl = lapply(all_fiels
            , function(x){
              #x=all_fiels[1]
              result <- xmlParse(file = file.path(dir,x)) 
              rootnode <- xmlRoot(result)  
              xmldataframe <- xmlToDataFrame( rootnode[2] ) 
              return(t(xmldataframe))
            })

cl_df <- t(do.call(cbind,cl))
save(cl_df,file = 'GDC_TCGA_LUAD_clinical_df.Rdata')

得到的生存资料如下所示:

是不是很简单呀,赶快去试试看吧!

而且有了这样的生存资料,根据我前面的讲解,很容易就可以做出性别或者年龄是否影响生存哦!!!

如果需要组装自己的服务器;代办生物信息学服务器

如果需要帮忙下载海外数据(GEO/TCGA/GTEx等等),点我?

如果需要线下辅导及培训,看招学徒

如果需要个人电脑:个人计算机推荐

如果需要置办生物信息学书籍,看:生信人必备书单

如果需要实习岗位:实习职位发布

价值999的全外显子数据实战基础教程限时免费领取: 外显子福利

价值599的GEO数据库挖掘手把手教程限时免费领取:GEO挖掘福利

更多干货代码,点击下面的阅读原文直达哦!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存