查看原文
其他

TCGA-1.数据下载

豆豆花花 生信星球 2022-06-06

 今天是生信星球陪你的第506天


   大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~

   就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~

   这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!


我们断更了半个月,是度假去了,嘻嘻。。。12月14号去了深圳两天,回珠海呆了几天,就去了马来西亚团建一周。容我整理整理照片,发个游记。从马来回来第二天就动身来到了长沙,从热到开冷气的热带来到了穿羽绒服还哆嗦的地方,完成了2019全国巡讲最后一站的授课。个人感觉这次课是我讲的最好的一次,这次场地的话筒立体声,相当给力,感觉显著增强了我的气场(手动狗头)。学员们的反馈很积极,课堂互动、气氛、提问环节都非常热烈,好的课程离不开讲师和学员的配合,我讲的非常开心,他们也就能学的更好,希望明年走的更远,做的更好~

虽然大家都喜欢看故事,不喜欢看教程,虽然教程里面阅读量最低的就是系列教程。。。但我还是要开始写一个新的系列。。。。就是我的TCGA学习记录,跟着生信技能树B站课程学习,已获得授权(嗯,真的^_^)。课程链接:https://www.bilibili.com/video/av49363776

1.从数据库下载manifest文件

数据存放网站:https://portal.gdc.cancer.gov/
Repository勾选自己需要的case和文件类型

(1)选case

样本

(2)选文件类型

需要下载三个文件,分别存放了miRNAisoformclinical信息

  • mirna

  • isoform

  • 临床数据clinical,选xml格式


    选中后都是点击右边的Manifest即可下载。下载得到的文件要改名,不然命名都一样容易乱。三个文件设置的名称如下:
    gdc_manifest.2019-12-30-isoform.txt
    gdc_manifest.2019-12-30-miRNA.txt
    gdc_manifest.2019-12-30.txt

3.了解数据

统计下载的三个文件的行数,也就是各自的样本数量+1(+1是因为有一行是行名)。

4.学习下载工具

https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
使用官网提供的工具gdc-client ,下载自己电脑对应的版本,存放于工作目录下并解压好。
查看帮助文档

./gdc-client --help
# commands:
# {download,upload,settings}
# for more information, specify -h after a command
# download            download data from the GDC
# upload              upload data to the GDC
# settings            display default settings

会看到该软件有三个子命令,我们需要的是download
查看download的帮助文档:

./gdc-client download --help
#-d DIR, --dir DIR     Directory to download files to. Defaults to current
#                        directory
#-m MANIFEST, --manifest MANIFEST
#                       GDC download manifest file

可以找到两个有用的参数:-d和-m。(其他参数被我省略掉了)

5.下载走起

所以下载命令是:

mkdir clinical
mkdir mirna
mkdir isoform
./gdc-client download -m gdc_manifest.2019-12-30.txt -d clinical
./gdc-client download -m gdc_manifest.2019-12-30-miRNA.txt -d mirna
./gdc-client download -m gdc_manifest.2019-12-30-isoform.txt -d isoform

网络很垃圾。但还是可以成功的。几百个文件搞定。

关于xml我还搜到了两个东东,一并记录下来。一个是哈德雷大神写的包xml2
https://blog.rstudio.com/2015/04/21/xml2/
一个是R包TCGAbiolinks,可以处理tcga中下载的xml文件,从中获取信息。关于此文件的后续探索,且看下回分解。

插个小广告!

生信零基础入门学习小组长期报名中

GEO数据挖掘广州专场课程

再给生信技能树打个call!

全国巡讲第21站(长沙线下培训)

全球公益巡讲招学徒


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存