TCGA-1.数据下载
大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
我们断更了半个月,是度假去了,嘻嘻。。。12月14号去了深圳两天,回珠海呆了几天,就去了马来西亚团建一周。容我整理整理照片,发个游记。从马来回来第二天就动身来到了长沙,从热到开冷气的热带来到了穿羽绒服还哆嗦的地方,完成了2019全国巡讲最后一站的授课。个人感觉这次课是我讲的最好的一次,这次场地的话筒立体声,相当给力,感觉显著增强了我的气场(手动狗头)。学员们的反馈很积极,课堂互动、气氛、提问环节都非常热烈,好的课程离不开讲师和学员的配合,我讲的非常开心,他们也就能学的更好,希望明年走的更远,做的更好~
虽然大家都喜欢看故事,不喜欢看教程,虽然教程里面阅读量最低的就是系列教程。。。但我还是要开始写一个新的系列。。。。就是我的
TCGA
学习记录,跟着生信技能树B站课程学习,已获得授权(嗯,真的^_^)。课程链接:https://www.bilibili.com/video/av49363776
1.从数据库下载manifest文件
数据存放网站:https://portal.gdc.cancer.gov/
在Repository
勾选自己需要的case
和文件类型
(1)选case
(2)选文件类型
需要下载三个文件,分别存放了miRNA
、isoform
和clinical
信息
mirna
isoform
临床数据
clinical
,选xml
格式
选中后都是点击右边的Manifest即可下载。下载得到的文件要改名,不然命名都一样容易乱。三个文件设置的名称如下:gdc_manifest.2019-12-30-isoform.txt
gdc_manifest.2019-12-30-miRNA.txt
gdc_manifest.2019-12-30.txt
3.了解数据
统计下载的三个文件的行数,也就是各自的样本数量+1(+1是因为有一行是行名)。
4.学习下载工具
https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
使用官网提供的工具gdc-client ,下载自己电脑对应的版本,存放于工作目录下并解压好。
查看帮助文档
./gdc-client --help
# commands:
# {download,upload,settings}
# for more information, specify -h after a command
# download download data from the GDC
# upload upload data to the GDC
# settings display default settings
会看到该软件有三个子命令,我们需要的是download
。
查看download
的帮助文档:
./gdc-client download --help
#-d DIR, --dir DIR Directory to download files to. Defaults to current
# directory
#-m MANIFEST, --manifest MANIFEST
# GDC download manifest file
可以找到两个有用的参数:-d和-m。(其他参数被我省略掉了)
5.下载走起
所以下载命令是:
mkdir clinical
mkdir mirna
mkdir isoform
./gdc-client download -m gdc_manifest.2019-12-30.txt -d clinical
./gdc-client download -m gdc_manifest.2019-12-30-miRNA.txt -d mirna
./gdc-client download -m gdc_manifest.2019-12-30-isoform.txt -d isoform
网络很垃圾。但还是可以成功的。几百个文件搞定。
关于xml
我还搜到了两个东东,一并记录下来。一个是哈德雷大神写的包xml2
:https://blog.rstudio.com/2015/04/21/xml2/
一个是R包TCGAbiolinks
,可以处理tcga
中下载的xml
文件,从中获取信息。关于此文件的后续探索,且看下回分解。
插个小广告!
再给生信技能树打个call!