查看原文
其他

肿瘤外显子数据处理系列教程​(一)读文献并且下载测序数据

生信技能树 生信菜鸟团 2022-06-06


大家好,我是生信技能树目前最优秀学徒,不过下个月就要走了,去西湖大学,所以数据挖掘栏目就永久性停更,不过会有学弟学妹接棒给大家带来更多更好的教程,在这剩下的一个月我发挥一下余热,更新5次肿瘤外显子数据处理教程作为学徒培养答辩吧!

周一学徒数据挖掘专场:NEAT1在组织和TCGA所有癌症中的表达 (欢迎大家继续回看我半年的分享

https://doi.org/10.1016/j.celrep.2018.10.046



实验设计

六个case,每个case有一个Germline,每个case有A、B、C三个Biological replicate,每个case有一个Technical replicate,每个case有一个既有Technical replicate又有Biological replicate,一共是六个case,六个条件。


数据下载


NCBI的Sequence Read Archive (SRA),每个项目的url格式都是一样的,https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRPXXX.



首先筛选掉PCR数据,下载两个list,“RunInfo Table”和“Accesssion List”。


RunInfo Table: 包含了较多的信息,可用于数据下载完成后对文件的重新命名


Accesssion List: 只有一列,prefetch可以接受改文件,下载列表中包含的所有样本


下载数据使用的软件是prefetch,SRA Toolkit的套件之一,如果使用conda的话,需要安装的软件是sra-tools,而不是prefetch。


首先建立一个命名为wes的conda环境

## 组织项目

mkdir 0.sra log


## 安装conda

wget https://repo.anaconda.com/miniconda/Miniconda2-latest-Linux-x86_64.sh 

bash Miniconda2-latest-Linux-x86_64.sh

## 使用官方镜像

conda config --add channels conda-forge


## 创建一个wes环境

conda create -n wes python=2

conda info --envs


## 创建后需要激活该环境

source activate wes

## 所有的安装都是建立在该环境已经激活的前提下,后续使用到的软件,同样需要激活后再安装

conda install sra-tools



prefetch,默认通过https下载数据,但是速度不理想。


aspera的下载速度很快,但是它不是SRA Toolkit的套件之一,不能用conda安装,需要下载安装脚本。


wget https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz

tar -zxvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz

bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh


## 需要手动添加环境变量

export PATH='$HOME/.aspera/connect/bin:$PATH'

source ~/.bashrc

##私钥文件位于 $HOME/.aspera/connect/etc


## 这是调用的是aspera

nohup prefetch --option-file config -O ./0.sra -X 200G > ./log/0.download_sra.log 2>&1 &



当你的环境中有了aspera之后,使用prepetch命令时,他会优先调用aspera来进行下载


(rna) llwu:~/llwu/SRP070662/0.sra$ ls -hl

total 176G

-rw-r--r-- 1 llwu llwu  55M 2月  23  2018 CM000663.1

-rw-r--r-- 1 llwu llwu  58M 2月  23  2018 CM000664.1

-rw-r--r-- 1 llwu llwu  47M 2月  23  2018 CM000665.1

-rw-r--r-- 1 llwu llwu  45M 2月  23  2018 CM000666.1

-rw-r--r-- 1 llwu llwu  43M 2月  23  2018 CM000667.1

-rw-r--r-- 1 llwu llwu  41M 2月  23  2018 CM000668.1

-rw-r--r-- 1 llwu llwu  38M 2月  23  2018 CM000669.1

-rw-r--r-- 1 llwu llwu  35M 2月  23  2018 CM000670.1

-rw-r--r-- 1 llwu llwu  29M 2月  23  2018 CM000671.1

-rw-r--r-- 1 llwu llwu  32M 2月  23  2018 CM000672.1

-rw-r--r-- 1 llwu llwu  32M 2月  23  2018 CM000673.1

-rw-r--r-- 1 llwu llwu  32M 2月  23  2018 CM000674.1

-rw-r--r-- 1 llwu llwu  23M 2月  23  2018 CM000675.1

-rw-r--r-- 1 llwu llwu  22M 2月  23  2018 CM000676.1

-rw-r--r-- 1 llwu llwu  20M 2月  23  2018 CM000677.1

-rw-r--r-- 1 llwu llwu  19M 2月  23  2018 CM000678.1

-rw-r--r-- 1 llwu llwu  19M 2月  23  2018 CM000679.1

-rw-r--r-- 1 llwu llwu  18M 2月  23  2018 CM000680.1

-rw-r--r-- 1 llwu llwu  14M 2月  23  2018 CM000681.1

-rw-r--r-- 1 llwu llwu  15M 2月  23  2018 CM000682.1

-rw-r--r-- 1 llwu llwu 8.5M 2月  23  2018 CM000683.1

-rw-r--r-- 1 llwu llwu 8.4M 2月  23  2018 CM000684.1

-rw-r--r-- 1 llwu llwu  37M 2月  23  2018 CM000685.1

-rw-r--r-- 1 llwu llwu  26K 2月  24  2018 NC_012920.1

-rw------- 1 llwu llwu 4.1M 3月   5 18:09 nohup.out

-rw-r--r-- 1 llwu llwu 4.8G 2月  24  2016 SRR3182418.sra

-rw-rw-r-- 1 llwu llwu  17M 3月   5 09:11 SRR3182418.sra.vdbcache

-rw-r--r-- 1 llwu llwu 3.0G 2月  24  2016 SRR3182419.sra

-rw-rw-r-- 1 llwu llwu 7.1M 3月   5 09:13 SRR3182419.sra.vdbcache

-rw-r--r-- 1 llwu llwu 3.1G 2月  24  2016 SRR3182420.sra

-rw-rw-r-- 1 llwu llwu  13M 3月   5 09:22 SRR3182420.sra.vdbcache

-rw-r--r-- 1 llwu llwu 3.1G 2月  24  2016 SRR3182421.sra

-rw-rw-r-- 1 llwu llwu  13M 3月   5 09:31 SRR3182421.sra.vdbcache

-rw-rw-r-- 1 llwu llwu 3.1G 3月   1 10:58 SRR3182422.sra

-rw-rw-r-- 1 llwu llwu  15M 3月   4 10:25 SRR3182422.sra.vdbcache

-rw-r--r-- 1 llwu llwu 3.0G 2月  24  2016 SRR3182423.sra

-rw-rw-r-- 1 llwu llwu  12M 3月   5 11:44 SRR3182423.sra.vdbcache

-rw-rw-r-- 1 llwu llwu 7.8G 3月   1 11:57 SRR3182424.sra

-rw-rw-r-- 1 llwu llwu  18M 3月   1 11:59 SRR3182424.sra.vdbcache

-rw-rw-r-- 1 llwu llwu 7.8G 3月   4 09:41 SRR3182425.sra

-rw-rw-r-- 1 llwu llwu  38M 3月   4 09:43 SRR3182425.sra.vdbcache

-rw-r--r-- 1 llwu llwu 7.7G 2月  24  2016 SRR3182426.sra

-rw-rw-r-- 1 llwu llwu  21M 3月   5 12:18 SRR3182426.sra.vdbcache

-rw-r--r-- 1 llwu llwu 8.2G 2月  24  2016 SRR3182427.sra

-rw-rw-r-- 1 llwu llwu  23M 3月   4 09:30 SRR3182427.sra.vdbcache

-rw-r--r-- 1 llwu llwu 7.6G 2月  24  2016 SRR3182428.sra

-rw-rw-r-- 1 llwu llwu  22M 3月   5 13:31 SRR3182428.sra.vdbcache

-rw-r--r-- 1 llwu llwu 4.1G 2月  24  2016 SRR3182429.sra

-rw-rw-r-- 1 llwu llwu  11M 3月   5 13:23 SRR3182429.sra.vdbcache

-rw-r--r-- 1 llwu llwu 3.2G 2月  24  2016 SRR3182430.sra

-rw-rw-r-- 1 llwu llwu 7.8M 3月   5 11:33 SRR3182430.sra.vdbcache

-rw-rw-r-- 1 llwu llwu 4.0G 3月   4 09:35 SRR3182431.sra

-rw-rw-r-- 1 llwu llwu 9.4M 3月   4 09:37 SRR3182431.sra.vdbcache

-rw-r--r-- 1 llwu llwu 4.1G 2月  24  2016 SRR3182432.sra

-rw-rw-r-- 1 llwu llwu  12M 3月   5 15:02 SRR3182432.sra.vdbcache

-rw-r--r-- 1 llwu llwu 7.6G 2月  24  2016 SRR3182433.sra

-rw-rw-r-- 1 llwu llwu  22M 3月   5 11:00 SRR3182433.sra.vdbcache

-rw-r--r-- 1 llwu llwu 6.6G 2月  24  2016 SRR3182434.sra

-rw-rw-r-- 1 llwu llwu  17M 3月   1 10:38 SRR3182434.sra.vdbcache

-rw-r--r-- 1 llwu llwu 8.2G 2月  24  2016 SRR3182435.sra

-rw-rw-r-- 1 llwu llwu  20M 3月   5 15:23 SRR3182435.sra.vdbcache

-rw-r--r-- 1 llwu llwu 6.0G 2月  24  2016 SRR3182436.sra

-rw-rw-r-- 1 llwu llwu  17M 3月   5 16:10 SRR3182436.sra.vdbcache

-rw-r--r-- 1 llwu llwu 6.7G 2月  24  2016 SRR3182437.sra

-rw-rw-r-- 1 llwu llwu  17M 3月   5 11:01 SRR3182437.sra.vdbcache

-rw-r--r-- 1 llwu llwu 5.9G 2月  24  2016 SRR3182438.sra

-rw-rw-r-- 1 llwu llwu  17M 3月   5 16:34 SRR3182438.sra.vdbcache

-rw-rw-r-- 1 llwu llwu 6.2G 3月   1 11:58 SRR3182439.sra

-rw-rw-r-- 1 llwu llwu  32M 3月   1 12:00 SRR3182439.sra.vdbcache

-rw-r--r-- 1 llwu llwu 6.0G 2月  24  2016 SRR3182440.sra

-rw-rw-r-- 1 llwu llwu  15M 3月   5 17:01 SRR3182440.sra.vdbcache

-rw-rw-r-- 1 llwu llwu 7.9G 3月   1 12:03 SRR3182441.sra

-rw-rw-r-- 1 llwu llwu  29M 3月   1 12:05 SRR3182441.sra.vdbcache

-rw-r--r-- 1 llwu llwu 6.0G 2月  25  2016 SRR3182442.sra

-rw-rw-r-- 1 llwu llwu  16M 3月   5 10:58 SRR3182442.sra.vdbcache

-rw-r--r-- 1 llwu llwu 7.2G 2月  25  2016 SRR3182443.sra

-rw-rw-r-- 1 llwu llwu  15M 3月   4 23:04 SRR3182443.sra.vdbcache

-rw-r--r-- 1 llwu llwu 6.8G 2月  25  2016 SRR3182444.sra

-rw-rw-r-- 1 llwu llwu  18M 3月   5 17:10 SRR3182444.sra.vdbcache

-rw-rw-r-- 1 llwu llwu 5.7G 3月   1 11:42 SRR3182445.sra

-rw-rw-r-- 1 llwu llwu  14M 3月   1 11:45 SRR3182445.sra.vdbcache

-rw-rw-r-- 1 llwu llwu 7.1G 3月   1 11:42 SRR3182446.sra

-rw-rw-r-- 1 llwu llwu  17M 3月   1 11:44 SRR3182446.sra.vdbcache

-rw-r--r-- 1 llwu llwu 2.5G 2月  24  2016 SRR3182447.sra

-rw-rw-r-- 1 llwu llwu  17M 3月   5 17:19 SRR3182447.sra.vdbcache



看到了很多额外的文件,是因为

Most SRA files require additional sequence files in order to reconstruct original reads. prefetch ensures that you not only download the main file but all of its dependencies.


这里我们下载到的文件是sra,之后需要转换为fq文件,敬请期待第二讲!!!


■   ■   ■

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存