【直播】我的基因组(五):测试数据及参考基因组的准备
我的全基因组数据还没拿到,而且还会推迟,简单说(tu)明(cao)一下原因(还好当初为了避免广告嫌疑一直没说是哪个公司负责测序,反正用的是illumina的hiseqX10这个测序啦,所以可以尽情的吐槽)。
心烦意乱的吐槽线
负责给我测序的乙方公司项目负责人发了邮件给我,希望我回复确认建库,他们才会走下一个流程,但是这封邮件却被我163邮箱拦截为垃圾邮件,耽误了3天(这个事情告诉我们没事还是要看看垃圾邮件的)。但这个不是重点,因为我重新找回邮件查看他们发给我的样本检测报告分析,我的样本是13号收样品,17号就已经检测完并且审核完成了,但是24号才发邮件给我,对方给我的解释是“上周因工作调动,在办理工作交接过程中,不小心把您的邮件漏掉了,因此耽误了整个项目的进度”。这里不得不吐槽一下中国现在的高通量测序市场环境,真的很差,人才流动性太大,已经有不少老师跟我抱怨过在某某公司,一个项目还没做完,项目经理就换了三个!!!
言归正传,我仔细的看了从垃圾邮件中重新找回的样本检测报告分析,因为我实验方面也不是很懂,就简单提了两个问题,他们公司进行了回答:
单从这个回答上来看,感觉对方公司还是挺专业的!
好了,下面讲一下本次直播的主题吧,下载测试全基因组测序数据跟参考基因组,使用上一次直播下载安装好的软件对我们的参考基因组进行索引,以待后续操作。
因为我的全基因组测序数据不可能公开供大伙来处理学习,所以我们只能选择一组公开数据进行处理。(Jimmy再次啰嗦的说一遍,我们选择的是还算比较新的illumina机器的测序数据(Korean Personal Genome Project中的,该项目共有68个WGS和11个WES,这里统一下载编号为KPGP-00001的样本的数据吧,网址是ftp://ftp.kobic.re.kr/pub/KPGP/2015_release_candidate/WGS/KPGP-00001/,大家在自己的服务器敲这个命令就好了:nohup wget -c -r -nd -np -k -L -p ftp://ftp.kobic.re.kr/pub/KPGP/2015_release_candidate/WGS/KPGP-00001 1>/dev/null 2>&1 & )
我会同步处理这个数据,还有我自己的数据。下载完了之后,用md5文件进行校验一下(该截图是未完全下载的例子,只是想说md5码相同代表下载完全)。
这个对新手来说,是一个很大的坑,hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众,存储的序列也不一样,比如BGI做的炎黄基因组,还有DNA双螺旋结构提出者沃森(Watson)的基因组,还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组,主要就下载hg19和hg38,都是UCSC提供的,虽然hg38相比hg19来说,做了很多改进,优点也不少,但因为目前为止很多注释信息都是针对于hg19的坐标系统来的,我们就都下载了,正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧,反正比对也就是睡个觉的功夫,顺便分析一下结果,看看比对率是不是很低。
基因组各种版本对应关系:
下载好的基因组需要构建索引,因为我们会比较bowtie2,hisat2和bwa这3个主流比对软件的区别,所以我们会构建所有的索引,下载完毕后如下大小:
以下是下载参考基因组及比对软件的代码:
下载hg19:
cd ~/reference
mkdir -p genome/hg19 && cd genome/hg19
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
tar zvfx chromFa.tar.gz
cat *.fa > hg19.fa
rm chr*.fa
下载hg38
cd ~/reference
mkdir -p genome/hg38 && cd genome/hg38
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz &
下载的小鼠基因组
cd ~/reference
mkdir -p genome/mm10 && cd genome/mm10
nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz &
tar zvfx chromFa.tar.gz
cat *.fa > mm10.fa
rm chr*.fa
bowtie软件建立索引文件
cd ~/reference
mkdir -p index/bowtie && cd index/bowtie
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build ~/reference/genome/hg19/hg19.fa ~/reference/index/bowtie/hg19 1>hg19.bowtie_index.log 2>&1 &
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build ~/reference/genome/hg38/hg38.fa ~/reference/index/bowtie/hg38 1>hg38.bowtie_index.log 2>&1 &
nohup time ~/biosoft/bowtie/bowtie2-2.2.9/bowtie2-build ~/reference/genome/mm10/mm10.fa ~/reference/index/bowtie/mm10 1>mm10.bowtie_index.log 2>&1 &
bwa软件建立索引文件
cd ~/reference
mkdir -p index/bwa && cd index/bwa
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p ~/reference/index/bwa/hg19 ~/reference/genome/hg19/hg19.fa 1>hg19.bwa_index.log 2>&1 &
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p ~/reference/index/bwa/hg38 ~/reference/genome/hg38/hg38.fa 1>hg38.bwa_index.log 2>&1 &
nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p ~/reference/index/bwa/mm10 ~/reference/genome/mm10/mm10.fa 1>mm10.bwa_index.log 2>&1 &
hisat软件建立索引文件
cd ~/reference
mkdir -p index/hisat && cd index/hisat
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz &
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg38.tar.gz &
nohup wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grcm38.tar.gz &
tar zxvf hg19.tar.gz
tar zxvf grcm38.tar.gz
tar zxvf hg38.tar.gz
文:Jimmy、吃瓜群众
图文编辑:吃瓜群众