【直播】我的基因组71:WGS流程可以有多复杂
不少追我的这个直播基因组系列的读者朋友们来信问我为什么翻来覆去就是那些简单的软件工具的介绍,fastac+ BWAS+ samtools+ bcftools+ GATK+ snpEFF 而且介绍的工具都是上个年代出来的了,难道不是应该推陈出新吗?
(⊙o⊙)…怎么说呢,其实我介绍的软件是对应着全基因组数据分析流程的几个关键步骤,当然,每个步骤可供选择的软件工具非常之多,几百款软件列表可以在omictools找到。但是呢,首先我没有时间去一个个试用然后介绍给读者朋友,软件介绍不是我直播的重心,其次呢,经典软件经过了时间的考验,至少一定程度的准确率是有保障的,拿来做演示,肯定错不了的。
作为一个非科研级别的全基因组数据分析流程,我没办法做到面面俱到,时间实在是有限,读博士的痛苦相信大部分朋友能感同身受。我前面只讲到了QC+alignment+SNV/INDEL calling+annotation这几个基础步骤,就已经写了超70篇帖子了。如果要细化下去,这是海量的工作,毕竟每一个分析细节都是有成百上千的科研工作者在孜孜不倦的寻找可以发文章的机会。
比如NGS测序数据质量控制这一步骤:
我只介绍了fastqc,它本身可以包含上面的大部分分析要点了,但是具体的每一个分析要点其实都有几十个替代软件,有兴趣的朋友可以自己去摸索,当然,自己写脚本也可以做到质量控制,所谓软件,无非就是发表了的比较不错的脚本合集罢了。不要把它们神秘化,除了懂得用,还要了解原理,做到知其然并且知其所以然。
再比如数据分析里面包含的步骤以及软件:
有一些是样本限制,比如各种变异(SNV/INDEL/SV)的germline/somatic的分类,需要有配对样本,比如de novo需要一家三口的样本。其余的分析要点,我就不一一介绍啦。
点击阅读原文可以查看所有的软件列表~