落入窠(ke)臼(jiu):GATK best practice每个步骤都是必须的吗?
昨天Jimmy发了一篇文章《GATK best practice每个步骤都是必须的吗?》,主要是讨论最佳实践里面的步骤有没有必要。
其实就是比较realign和recal步骤对最后找变异的影响大不大
如下是论点:
对于高质量的SNP位点来说,3中bam文件得到SNP信息差别很微弱,在可接受的范围点。
但是不能忽视原始bam和重排的bam得到的变异VCF要比recal后少了近两万
INDEL本身对参数就比较敏感,所以不好比较
realign的SNP基本上都在染色体附近
结论:
GATK最佳时间的BQSR步骤很重要,尤其是对于临床,这个步骤据说是根据机器学习,所以Jimmy认为可以改善结果。
我和朋友(阿尔的太阳,它的公众号:生信之光,一个非常喜欢太阳的小伙子,太阳=日?)认为如果要对不同的步骤进行比较,需要用到金标准基因组(什么叫做金标准?传送门),而不是用个人的基因组测序结果,毕竟没有参考答案的比较都是耍流氓。但是Jimmy认为金标准区域并没有覆盖全部区域,存在4%左右的blind region(盲区,说了一个专业单词,感觉自己好厉害),而在临床上是要看所有区域的。
但是我和阿尔的太阳(一个自称喜欢太阳的小伙子)讨论了一下,观点仅供参考:
96%约等于100%
二代测序存在测序盲区,染色体上有许多序列重复区域,被称为difficult region(困难的区域,会蹦英语就是开心),是二代测序难以覆盖的,金标准费了好大的力气,都没能把这个地方覆盖上。所以那些地方根本不是二代测序能够分析的,96%约等于100%.
在数据分析领域有一句名言:garbage in, garbage out。如果数据本身质量就不太好,别指望能得到什么好的结果。
金标准的意义
如果金标准区域不能当作二代测序Variant calling工具比较是的参考答案,那么请给出更好的标准。不然验证答案只能靠一代测序,别人辛辛苦苦得到金标准岂不是毫无意义。
染色体中心的SNP对疾病有影响吗?
Jimmy找到的位点基本都是位于染色体中心粒附件,根据我基础的生物学知识,这些区域高度重复,基本上不参与转录,而且我对人类疾病的了解比较少(我是做植物的),不知道有哪些疾病是有这些区域引起的,欢迎高手贴一些文献和我说。
反思以下BQSR的原理
BQSR的原理是,输入一个dbsnp数据库,里面收集了常见的人类突变,GATK对它进行机器学习, 然后重新评估各个碱基的质量。进行BQSR的原因是因为当年测序质量不太好,所以需要重新评估以下,现在质量普遍很高,所以这一步很有可能导致原先正确的出错,导致原先错误的变对,这都是tradeoff(代价,会说英语就是开心)
植物的同学注意了,由于dbsnp需要已知的突变碱基数据库,我们想要也没有呀!!! 所以做植物的同学目前阶段不需要考虑用BQSR,一点都不用纠结。或者你通过严格的筛选,过滤出一些“高质量”的突变位点当作输入。其实samtools + bcftools对于植物来说够用了。
realign的必要性
至于重排的bam和原始的bam为什么数量类似,这是因为HaplotypeCaller的工作本身就包含对hot region(热区,会蹦英语真开心)重新排列,所以realign这一步可以很放心的不要了
以上观点,仅供参考,欢迎高手提出意见。
个人观点
不要盲从机器学习
不要轻易相信你的数据和程序
不要轻易相信我说的
关于落入窠臼的梗: