其他
【直播】我的基因组73:在IGV看看indel是啥样子
前面我们特意用scalpel软件来找indel,期待它会有一些出彩的表现,当然我还没来得及比较它找到的INDEL跟GATK等工具区别在哪里,不过我们先在IGV里面看看找出来的是什么吧。
这里我不止一次推荐大家对数据处理结果进行可视化了,可视化能加深我们对处理步骤的理解。
先看看下面这个杂合的1碱基的缺失吧:
可以看到这个位置的测序深度是90X(有点过了,我的全基因组平均测序是45X),有32条reads在这个位置并没有缺失,有58条reads在这个位点缺失了一个碱基,所以它是一个杂合的Delete。它的前后还有两个杂合的SNP。
再看看一个杂合的4个碱基缺失情况:
这个delete处测序深度是22,虽然软件判定是一个杂合的缺失,但是只有3条reads是没有缺失的,另外的19条reads都是缺失了,而且它被标记着要过滤掉,这个就取决于软件的打分机制了。
再看看大片段缺失的情况:
这个不得了啦,一般来说,软件寻找INDEL的时候,不会考虑那些没有被reads覆盖的区域的,首先那些没有被reads覆盖的区域可能的原因多种多样,其次,既然没有被reads覆盖,那么长度肯定是超过reads长度了,也就是150个碱基,而INDEL的一般定义是50个碱基以下的缺失或者插入变异情况。这一个大片段缺失,我其实并不知道该如何解释,有点复杂。
再看看4个碱基的插入情况:
这个很简单了,缺失可以在reads里面显示一个小的空格,而插入呢,不管是插入多少个碱基,统统只能用大写字母I来表示。只有在IGV把鼠标放在具体的reads上面才会显示该reads比对详情。
阅读原文查看scalpel软件用法