【直播】我的基因组80:为什么有些基因的内部测序深度差异如此大
在前面我们的计算中,s列表示的是基因的每一个坐标的测序深度的方差,所以代表着基因的内部测序深度差异值。
在正常WGS中,每个基因的各个部分测序深度应该趋近于一致,可以形成一条直线。但是如果基因太长,内部GC含量不一致,那么每个基因的各部分测序深度可能就不一样了,而且有些基因可能是部分序列重复,这样的话这个部分序列就会被超量测序。不过,基因内部的部分缺失不会反应在S值里面,因为没有计算那些未被覆盖的基因区域。
对于前面的分析结果,我们可以简单的画一下s值跟基因的平均测序深度,基因长度,GC含量的关系,如下:
可以看到基因的S值(基因的内部测序深度差异)跟基因长度是没有关系的,这个很容易理解,因为S是方差,在公式里面本身摈弃了基因长度的影响。
但是S值跟测序深度和GC含量的关系,我只能画在这里,并不知道如何去解读。
而且这个图做的不好,应该对那些点加上透明度,尤其是0~200这个S值之间的点太过集中了。
接下来,我们简单看一下,S最大的基因是哪些吧,然后我们再一一解读:
MUC3A前面测序深度那一讲我就说了,这里就略过哈。它的问题反正在于,家族基因不清不楚。而且它的GC含量也太低了一点!!!
再排除几个覆盖度不够的基因,那么只剩下TMEM242 基因啦,它的英文介绍如下:
这个基因以前叫做C6orf35,这个名字我在论坛说过几次啦。在我的这次WGS数据里面,它的平均测序深度并不算太高,就77X而已,GC含量也不是太离谱,56.6%。为什么基因上面每个坐标的测序深度的差异性那么大呢?我在IGV里面定位到了它,仔细一瞧,有一个片段测序深度高达1000~2000,好可怕~~~~
然后看了看NGB这个基因,也是同样的问题,就是局部片段测序深度高的不正常,我可能需要再查查资料才能明白到底是什么原因。
除了了有基因的内部测序深度差异非常大的,还有一些基因内部测序深度基本没有差别的,比如下面几个基因,首先它们的基因长度都很短,这样的话,一个PE的reads就把它们给覆盖完了,整个基因的所有坐标都在同一堆reads上面,那么内部差异想大也打不起来了哦。
在于那些基因的内部测序深度差异如此大的基因,基因长度就没那么重要了,可能是基因内部GC含量非常的不平衡或者其它,这就需要进一步的分析了。
推荐阅读:
【直播】我的基因组76:用krona对血液全基因组的菌比例可视化
【直播】我的基因组77:批量计算每个蛋白编码基因的测序深度及覆盖度