查看原文
其他

【直播】我的基因组79:为什么这些基因的覆盖度如此之低?

2017-05-19 Jimmy 生信技能树



在之前,我们计算了每个基因的GC含量以及基因长度,也要samtools计算了每个基因的覆盖度以及平均测序深度,还有基因的内部测序深度差异值(S值)。也在上一讲中对我们对测序深度和覆盖度的统计做了一下简单的解析。这一讲里,我们具体来来讨论一下基因测序深度特别低的那些基因。


请输入标题     abcdefg

我们首先看看基因的平均测序深度吧!

根据我们前面画的GC含量和平均测序深度的趋势图可以得知,那些平均测序深度极低的常染色体基因,都是因为GC含量过高。但是平均测序深度太高的那些,原因却多种多样啦。

很简单,直接根据平均测序深度那一列排序即可,我们简单看看排在最前面的20个基因

排在首位的是USP17L22基因,可以看到,覆盖度还不到50%,要么这个基因部分缺失,要么这个基因跟它家族的其它基因相似性太高,关于该基因的英文介绍如下:

USP17L22 (Ubiquitin Specific Peptidase 17-Like Family Member 22) is a Protein Coding gene. Among its related pathways are Metabolism of proteins and Deubiquitination. GO annotations related to this gene include cysteine-type endopeptidase activity and thiol-dependent ubiquitin-specific protease activity.


我在IGV里面查看了一下具体reads覆盖情况,果然,这个基因的几个家族内部基因距离很近,说明这里的比对是不可信的。讨论它的覆盖度和测序深度也就没有意义了。

然后,我们看看排在第二位的PRB20B,覆盖度更低,我在IGV里面看了看,也是同样的情况,跟家族其它基因相似性太高了。

This gene is one of five identical loci in a cluster on chromosome 13q21.1. The predicted protein is proline-rich and contains several dopamine D4 receptor signatures and PRINTS domains. [provided by RefSeq, Oct 2008]


那我们看看MUC3A吧,这个基因覆盖度也很低,我在IGV里面看了看,很离奇,IGV里面无法搜索这个基因,不过我有它的坐标,也是可以查看的,如下:

可以看到这个基因区域大部分地方没有一条reads,这个很可怕,难道我的基因组会缺失这么大一个片段???

当然,还是那个问题,这个地方基因组注释有问题,不管是SNV还是INDEL,SV,CNV,均不可信!

The mucin genes encode epithelial glycoproteins, some of which are secreted and some membrane bound. Each of the genes contains at least one large domain of tandemly repeated sequence that encodes the peptide sequence rich in serine and/or threonine residues, which carries most of the O-linked glycosylation


而且,把上图的60Kb基因区域缩小到有reads的那一小部分,如下:

虽然在IGV里面显示的基因名变成了MUC12,但是基因位置没有变,只能说是MUC家族基因注释太乱了。

这里面的比对也很夸张,五彩缤纷呀!!!!而且里面的SNV都是杂合,这也太不可思议了。

最后再看一下NBPF1吧,这个基因跟上面的都不一样,因为它的覆盖度接近于100%啦!我的确很好奇,它239X的平均测序深度是在咋得的的。

The NBPF gene family, of which NBPF1 is the founding member, consists of 22 genes and pseudogenes that arose by gene duplication. NBPF genes contain numerous low-copy repetitive elements and show high intergenic and intragenic sequence identity in coding and noncoding regions


在IGV里面可以看到,有部分区域测序深度其实已经超过1000了甚至可以说是形成了一个peaks。哈哈,不需要做ChIP-seq就可以拿到peaks了,而且还是很标准的,如下:

以上只是挑选了几个最显著的例子给大家描述了一下,只是把问题提出来了,并没有给出合理的解释。因为这里面涉及到的知识非常多,我的知识面还不够。

希望大家可以帮我解读这些现象,一起把二代测序了解更深入。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存