查看原文
其他

sxr 2018-05-28

前段时间介绍了一款软件BUSCO,更久之间也介绍过CEGMA。今天我从个人的经验上阐述下关于基因组完成性的一些想法,希望大家能有所收获。


1、基因组完整性


首先是什么是基因组完整性,为啥要评估它。大家都清楚当前的测序技术,二代、三代等都是很难将物种的全部序列组装出来的,另外即使组装出来,也很难借助技术手段连到染色体水平。当然细菌完成图是有可能的,我这里主要说真核动植物。既然没有办法组装完整,那我们要评估下我们要研究的东东有没有组装出来。目前动植物基因组部分最关于的还是功能基因方向和比较基因组方向,这两者的基础就是完整的基因。因此我们在基因组不完整的情况下,退而求其次,要评估基因有没有完全被组装出来(当然这个也是不太可能的)。由于基因相对于染色体会短很多,有时候只需组装到scaffold水平,基本大部分基因都会被组装出来,这样能满足大部分需求。这里有一个很重要的概念就是scaffold N50。这个概念原来介绍过,大家根据物种的基因组大小大概的评估基因的平均长度为多长,然后要根据基因的长度来定于scaffold N50是多少,scaffold N90是多少。N50如果大于平均基因长度,说明50%的scaffold片段有可能有基因,换句话说就是50%的片段都是废物,N90 就是90%的片段有可能有基因。当然简单的从长度上评估,过于粗暴,有没有合适的评估手段呢?


2、基因组完整性评估手段


(1)unigene评估


首先人们想到的就是利用转录组数据,就是利用转录组数据组装成unigene,然后和基因组进行blat比对,通过评估能比对上的基因组的比例,评估基因区的完整度,进而评估基因组完整度。但是这个手段过分的依赖于转录组数据的质量和组装的质量,另外就是没有广泛的适用性,基本就是一个物种的unigene只能评估一个,特异性太强。


(2)CEGMA评估利用真核生物中有的核心基因进行评估的。


其中包括450多个保守基因,和230多个超级保守的基因。顾名思义,真核生物应该都有这些基因才行。他的方法也很简单,就是利用blast将这些基因和基因组比对,然后对比对位置进行基因预测,通过预测出来的比例进行评估完整性。但是CEGMA中的核心基因集过于保守,另外就是其基因的长度也比较短,使用性太广,特异性太差。


(3)呼之欲出的BUSCO


开发CEGMA的人员,估计也发现了CEGMA的问题,同时兼顾unigene评估的特异性,开发出介于以上两种软件之间的软件,也就是BUSCO。

BUSCO软件非常聪明的在于他仍然是CEGMA的思想,利用核心基因去评估,同时它又对要检测的物种按照类型进行了分类,根据不同的物种,提供不同的保守基因集。


BUSCO软件的基本原理和CEGMA是一样的,仍然是将保守基因和基因组比对,然后预测,然后通过比对的比例对基因组完整度评估。

不过就是它会进行详细的分类。


看下CEGMA和BUSCO软件的评估效果对比


3、洗个头

看来生物信息领域机会还是很多的,相信CEGMA大家也都用过,也都知道的他局限性,有心人开发出来了BUCSO。另外genewise软件,大家也都用过,局限性也都清楚,又有有新人开发出来了GeMoMa......


BUCSO之后,会是什么~~~~


参考文献

1、BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs.Felipe A. Simão, Robert M. Waterhouse, Panagiotis Ioannidis, Evgenia V. Kriventseva, and Evgeny M. Zdobnov

2、CEGMA: a pipeline to accurately annotate core genes in eukaryotic genomes



欢迎关注生信人




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存