三代全长转录组辅助基因预测
1、简介
目前随着三代测序技术的普及和成本的降低,相信在不久的将来,大面积内使用全长转录组辅助基因预测将成为可能性,相信公司应该在这一层面布局,而作为科研工作者,也应该对现在的现状进行了解。小编根据目前的三代全长转录组文章和自己的小经验分析下三代可以用于预测的几个点。
2、什么是全长转录组,全长获得的可能性?
如上图,全长的转录本应该是包括起始UTR信息,然后包括外显子区,内含子区等一系列信息。目前利用二代测序技术,都是打成小片段进行测序,很容易导致某些部分片段丢失,很难能够得到全长转录组,如果后期进行组装,更难得到全长转录本。
PacBio和四种二代测序平台相比,转录本覆盖更均匀。
如果这一部分数据是全长的,可以想到对于基因预测来说,这样就会变得简单。由于原来测序技术的限制导致转录本在基因预测中本应该发挥特别大的作用,但是并没有的原因。
三代测序技术从测序角度上实现了获得全长转录组和组装全长转录本的可能性,因为它测的数据是大片段,对于大部分基因而言,一条read就已经包含完整的基因结构啦(常见与植物),更不用谈组装。
3、基因预测目前的问题和瓶颈
基因预测是研究一个物种基因组的基础中的基础,如果基因预测效果不好,会对后面的分析产生严重影响。考虑到基因预测的重要性,现在基因预测的软件也是很多,不过总结起来共分为三类:从头、同源、转录组。
刚才讲过了金标准是转录组数据(转录本最好了),但是由于转录本的选择性表达和测序限制,它发挥的作用也被限制。没办法现在流程更多的侧重于同源中保守的基因,大概的想法就是大家都有,才是真的好,这样的想法大致没有什么问题,但是只能解决共有的基因预测的问题,对于特有的一部分还是没有办法预测出来,所以还得借助准确性并不是很高的从头预测。
问题
(1)转录本不全,非全长
(2)同源,过于依赖同源,保守
(3)从头、质量值太低
大部分的软件设计都是从这些角度出发的:
(1)Pasa软件是从如何组装转录组数据成长片段,更好的利用转录组
(2)geMoMa是从优化同源的角度出发,如何更牛x的利用同源。
(3)Augustus 、Evm、maker 等都是从提高从头预测准确性的角度出发的。
当然,我觉得如果有朝一日我们能够获得全长转录组,组装得到全长转录本,一切技术的问题就都不是问题啦。
4、全长转录组辅助预测作用
全长转录组的作用有很多,参考甜菜的文章,亚洲人的文章加上自己的猜测
作用如下(欢迎指正):
(1)、很多基因长度不是很长完全包含在原始read中,这一部分直接利用orf预测软件预测,然后和基因组比对就可以啦。
(2)、利用组装软件获取的全长转录本直接可以和基因组比对。
(3)、1和2中数据直接作为从头预测软件的训练集,提升基因预测的准确性。(4)、利用pasa将不能组装成全长的序列组装成长片段,然后进行预测。
(5)、利用pasa利用4中结果对最后的基因集进行修饰。
5、参考文献
Exploiting single-molecule transcript sequencing for eukaryotic gene prediction
欢迎关注生信人