生信老司机教你做基因组项目
生 信 老 司 机 教 你
如何做基因组项目
转眼间,从事生信工作已数年有余。在这期间,一直专注于基因组方面。项目经验较多,涉及的物种也从微生物扩展到动植物,但其中不乏有各种奇怪的项目,遇到各样匪夷所思的问题,也难免有不甚理想的结果。从中既是体会到了成长的痛苦,也感受过更多开花结果的喜悦。
猛然间,从内心流露出一丝希冀,想要证明自己在所爱的路上,曾经努力过,也终有所得。随后我将记录生信道路上的点滴。给众多想要做好这方面工作的人一个“弯道超车”的机会,希望大家能从中收获很多。
今天将介绍一下组装分析的整体框架,后续会逐步细化,请大家关注我们的公众号。
对于还未做过基因组组装的老师,肯定会有几个问题要问:
目前基因组都是怎么做的,我的材料要怎么做。
组装完成后,怎么判断基因组版本的好坏。
是不是现在脑瓜子嗡嗡的?
淡定,我来帮你解答心中疑问。
问题1
目前基因组都是怎么做的,我的材料要怎么做?
01
开启基因组项目之前的准备工作
正所谓“知知己知彼,百战不殆”。做项目如同作战一般,要提前做好功课。第一个要解决的问题就是材料的基因组多大,复杂度如何?因此,做基因组之前强烈推荐做survey和流式,确定一下基因组大小和复杂度。
在正式进行基因组组装之前,都会进行survey评估,以此衡量基因组的大小、复杂度和杂合度。
那么有很多老师问,可不可以不做流式呢?答案是不做也行,做了更好。如果基因组不是特别复杂,survey分析所用的测序数据量足够,结果理想、准确。那恭喜您!而一旦出现问题,在有流式结果的情况下,就可以用来验证,特别是在survey结果出现多峰情况,无法判定主峰之时,流式的结果显得尤为重要。
02
该如何选择测序方案
截至2020年1月份,目前针对基因组的组装可采用多种技术(如下图)。
图1 目前各种测序技术对基因组组装的贡献
技术纷繁复杂,为了获得染色体级别组装的基因组(基因组Plus版),如下操作。
1
技术选择
第一步,构建contig
目前常用的技术是使用Pacbio和Nanopore技术进行基因组的contig构建。
第二步, scaffold的构建,可选项
另外要提及的是,在基因组组装方面,10X技术不仅可以用来构建scaffold,同时测序深度足够的话,可以直接进行基因组组装,功能很强大的哟。
第三步,Hi-C技术,必选项
该技术称为染色质构象捕获技术,准确度可以媲美早期的遗传图谱。一般而言该技术98%的材料都需要纠错,因此一定要注意选择合适的合作伙伴,该技术用在组装上说,可谓是省时、省心、省钱。
2
策略选择
目前是Pacbio或ONT选择其一,10X或者Bionano可选也可不选,主要目的是纠错和把部分contig以gap的形式进行初步连接。Hi-C技术则为必选项,将contig/scaffold连接成染色体级别。
至此,目前常用组装技术已简要介绍。那组装结果,是“合格品”还是“残次品”呢?我们接着往下看。
问题2
如何评估组装结果的好坏?
一般而言,我们关注以下几个指标:1. 基因组大小;2.contig N50;3.回帖率和覆盖度;4.BUSCO评估;5.单碱基准确度。
01
基因组大小
基因组大小一般会跟survey和流式预估相差不大,但并非一定如此。这两种技术只是一种预测基因组大小的方法,所以与真实基因组大小可能会存在一定的差异。最终组装的基因组大小还会受到材料的杂合度和重复度的影响。杂合过高,可能把杂合的区域也一并组装出,一般组装结果会可能偏大。重复度则需要考虑到测序手段,如果测序的长度能够跨过重复区域,组装出的基因组大小不会有很大差异,如果跨不过去,那很大程度上会组装的少些,重复区域只能组装出一部分。
02
contig N50
contig N50,是组装结果最直观的体现。以苹果的基因组文章为例[zhang, et al., 2019],利用Pacbio+Hic的技术,大大提高了基因组的组装质量,其中一个重要指标就是contig N50,比10年发表在NG上基因组提高了近460倍(contig N50从13k到6.99Mb),享受了技术带来的福利。
N50是一个值得关注的指标。下表是桃的基因组文章中统计了部分物种的组装质量,比较了多个物种的N50的指标。
那是不是所有材料都会达到如此高水平的组装效果呢?
就目前技术,针对不是特别复杂的基因组,contig N50都可以达到Mb级别。这种Mb级别的contig长度,针对基因组组装后的注释分析而言,就准确度和完整度方面足以。因为对于基因组当中,这些contig连接不起来的区域,一般情况下都是基因组的复杂区域,而该区域包含基因的概率很低,因此对基因注释的影响一般不会很大。
但是,需要注意的是,并非所有物种组装后的contig N50都会很高,所以对这个值要理性看待。在这几年的实践中,我们遇到过同样的技术、同样的数据量、同样的算法、不同的材料背景,简单的基因组就是比复杂基因组装得好。因此基因组的重复度和杂合度,都会对基因组的这个指标造成或大或小的影响。
因此,需要以“尽信值则不如无值“的理念看到这个问题。当出现异常的时候,积极地去排查,从而才能得到想要的结果。
03
回帖率和覆盖度
回帖率指的是将同一材料进行二代测序,将二代数据比对至组装出的基因组,看有多少数据可以比对回去。一般情况都能高于90%以上(95%属于平均水平),覆盖度也会在90%以上。在这里,我们会思考这个数据受什么影响呢?
1.基因组中杂合区域的存在。组装时杂合的区域被去掉了,或者没有装出来,这个值就会有所降低。目前都是只装一套基因组的。因此只要不是特别低,一般情况下说明杂合区域的组装都没有问题。
2.二、三代测序技术本身的缺陷。一般来说,二代数据对基因组的覆盖度可达95%以上,那为啥不是100%呢?由于二代测序技术本身的缺陷,在建库过程中,经过了PCR过程,那么PCR的缺点就需要接受。高GC、高重复区域不容易被扩增出来,那么基因组中的这部分就很大程度上以未覆盖的区域存在,所以回帖率不可能达到100%。
3.技术的差异。组装基因组的框架是采用Pacbio技术,抛开组装错误来说,一般都不会到100%。因为该技术在测序过程中不经历PCR,因而不会像二代测序一般受到PCR的局限,故而可能会测到二代测不到的区域。由此回帖率也不会达到100%。
04
BUSCO评估
BUSCO是一个核心单拷贝基因库,根据物种进化关系(界,门,纲等)构建各种单拷贝基因的数据库。该库可以用来评估基因组的核心基因是否均组装出。如下图所示,已发表物种都在85%以上。
图2 基因组和基因的BUSCO评估 [Waterhouse, et al., 2017]
一般情况下,基因组评估均能达到90%以上。所以这个值的含金量就会降低,但是就当前现状来说并未有其他更理想的可替代的评估策略。因此,目前大家还都作为组装后例行评估而采用。
然而组装出的基因组效果是层次不齐。可能读者会有疑问,如果我的评估结果很低的时候该怎么办呢?不要急,我们来分析一下可能的原因。
物种原因。BUSCO是根据目前发表物种依据序列相似度而整理出的一些核心基因集。若研究材料已知信息较少,那么该分析则会存在偏差,参考意义较小。
如果出现上述情况,怎么办呢?可将该物种表达的基因测出,比对到基因组上,看有多少基因序列能够以高覆盖度的形式存在。如果95%以上的EST都可以90%的覆盖度比对回去,那组装结果一定程度上是可信的。
05
单碱基准确度
一般这种方法针对二倍体材料可以采用。将在纠错阶段未使用的另一批二代数据比对回基因组,进行SNP calling。对于二倍体而言,某些位点应该最多有两种碱基型,如果鉴定到的变异位点ref的类型没有数据支持,或者该位点有多种碱基类型,那该位点很大概率上是有问题的。
结语
上述长篇大论相信大家对于组装整体框架有了一个感官的了解和认识,在此恭喜大家,入门了。
此时是否有更多的疑惑溢出,比如 Pacbio和Nanopore如何选择呢?如何构建染色体级别的染色体呢?
别急,欲知后事如何,且看下回分解。
参考:
Verde I, Abbott A G, Scalabrin S, et al. The high-quality draft genome of peach (Prunus persica) identifies unique patterns of genetic diversity, domestication and genome evolution[J]. Nature genetics, 2013, 45(5): 487.
Waterhouse R M, Seppey M, Simão F A, et al. BUSCO applications from quality assessments to gene prediction and phylogenomics[J]. Molecular biology and evolution, 2017, 35(3): 543-548.
Zhang L, Hu J, Han X, et al. A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour[J]. Nature communications, 2019, 10(1): 1494.
作者|hony
审稿|童蒙
编辑|angelica
不关注 . 就捣蛋