基因组时代线粒体基因组拼装策略及软件应用现状
基因组时代线粒体基因组拼装策略及软件应用现状
匡卫民,于黎
云南大学生命科学学院,省部共建生物资源保护与利用国家重点实验室,昆明 650091
原文链接:http://www.chinagene.cn/CN/10.16288/j.yczz.19-227
作者简介: 匡卫民,博士,专业方向:遗传学。E-mail: kuangwm0714@sina.com
通讯作者:于黎,博士,研究员,研究方向:动物遗传与进化。E-mail: yuli@ynu.edu.cn
DOI: 10.16288/j.yczz.19-227
网络出版时间: 2019/10/29 16:37:23
摘要:随着测序技术的不断发展,越来越多物种的全基因组数据被测定和广泛应用。在二代基因组数据爆发式增长的同时,除了核基因组数据,线粒体基因组数据也非常重要。高通量测序的全基因组序列中除了核基因组序列也包括线粒体基因组序列,如何从海量的全基因组数据中提取和拼装线粒体基因组序列并加以应用成为线粒体基因组在分子生物学、遗传学和医学等方面的研究方向之一。基于此,从全基因组数据中提取线粒体基因组序列的策略及相关的软件不断发展。根据从全基因组数据中锚定线粒体reads的方式和后续拼装策略的不同,可以分为有参考序列拼装方法和从头拼装方法,不同拼装策略及软件也表现出各自的优势和局限性。本文总结并比较了当前从全基因组数据中获得线粒体基因组数据的策略和软件应用,并对使用者在使用不同策略和相关软件方面给予建议,以期为线粒体基因组在生命科学的相关研究中提供方法上的参考。
关键词: 全基因组;线粒体基因组;有参考序列拼装方法;从头拼装方法;拼装软件
State Key Laboratory for Conservation and Utilization of Bio-Resource in Yunnan, School of Life Sciences, Yunnan University, Kunming 650091, China
Abstract:With rapid advances in next-generation sequencing technologies, the genomes of many organisms have been sequenced and widely applied in different settings. Mitochondrial genome data is equally important and the high-throughput whole-genome data typically contain mitochondrial genome (mitogenome) sequences. How to extract and assemble the mitogenome from massive whole-genome sequencing (WGS) data remain a hot area in molecular biology, genetics and medicine. The cataloging and analysis of accumulating mitogenome data promotes the development of assembly strategies and corresponding software applications related to mitochondrial DNA from the WGS data. Mitogenome assembly strategies can be divided into mitogenome-reference strategy and de novo strategy. Each strategy has different advantages and limitations with respect to the difference of bait mitogenome-linked short reads from the WGS data and corresponding assembly strategy. In this review, we summarize and compare current mitogenome assembly strategies and the software applications available. We also provide suggestions related to use different assembly strategies and software applications, and the expected benefits and limitations of methods references in life science.
Keywords:whole-genome sequencing; mitogenome; mitogenome-reference assembly; de novo assembly; assembly software
线粒体基因组(mitochondrial genome)作为一种特殊且容易获取的遗传标记,因具有高突变速率、无基因重组、高拷贝数和母系遗传等特点[1],被广泛应用在系统发育和生物地理研究[2~5]、群体遗传[6~13]、医学[14~17]和生态学研究[18~20]等领域。在早期的研究阶段,线粒体基因组序列的获取是首先通过长链链式反应(long range PCR, LR-PCR)和克隆PCR扩增,然后再通过引物步移(primer walking)桑格(Sanger)测序。这种方法准确性高,但通量低、耗时耗力和花费高。随着测序技术的发展,特别是新一代测序技术(next-generation sequencing, NGS)的发展及测序成本的快速下降,使得线粒体基因组序列的获取变得更为容易。目前,NGS及其衍生技术(如LR- PCR加NGS、RNA测序加缺口填补(gap filling)和直接鸟枪法测序[21~23]等)使得高通量测序成为普遍现象。相比传统的Sanger测序技术,NGS技术通量高、可以更快速且用更低的花费获得全基因组序列(whole- genome sequencing, WGS)、外显子序列和基因转录本[24]。新一代测序技术的基本原理是:测序平台对样本总DNA或分离纯化后的线粒体DNA随机打断成50~700 bp的单链DNA文库(DNA长短取决于文库构建平台),并将短片段的两端与测序接头序列连接起来,然后对产生的几百万条的DNA分子进行测序,高效、准确、快速地获得大量DNA序列,最后通过生物信息分析从海量的全基因组数据中获取线粒体基因组。近年来,以Pacific Biosciences (PacBio)和 Oxford Nanopore单分子测序技术为代表的第三代测序技术飞速发展,其测序过程无需进行DNA随机打碎和PCR扩增,并且读长增加到几十kb,甚至到100 kb,拼装后得到更高质量的全基因组序列。基因组技术的发展也促使线粒体序列数据爆发式地增加。因此,越来越多的研究者尝试采用多个不同的策略从WGS数据中获取线粒体基因组[23,25~39]。
在NGS时代如何高效分离和富集线粒体DNA而避免核DNA的污染是线粒体基因组测序及后续分析的关键,目前主要包括两种分离策略:(1)在NGS测序前,从总DNA中物理分离纯化线粒体DNA。这种策略先通过氯化铯密度梯度离心/差速离心或者试剂盒富集磁珠将核DNA和线粒体DNA分离[40,41],然后将分离纯化后的线粒体DNA进行文库构建和高通量测序。这样,通过在NGS测序前就将核DNA和线粒体DNA (或叶绿体DNA)分离,以保证获得的数据是来自于线粒体(或叶绿体)。该方法的优势在于避免了核DNA的污染,即线粒体序列转移到核基因的序列(nuclear mitochondrial pseudogenes, Numts[42])。但是,物理分离纯化的方法所用的试剂盒价格昂贵、操作比较繁琐和耗时耗力、对样品的质量和数量也都有一定的要求,因此目前仍然存在许多挑战[43,44],特别是在珍稀野生保护动物和古DNA (ancient DNA, aDNA)的研究领域则更为困难。(2)先进行PCR扩增,对扩增产物进行NGS测序。该策略是先用引物扩增出线粒体基因组目的片段,再将扩增产物直接上机进行NGS测序,无需构建DNA文库[45]。该方法的优势在于需要的起始DNA样本量少,特别适合小型昆虫和环境DNA研究领域,关键在于模板DNA的质量和PCR引物的特异性。
NGS数据被广泛应用在生命科学的很多领域,尤其是在进化生物学、群体遗传学等揭示物种的起源和扩散历史方面发挥了重要的作用。研究者们常常发现核基因数据和线粒体数据表现出不一致的谱系关系,特别是具有复杂的群体历史的类群(比如基因交流、遗传漂变、偏向性迁徙和祖先谱系分拣等)。可见,在分析NGS数据时,除了核基因组数据外,线粒体基因组数据也非常重要。然而,目前通过NGS方法获得的全基因组数据中即包括了线粒体基因组数据和核基因组数据。在全基因组数据中,虽然与核基因reads的测序深度相比,线粒体reads的测序深度是核基因的100~1000倍(细胞中存在几十到数百个拷贝)[46],但是线粒体基因组总的reads数量只占总WGS的reads很少一部分,而且常常受到核基因和叶绿体(绿色植物) reads的污染。因此,使用高效的生物信息工具和分析策略从海量的全基因组数据中快速准确地获得线粒体基因组reads并完整准确地进行后续线粒体基因组拼装就显得非常重要[36]。本文将总结当前常用的从WGS数据中获取线粒体基因组序列的拼装策略及相关软件,并对使用者在使用不同策略和相关软件方面给予建议。
1 有参考序列拼装策略及软件应用
有参考序列拼装策略需要选择近缘物种的线粒体基因组或部分片段作为参考序列从研究类群的全基因组数据中捕获线粒体reads。根据从WGS数据中捕获线粒体reads是否需要完整的线粒体基因组作为参考序列,目前常用的策略可以分为:(1)基于线粒体整个基因组的拼装策略;(2)基于线粒体片段的拼装策略[47,48](图1)。在数据分析流程上,首先使用全基因组比对工具(如BWA[49])将总reads映射(mapping)到线粒体参考序列上,根据序列的相似性捕获线粒体reads,然后再使用不同的序列延长策略对捕获到的线粒体reads进行序列延伸,直到延长到完整的线粒体基因组长度。
1.1 基于线粒体基因组拼装策略及软件应用
基于线粒体基因组作为参考序列获取物种或群体的线粒体基因组序列的方法被广泛应用在系统发育和群体遗传学研究。如Ko等[50]将现存大熊猫的线粒体基因组作为参考序列,获取到一个2.2万年前大熊猫的线粒体基因组。其原理是根据同源比对的研究方法,将WGS数据映射到近缘物种的线粒体基因组上,再根据线粒体reads间相互重叠情况,从而完成序列的延长(图1)。这种方法较容易获取和参考基因组一致的序列(consensus sequence),并且准确性高,运算速度较快且不耗计算资源。
随着测序技术的发展,对数据分析能力的需求也在增加,特别是人类线粒体基因组研究领域,包括人类进化历史、人类线粒体疾病等方面的研究[51,52],推动了人类线粒体基因组的拼装和注释相关软件的发展(表1)。MIA是较早用于人类线粒体基因组拼装的软件,研究者对尼安德特古人类骨头提到的DNA进行高通量测序后,用现代人的线粒体基因组作为参考序列,使用该软件获取到尼安德特古人类的线
图1 从全基因组测序数据中获得及拼装线粒体基因组策略
Fig. 1 Strategies of mitogenome assembly from whole-genome sequencing data
分析流程图根据参照文献[36,47,66]修改绘制。实线框代表全基因数组短reads序列;虚线框代表获取线粒体基因组序列的方法。
表1 线粒体基因组拼装软件信息
Table 1 Mitogenome assembly software
软件名称 | 是否需要参考序列/ | 适用 | 输入文件格式、 | 变异 | 结构可 | 运行 | 编程 | 软件网址 |
MIA | 是/自定义参考序列 | 任意 | Fastq、SE reads和 | × | × | CUI | C/C++ | https://github.com/mpieva/mapping-iterative-assembler |
MitoBamAnnotator | 是/ rCRS | 人 | Bam | √ | √ | Web | Java | http://bioinfo.bgu.ac.il/bsu/software/MITO-BAM |
MitoSeek | 是/rCRS和hg19 | 人 | Bam | √ | × | GUI | Perl | https://github.com/riverlee/MitoSeek |
mtDNA- | 是/rCRS | 人 | Fasta | × | √ | Web | Java | http://mtprofiler.yonsei.ac.kr |
MITObim | 是/自定义参考序列 | 任意 | Bam | × | × | CUI | Perl | https://github.com/chrishah/MITObim |
Mit-o-matic | 是/rCRS | 人 | Fastq、SE reads和 | √ | √ | Web/GUI | Java | http://genome.igib.res.in/mitomatic |
MToolBox | 是/rCRS和RSRS | 人 | Fastq/Bam/Sam、 | √ | × | Web/CUI | Python | https://sourceforge.net/projects/mtoolbox |
ARC | 是/自定义参考序列 | 任意 | Fastq、SE reads和 | × | × | Web/CUI | Python | https://github.com/ibest/ARC |
Phy-Mer | 是/自定义参考序列 | 任意 | Fasta/fastq/Bam、 | × | √ | CUI | Python | https://github.com/danielnavarrogomez/phy-mer |
mtDNA- | 是/rCRS和RSRS | 人 | Fastq/Bam/VCF、 | √ | √ | Web | Java | https://mtdna-server.uibk.ac.at |
IOGA | 是/自定义参考序列 | 任意 | Fastq、SE reads和 | × | × | CUI | Python | https://github.com/holmrenser/IOGA |
NOVOPlasty | 是/自定义参考序列 | 任意 | Fastq/fasta、SE reads | × | × | Web/CUI | Perl | https://github.com/ndierckx/NOVOPlasty |
Norgal | 否 | 任意 | Fastq、SE reads和 | × | × | CUI | Python/ | https://bitbucket.org/kosaidtu/norgal |
Organelle- | 是/自定义参考序列 | 任意 | PacBio reads | × | × | CUI | Perl | https://github.com/aubombarely/Organelle_PBA |
MitoSuite | 是/rCRS, RSRS, | 人 | Bam/Sam | √ | √ | GUI | Python | https://mitosuite.com |
ORG.Asm | 是/自定义参考序列 | 任意 | Fastq、SE reads和 | × | × | CUI | Python | https://git.metabarcoding.org/org-asm/org-asm |
MitoZ | 否 | 任意 | Fastq、SE reads和 | √ | √ | CUI | Python | https://github.com/linzhi2013/MitoZ |
GetOrganelle | 是/自定义参考序列 | 任意 | Fastq、SE reads和 | × | × | CUI | Python | https://github.com/Kinggerm/GetOrganelle |
Trimitomics | 是/自定义参考序列 | 任意 | RNA-seq reads、 | × | × | Unknown | Unknown | Unknown |
按拼装软件发表时间先后顺序排列。“√”表示可以实现的功能;“×”表示不可以实现的功能;GUI:图形用户界面;CUI:命令行运行界面;Web (web server):网络图形用户界面。
粒体基因组[53]。随着人类线粒体基因组数据的不断累积和研究领域的不断扩大,对数据分析能力和软件的功能提出了新要求。一些网络或windows图形用户界面的软件被广泛使用,包括MitoBamAnnotator[54]、MitoSeek[55]、mtDNA-profiler[56]、mit-o-matic[57]、MToolBox[58]、Phy-Mer[59]、mtDNA-Server[60]和MitoSuite[61]等。这类软件支持多种输入文件格式,除了mtDNA-profiler和mit-o-matic外,其他软件都支持二进制的Bam格式文件。因此,这些软件可以直接读取不同软件的输出数据,加快了整个分析流程。值得注意的是,各种软件供用户选择的参考基因组数量有差异,如MitoBamAnnotator、mtDNA-profiler和mit-o-matic仅提供了1套人类基因组(rCRS),MitoSeek (rCRS, hg19)、mtDNA-Server (rCRS, RSRS)和MToolBox (rCRS, RSRS)提供了2套基因组数据,而MitoSuite提供了5套人类参考基因组(rCRS、RSRS、hg19、GRCh37和38)。使用Phy-Mer软件,用户可以自定义参考基因组序列。此外,通过MitoBamAnnotator、MitoSeek、MToolBox、mtDNA- Server、mit-o-matic和MitoSuite软件,用户可以设置相应参数(比如最小等位基因频率,MAF)来检测线粒体基因组的变异位点和异质性位点(heteroplasmic sites, 即线粒体基因组序列上同一个位置存在两种及两种以上的碱基类型,来源可能是外源污染,包括测序错误、特异性扩增,reads匹配错误等,也可能是内源线粒体异质体)。MitoBamAnnotator主要评估和预测线粒体异质性位点潜在的功能,但使用功能比较单一。MitoSeek 和MToolBox扩展了分析功能,包括线粒体拷贝数目、比对质量、结构变异检测等功能。MitoSeek还可以借助Circos[62]软件对检测出的变异进行可视化,包括基因结构变异(structural variations, SVs)和单核苷酸变异(single nucleotide polymorphism, SNPs)。MToolBox优势在于可以单次分析多个个体,并且将变异信息记录到VCF文件中,更容易被解析和注释。从用户操作运行方面比较,MitoSeek和MToolBox是一款基于Perl编程语言的Linux运算环境,并且需要加载多个独立的Perl模块和比对软件(BWA)以及变异检测软件(GATK[63]),对于非生物信息研究背景的用户安装和使用这类软件相对较困难。mtDNA-Server和mit-o-matic软件是网络用户图形分析工具,用户不需要复杂的安装过程,仅通过注册的邮箱后上传数据并进行分析,操作和数据分析相对简单,缺点是受输入文件大小的限制,特别是高测序深度的个体上传数据较缓慢。近期开发的MitoSuite软件扩展了更多实用功能,功能更强大,包括人类线粒体基因组的拼装、变异检测、疾病变异注释和功能预测、拷贝数目、质量检测和覆盖度的可视化等。MitoSuite相比于其他早期的软件,不需要安装其他复杂的计算模块,是图形化操作系统且能本地运行的一款容易操作的软件,可以直接从Bam文件中自动建立一致性序列后进行系统发育或群体遗传学的研究[61],所以对于人类线粒体基因组的研究领域,选择MitoSuite更具有优势。
综上所述,使用上述方法及相关软件从全基因组数据中获取线粒体基因组序列,首先借助全基因组比对软件,包括常用的BWA和Bowtie/Bowtie2[64],将从总reads中捕获到线粒体基因组reads。这两种比对软件优势在于可以对reads错配或reads多处匹配进行筛选和过滤,通过后续的质控获取到纯净的线粒体reads。但是,无法区分Numts和线粒体拷贝数,从而影响线粒体异质性的检测。另外,这些方法及相关软件需要选择近缘物种的线粒体基因组参考序列,如果选择进化关系较远的物种的线粒体基因组作为参考序列,在全基因组比对的过程中可能会发生reads错配或者因序列分歧大导致部分区域比对不上而出现缺失数据(gap),从而影响到后续线粒体基因组拼装的准确性和完整性[38]。因此,选择合适物种的线粒体基因组作为参考序列是该方法和软件应用的关键。对于要研究的物种无法确定其近缘物种,或者是确定了其近缘物种但没有已有线粒体基因组数据的情况下,这个方法就有很大的局限性[36,39]。
1.2 基于线粒体片段拼装策略及软件应用
上述借助近缘物种的线粒体全基因组作为参考序列的拼装策略及相关的软件多数适用于人的线粒体基因组拼装、变异检测和变异注释等。随着越来越多其他物种的研究,线粒体基因组分析也被广泛应用在非模式物种的研究中[65]。仅用人的基因组作为参考序列的软件来获取和分析其他物种的线粒体基因组序列就表现出很大的局限性,因此迫切需要开发适用范围更广的线粒体基因组拼装软件。与总reads直接映射到线粒体基因组参考序列的拼装策略类似,但可以选择遗传关系较远或较近物种的线粒体基因组,甚至线粒体部分序列,来进行其它物种的线粒体基因组序列获取和拼装。该方法首先借助全基因组比对软件将过滤后的WGS数据映射到参考序列上,高覆盖度且连续的线粒体reads组成序列块(bins),这些单独的bins或者根据bins重叠情况连接成Contigs替换原先的参考序列,并作为下次映射的靶序列(baiting sequencing),依次反复将WGS数据映射到新生成的靶序列上延长序列,最后延长到完整的线粒体基因组长度(图1)。反复映射和替换靶序列可以避免参考序列和拼装方法的偏好性。拼装过程中需要调整Kmer值(拼装过程中reads打断成长度为K的一段固定核苷酸序列)大小,反复将WGS数据映射到靶序列上进行序列延长,因此需要消耗大量的计算资源,原始数据越大越消耗计算资源。如果选择遗传关系越远的物种或选择的靶序列越短,拼装时的序列延长则需要更多的循环次数,计算时间也就越长。
Hahn等[66]开发的MITObim软件可以直接从WGS数据中拼装非模式物种的线粒体基因组,这个软件嵌入了MIRA和IMAGE计算模块。相比MIA,MITObim的准确性可以达到99.5%以上,在重复区域可以有效的填补gap,计算速度和内存消耗也占有优势,成为目前最广泛使用的线粒体基因组拼装软件。该软件不支持双端序列(paired-end reads, PE reads),支持Iontorrent、454和PacBio测序平台数据,而且建议原始数据reads数量不要超过20~40百万条。如果超出,建议从原始reads中随机抽取部分reads,这样就减少reads的数量,不过这样可能会影响拼装结果的准确性和完整性。当然,MITObim也无法解决线粒体基因组拼装中一些尤为复杂的问题,如Numts、复杂的无脊椎动物和植物的线粒体拼装等[67]。ARC[47]软件的拼装过程类似于MITObim软件,两者都可以选择亲缘关系较远的物种的线粒体基因组或者线粒体部分序列就可以得到完整的线粒体基因组序列,主要的差异在于序列延长方式。ARC是直接对bins进行拼装完成序列的延长,而MITObim则是反复将总reads往靶序列上映射完成延长序列。相比其他全基因组拼装软件,ARC不是将总reads进行从头拼装,而是先通过映射的方式对reads重叠的bins进行拼装,优势在于不耗内存,运行速度较快。此外,ARC基本上不受降解严重的DNA质量和低质量的reads的影响,特别是aDNA,而且运算速度比MITObim和传统的拼装方法快[47]。Li等[68]使用ARC软件对19个隐杆线虫(Caenorhabditis)物种进行线粒体基因组拼装,测试了不同测序平台(Roche、454、Illumina和Ion Torrent)对线粒体基因组拼装的影响,结果发现ARC软件对454平台的数据进行分析时会崩溃,可能的原因是序列长度范围大导致数据分析需要较大的计算资源。但是ARC拼装的完整性都要比MITObim好。然而,Dierckxsens等[47]用ARC软件对角胫叶甲属(Gonioctena Intermedia)进行线粒体基因组拼装,结果发现尽管ARC准确性高(99.99%),但不能将线粒体拼装到一条Contig上,完整性较差(覆盖到线粒体基因组的85.39%)。
Dierckxsens等[38]开发了NOVOPlasty软件,类似于SSAKE[69]和VCAKE[70]算法,将排序后的reads存放在哈希表中,以便reads的快速读取,因此运算速度较快。NOVOPlasty软件需要提供一条靶序列,可以是一条短read、一段编码基因序列,甚至是完整的线粒体基因组序列。值得注意的是,NOVOPlasty与ARC拼装策略不同的是,NOVOPlasty借助提供的靶序列从WGS数据中获取线粒体基因组的一条read,然后再对捕获到的read进行双向延伸。作者将NOVOPlasty与当前主流的拼装软件相比较,包括MITObim、MIRA、ARC、SOAPdenvo2和CLCbio,结果发现:除了ARC外,其余软件都将线粒体拼装在一条Contig。通过对NOVOPlasty拼装到的序列进行质量评估,没有发现缺失位点和不确定的碱基位点,表明准确性和完整性高。NOVOPlasty的计算速度最快、基因组覆盖度最高,CLCbio准确性同样也达到了100%,但是基因组的覆盖度不高(89.96%)。MIRA和ARC都体现最高的基因组覆盖度,但是准确性最低。增加测序覆盖度和reads的长度可以提高NOVOPlasty的完整性和准确性,特别是高重复和AT含量高的区域。NOVOPlasty运行不需要载入其他软件和模块,对于用户来说安装和操作比较简单[38]。
目前用于叶绿体基因组拼装软件同样适合线粒体基因组的拼装,包括IOGA[71]、GetOrganelle[72]和ORG.Asm[73]等。IOGA和GetOrganelle类似于MITObim 中的“Baiting and iterative 映射”分析流程。IOGA分析过程需要Bowtie2、SOAPdenovo2、SPAdes 3.0[37]和其他程序来捕获线粒体reads,拼装过程还需要调整拼装参数Kmer大小(范围为37~97),最后通过拼装似然评估(assembly likelihood estimation, ALE)从候选的Contigs序列里确定线粒体基因组[74]。这种方法适合降解程度较大的样品的线粒体基因组或叶绿体基因组拼装,比如博物馆样品等。与其他拼装软件比较,IOGA使用ALE检验来筛选拼装好的Contigs,最后通过最大似然值来判断最优的拼装
序列。GetOrganelle和IOGA数据分析流程非常相似。GetOrganelle嵌入了独立的Bowtie2、BLAST[75]和SPAdes 3.0分析模块,双端reads和单端reads (single- end reads,SE reads)均可以作为GetOrganelle的输入文件。GetOrganelle可以直接在SPAdes拼装的过程中进行reads错误矫正和错配过滤,保留高质量的reads作为后续分析,而IOGA和MITObim则需要用其他过滤软件提前进行低质量reads的过滤。IOGA和GetOrganelle拼装软件均嵌入SPAdes程序计算模块,在拼装过程中需要反复调试Kmer值的大小。选择合适的Kmer不仅能够保证线粒体Scaffolds或Contigs的完整性和准确性,还可以减少计算时间和运行内存[72]。
最近,随着单分子测序PacBio和Nanopore长片段测序技术的发展,一些复杂物种的全基因组序列被测序和应用,特别是多倍体物种和高重复的物种,显示了长片段测序技术的优势[27,76~80]。同时,已经开发出了一些适用于拼装PacBio和Nanopore长reads的软件,比如HGAP[81]、Falcon (https:// github.com/PacificBiosciences/falcon)、Canu[82]和Sprai[83]等,而从这些平台测序得到的长reads进行线粒体和叶绿体基因组拼装的方法和算法还很缺乏。目前已经有一些研究者直接使用PacBio和Nanopore平台进行线粒体基因组测序并进行拼装[25~29]。Soorni等[84]基于Perl编程语言开发的Organelle-PBA直接对PacBio平台测序到的全基因组长片段进行线粒体或叶绿体基因组的拼装。Organelle-PBA安装和使用需要安装多种Perl模块和多种软件,包括BlasR[85]、Samtools[86]、Blast[87]、SSPACE-LongRead[88]、Sprai和BEDTools[89]等。虽然PacBio和Nanopore测序平
台可以得到更长的reads,但是仍然存在一定的碱基错误率,因此需要使用碱基矫正软件进行碱基矫正,比如Sprai。因PacBio和Nanopore测序平台不需要在建库的过程中进行DNA随机打断和扩增并且具有读长长特点,所以可以完整得将线粒体基因组一次性测通,有效避免了Numts的污染。但同时因为PacBio和Nanopore测序平台对样品DNA质量有极其严格的要求,要保证DNA的完整性,所以Organelle- PBA的使用也有局限性。
2 从头(de novo)拼装策略及软件应用
目前,世界上越来越多的物种的全基因组数据和线粒体基因组数据被公布,但也有绝大多数物种的基因组信息还未被测定,针对没有参考基因组序列的物种,从头拼装是一种快速和准确地获取遗传信息的策略,这种方法被广泛应用在DNA和RNA序列拼装。线粒体基因组的从头拼装与核基因组的拼装过程相似,首先从海量的全基因组数据中找到短reads的一致性序列,然后再根据不同长度的大片段文库进行Contigs的排序和连接,最后延长到Scaffolds水平。根据线粒体reads的来源不同,可以分为从全基因组数据中从头拼装线粒体基因组策略和从转录组数据中从头拼装线粒体基因组策略(图1)。
2.1从全基因组数据中从头拼装线粒体基因组策略及软件应用
从头拼装线粒体基因组方法不需要提供完整的线粒体基因组或线粒体部分序列作为参考序列。从头拼装首先将WGS的全部reads进行从头拼装[47,48],即将核基因和线粒体基因reads都分别拼装为长片段序列,然后依据线粒体基因组序列长度和高测序深度进行严格的Contigs过滤得到候选线粒体Contigs,最后反复将WGS数据映射到候选线粒体Contigs上,不断延长Contigs,直到延长到完整线粒体基因组长度(图1)。现有的软件有Norgal[36]和MitoZ[39]等。对于一些没有近缘物种线粒体基因组的物种,或者DNA降解严重的样品(比如aDNA序列),用有参考
序列拼装方法就有很大的局限性。所以,对aDNA或者环境DNA首先进行NGS测序,再进行线粒体基因组从头拼装即是一个行之有效的策略。但是,这种方法常常要借助于全基因组或转录组拼装的软件和计算模块(包括SOAPdenovo2[90]、SPAdes[37]、Velvet[91]、BIGrat[92]、CLCbio (https://www.qiagenbioinformatics.com/products/clc-assembly-cell)、SOAPdenovo-Trans[93]和Trinity[94]等)对整个基因组数据进行拼装,而且需要反复调整Kmer值的范围以达到最佳的拼装质量,所以耗费计算资源,计算速度较慢。
传统的从头拼装软件,包括SOAPdenovo2、Newbler、SPAdes、Velvet、CLCbio、ALLPATHS[95]和Platanus[96]等,在全基因组序列拼装过程中,其线粒体Scaffolds或Contigs常常被过滤掉。从头拼装线粒体基因组则借助传统的从头拼装软件,在分析过程中考虑线粒体reads的高测序深度,而不是将其删除。目前已经有许多动植物的线粒体基因组用从头的拼装方法获得了完整的线粒体基因组序列。Lee等[97]对桔梗科的桔梗(Platycodon grandiflorus)和党参(Codonopsis lanceolata)进行了低覆盖度基因组测序并对线粒体基因组进行拼装。他们首先使用Celera、SOAPdenovo, SPAdes和CLCbio等4种全基因组拼装软件对全部reads 进行从头拼装,得到由核基因和线粒体组成的Contigs库,其次根据线粒体的Contigs和核基因组的Contigs平均测序深度的差异确定候选线粒体Contigs,再将WGS数据比对到候选线粒体Contigs上,如此循环完成Contig的延长,最后得到完整的线粒体基因组[97]。类似于这种拼装策略,Al-Nakeeb等[36]开发的Norgal软件,先使用MEGAHIT[98]拼装软件对NGS数据进行从头拼装,然后再将NGS数据重新映射到拼装好的Contig上,通过线粒体和核基因组的reads覆盖度来判断线粒体Contig(s)。他们通过与其他不同策略的线粒体基因组拼装软件比较发现,Norgal软件的准确性和NOVOPlasty软件相似,但是从运算速度上来比较,NOVOPlasty远比Norgal和MITObim要快,原因是Norgal需要调整不同Kmer大小对整个基因组进行拼装,然后再比对reads和计算核基因组reads的测序深度来判断拼装的可靠性[36]。
随着用户对数据分析的需求越来越大,要求简化及高效率的数据分析流程、功能全面和良好的用户体验的软件越来越成为迫切的需要。Meng等[39]开发的MitoZ软件可以“一键式”地对线粒体基因组进行拼装、注释和可视化。该软件包括了多种计算模块,包括原始数据的预处理、从头拼装、候选线粒体序列的富集和线粒体基因组的注释和可视化等功能。相比于其他软件,该软件能对低质量的reads、碱基大量缺失的reads和建库中PCR冗余的reads进行过滤,以保证后续分析数据的可靠性。MitoZ整合了SOAPdenovo-Trans的算法,从核基因组中的reads进行线粒体基因组的从头拼装,其原理是:根据线粒体基因组reads的平均测序深度远比核基因组的高,设置不同的Kmer参数来达到最佳的拼装效果。这个软件提供了两种拼装方式:快捷模式(quick model)和多Kmer模式。根据作者的建议尽可能使用多Kmer模式调整不同Kmer参数,以保证复杂线粒体基因组拼装的完整性和准确性。从拼装的基因数量和序列的总长度方面进行比较,MitoZ比有参考序列的拼装策略更具有优势,特别是对于物种间相似度很低的基因。此外,除了各类软件算法的差异,重复序列、AT含量和异质性率(异质性位点占总变异位点的数量)等也是影响线粒体基因组的拼装完整性和准确性的关键因素[39]。MitoZ对线粒体基因组的注释(Blast、Genewise、MiTFi和Infernal)以及可视化(Circos)功能集成了其他成熟的软件模块,因此间接地扩展了拼装软件的功能,也极大地简化了数据的分析过程。
2.2从转录组数据中从头拼装线粒体基因组策略及软件应用
新一代测序技术的发展同时推动了转录组水平的研究,从转录组数据中获得基因组编码序列已经很成熟,而总的RNA转录本中包含大量的线粒体编码基因转录本,于是研究者开发了可以高效地从转录组数据中富集线粒体编码基因序列的一些软件。这些方法的原理是根据线粒体在细胞内多拷贝数的特征,线粒体编码基因mRNA的reads测序深度远比核基因组的编码基因reads高,具有高水平的基因表达量。Plese等[99]开发了Trimitomics软件能快速有效得从转录本reads里面对线粒体编码基因序列进行拼装。该软件的分析流程包括了NOVOPlasty、Bowtie2/Trinity和Velvet等3个独立拼装过程:(1)首先使用NOVOPlasty软件将全部的RNA reads进行从头拼装,根据Kmer大小范围(25、39、45和51)确定线粒体编码序列的完整性;(2)如果没有拼装到完整的线粒体编码序列或者拼装到部分序列,则先使用Trimmomatic 0.33[100]对原始RNA reads进行过滤,再用Bowtie2[64]软件将过滤后的reads 比对到近缘物种的线粒体基因组上,用Trinity[94,101]对mapped- read进行从头拼装;(3)使用Velvet软件对全部的转录本进行从头拼装,接着用BlastN软件[102]确定得到的线粒体Contigs。如果以上3种方法都没有拼装到完整的线粒体编码序列,那么再使用Geneious软件整合以上3种方法拼装的结果,再将整合的结果在NCBI数据库中进行同源性鉴定。作者通过对6个无脊椎动物进行线粒体编码基因的拼装,结果发现3种拼装过程都能够覆盖到97%以上的线粒体编码基因序列。从拼装完整性和准确性来评估NOVOPlasty、Bowtie2/Trinity和Velvet拼装过程的可靠性,结果发现3种拼装方法因物种差异而差异,如A.valida和P.dumerilii这两种纽形动物,Bowtie2/Trinity拼装流程得到的线粒体编码序列的质量更好。而从运行时间、运行内存上比较,NOVOPlasty拼装流程更具有优势。值得注意的是,Trimitomics软件提供3种拼装流程,通过判断拼装结果的完整性来判断是否进行其他拼装流程。同时对于复杂物种的线粒体基因组,还可以整合3种拼装流程的结果,增加了可靠性。
3 拼装策略及软件使用建议
当使用者在使用不同的线粒体基因组拼装软件时,首先要区分选择有参考线粒体序列拼装方法的软件还是从头拼装方法的软件。如果使用者要拼装的物种的遗传信息很清楚,可以选择有参考拼装方法的软件。如果要拼装的物种缺乏相关的遗传背景,特别是aDNA,建议选择从头拼装的策略。此外,用户选择不同的软件还需要注意以下几点:(1)了解各类软件的原理及适用性,特别是一些软件对基因组上高重复区有偏好性;(2)适用的物种,人或者非模式物种;(3)不同的软件依赖于不同的数据类型,首先需要区分数据是核基因组数据还是转录本数据,长片段还是短片段序列,单端reads还是双端reads等;(4)不同的软件对输入的文件格式有不同的要求;(5)根据使用者实际需要评估计算资源和操作系统选择不同的软件。影响线粒体基因组拼装的完整性和准确性的因素很多,包括基因组序列特征(比如重复元件,异质性)、测序深度和测序技术(reads长度和碱基错误率)都给序列拼装带来了挑战。此外,尽管基因组拼装算法和软件在不断地发展和优化,但在WGS数据中很难区分线粒体和核基因相似的reads,以及Numts污染[103]等问题,都会造成不同拼装软件在拼装结果上的冲突和后续研究分析结果的推断[104]。值得注意的是,有研究报道发现,不同的物种采用不同的拼装软件,拼装到的线粒体基因组的完整性(比如蛋白质编码区、rRNA和tRNA的数量)和准确性均有差异[105]。如果计算资源允许的情况下,应当选择多种拼装策略的软件进行线粒体基因组的拼装,而对于低覆盖区域或不同拼装软件间导致结果不一致的区域或gap,还需要Sanger测序进行验证[105]。
本文共列举了19个从WGS数据中拼装线粒体基因组的软件(表1),多数软件的代码和软件包存储在GitHub,优势在于它是基于网站和云的服务,可以开源软件的代码,以及跟踪和控制对代码的更改。这些软件中有12个软件是命令行运行的方式(CUI),即可在Linux操作系统下完成,用户可以在参数设置文本文件或者命令行参数中设置软件运行参数。命令行运行方式的优点是可以跨平台进行大数据的计算,比如可以将任务提交到大型计算集群上进行计算,缺点是使用者必须要熟悉大量的计算机命令,而不是用鼠标操作就能实现。另外一种运行方式是网络(web server, Web)或windows图形用户界面运行(GUI),用户通过简单的鼠标操作就可以完成参数设置,非常适合对软件不熟悉或者生物信息研究的初学者。
此外,本文列举的19个软件中,共有9个是用Python和Perl语言编写的(表1)。其他软件,如MIA使用的则是C/C++,而Norgal使用面向对象编程语言Java编写。这些编程语言具有可移植性、可扩展性和可嵌入性、具有丰富的库等特点。
4 结语与展望
新一代测序技术的不断发展使得越来越多物种的全基因组数据信息被公开和应用,这些数据包含线粒体DNA和核DNA。此外,即使在基因组时代,对线粒体基因组的研究仍然是不可缺少的,比如对于有复杂社会结构和与性别相关的扩散行为的物种的研究[13,106]等。这些研究都促进了线粒体基因组数据爆发式增长和拼装策略及相关软件的发展。
线粒体基因组的拼装是非常复杂和快速发展的领域,包括获取线粒体基因组的技术和方法等都需要持续地改进和提高,好的拼装策略依赖于WGS数据集、计算能力和可获得的参考基因组。此外,成功获得一个高质量的线粒体基因组取决于许多因素,包括建库测序平台、基因组的结构特点(重复序列含量、GC含量等)[107]。数据类型也决定线粒体拼装的质量,如aDNA。最近测序技术和提取aDNA的发展推动了古基因组的研究,并利用生物信息学的手段从WGS数据中拼装古线粒体基因组序列。aDNA因长时间保存在土壤中或在博物馆中而导致DNA被降解成小的DNA片段,又加上发掘的aDNA的近缘物种的不确定性,因此为古线粒体基因组的拼装带来许多挑战。正如Meng等[39]指出,开发一款灵活性和高效率的软件,具有良好的用户体验的软件,使得用户能够把更多的时间和精力集中在生物学问题研究上,而不是如何获取线粒体基因组。
参考文献(References):
略,详见原文:http://www.chinagene.cn/CN/10.16288/j.yczz.19-227
匡卫民, 于黎. 基因组时代线粒体基因组拼装策略及软件应用现状[J]. 遗传, 2019, 41(11): 979-993.
Kuang Weimin, Yu Li. Mitogenome assembly strategies and software applications in the genome era. Hereditas(Beijing), 2019, 41(11): 979-993.
(责任编委: 吴东东)
《遗传》是由中国遗传学会和中国科学院遗传与发育生物学研究所主办、科学出版社出版的中文精品学术期刊。1979年创刊,至今已有40年历史,在国内遗传学和基因组学研究领域具有着广泛的读者和较高的影响力。目前,被国际和国内多家权威数据库收录,如PubMed、Medline、中文核心期刊、中国科技核心期刊、CSCD等,并多次荣获 “中国精品科技期刊”、“百种中国杰出学术期刊”和“中国国际影响力优秀学术期刊”等称号。
欢迎投稿!www.chinagene.cn
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”