三种长片段测序方法对比
近期,由澳洲昆士兰大学发表在bioRxiv的文章《Comparison of long read methods for sequencing and assembly of a plant genome》中,采用三种长片段测序技术Pacific Biosciences (Sequel I), Oxford Nanopore (PromethION、MinION) 和华大智造stLFR(single-tube Long Fragment Read)对夏威夷果(Macadamia jansenii)进行了基因组组装,并分别从组装结果的准确度、完整度、测序成本及样本要求等四个方面进行了对比。
文库构建和上机测序
采用15 ug DNA 构建30Kb以上的文库用于PacBio测序,并将该文库用sequel I测序8个SMRT cell,得到317万条subreads,总数据量为65.2Gb,N50为35.9Kb。
基于ONT平台构建文库的DNA投入量为1.5ug和1.2ug,将其文库分别在PromethION和MinION测序,得到的下机数据分别为23.2Gb和1.7Gb,reads的N50分别是28.5Kb和16.6Kb。
华大智造stLFR文库构建从10 ng DNA稀释液中提取1.5ng用于后续建库,然后采用MGISEQ-2000RS进行测序,得到约74.5Gb的数据用于后续组装。
对比上述三种长片段组装方法可知,stLFR文库组装所需投入量远低于PacBio及ONT,仅需要1.5ng即可。同时,根据表1可知,基于华大智造DNBSEQ平台的测序成本最低,不到PacBio的十分之一。
表1 测序数据统计
数据处理和分析
在对下机数据做接头和低质量过滤后,分别得到25Gb (ONT)、65Gb (PacBio)、74Gb (MGI)数据用于后续分析。设置k-mer为21-,23-和25-对基因组大小进行评估,已知夏威夷果的基因组大小约为616-653Mb。
分别用Redbean v2.5、Flye v2.5、Canu v1.8和Raven对ONT数据进行组装。结果显示Canu 和Flye能得到更大的基因组和更多的contig数,其次是Redbean (~750 Mb, contig N50 ~700 kb)和Raven (~720Mb, contig N50 ~500 kb) 。Canu在32X的contigN50为1.43Mb,远远大于21x下的706Kb。Flye的运算速度比Canu快5倍。
用Redbean、Flye、Canu及Falcon对PacBio数据进行组装,结果显示Falcon结果最好,contig N50为1.38Mb,Redbean的组装结果最分散,完整度只有89%。Flye的组装结果更接近Falcon,但是基因组大小只有767Mb,Canu的重复序列比例太高,组装的基因组达到1.2Gb。
使用superNova 2.0对stLFR进行组装,得到752 Mb 的基因组,contig N50为 35.6 kb,scaffold N50 为3.54 Mb,BUSCO评估基因组完整度为88.3%,组装结果的mismatch和Indel最少,准确性最高。
表2 基因组组装结果
注:表中的BGI即代表采用了基于华大智造DNBSEQ平台的stLFR技术得到的组装结果。
进一步地,如果使用ONT数据对组装结果进行“补洞”,则contig N50 可以从35.6Kb提升到1.05Mb,最长的contig从518 kb 提升到9.7 Mb,gap数从24,933 降低到2,284,基因组完整性也提高了4.8%,达到了92.5%。
表3 用ONT数据对stLFR组装结果进行“补洞”
组装结果比较
用QUAST v5.0.2对组装结果进行评估,并与已发表的夏威夷果基因组进行比较。为了评估碱基的准确度,用QUAST计算组装结果里的mismatch和InDel比例,结果显示:基于华大智造stLFR技术的mismatch和InDel均是最低的,组装结果具有最高的准确性;ONT组装结果在校正前后有明显的差异。
图1 组装结果碱基准确性比较
用BUSCO对各版本组装结果进行完整性评估,采用的数据集为eudicotyledons_odb10 (2121 genes)。结果显示:ONT+Illumina、PacBio以及stLFR+ONT三种方法的完整性无明显差异,均达到92%以上。
图2 组装完成性评估
讨论与结论
通过对比分析,Pacific Biosciences (Sequel I), Oxford Nanopore (PromethION) 和华大智造MGI stLFR三种长片段测序技术都能得到非常好的组装效果。相对而言,华大智造stLFR技术所需投入量最低,仅为纳克级别,并且组装结果的mismatch和InDel最低,准确度最高,特别适用珍贵样本或极端样本检测,同时测序成本上具有显著优势。
参考文献:
Comparison of long read methods for sequencing and assembly of a plant genome.
doi: https://doi.org/10.1101/2020.03.16.992933
会议推荐
想要了解更多?欢迎关注4月16日线上webinar
文章作者澳大利亚昆士兰大学Lachlan教授
亲临智造直播间,在线解读分享!
扫码图片二维码
或点击“阅读原文”,即可报名参加
点击“阅读原文”,报名参加线上Webinar