说说三代测序

Original 生信阿拉丁生信阿拉丁 2022-05-16

收录于合集

说说三代测序

随着基因测序上游技术的变革，DNA测序已经迈入了单分子测序的时代，最具代表性的非PacBio和ONT莫属。那么二者又有哪些优劣势、异同点呢，且看下文。

经过40多年的发展，DNA测序已经步入了单分子测序的领域（single-molecule sequencing, SMS）或者第三代测序（third-generation sequencing，TGS）。其中，最具代表性的是Pacific Bioscience (PacBio)和Oxford Nanopore Technologies (ONT)独立建立起来的两种测序技术和平台。
历史上，每一代单分子测序技术都伴随着巨大的技术革新和新颖的技术应用的产生。与二代测序（next-generation sequencing，NGS）和桑格测序（Sanger sequencing）相比较，长读长是PacBio和ONT平台最具特色的标签。
长reads克服了NGS的测序限制并显著提升了基因组组装的质量。此外，ONT包含一些特有的特点，例如：超长reads（长度大于300kb甚至接近1Mb）、RNA直接测序和口袋便携测序仪。
二代测序读长的限制仍然是生物学研究的瓶颈，限制了许多生物学研究的准确性，在大片段重复、结构变异等分析中难以获得精确的结果。
二代测序的短板
二代测序具有多方面的优势，比如成本低、测序速度快、产出高，在过去的15年里被广泛用于生物学问题的研究。然而，二代测序技术存在的明显缺点是不能精确地开展研究。在二代测序的众多瓶颈中，读长短是一个非常显著的问题，这大大限制了诸如基因组组装和转录组研究。
对于基因组组装，为了从海量短reads中推断出基因组序列，必须要面对大量的计算挑战（来源于基因组复杂性、时间和硬件限制）。这些挑战已经成为大基因组组装中最为棘手的问题，因为来源于重复区域和高GC含量区域的短reads很难精确地组装到一起。
此外，使用短序列进行片段重复（segmental duplication）、结构变异分析（SV）等会产生诸多假阳性结果。二代测序中面临的由杂合性、转座子元件、GC-rich区域、串联重复和散在重复区域（10kb-10Mb）产生的复杂性仍未得到很好的解决。
在转录组数据分析中，二代短序列同样面临组装的问题。短序列通常不能直接获取全长RNA转录本或精确决定特定的异构体。由于这些限制，限制了基因调控、蛋白编码潜能和表型多样性的研究。另外，表观修饰在真核基因调控中起到重要作用，二代测序不能直接测得表观标记，需要借助胞嘧啶的转化才能完成。
三代测序的发展

2004年，美国太平洋生物科学公司（Pacific Biosciences, PacBio），建立了单分子实时测序技术，测序读长可达200kb。PacBio测序采用边合成边测序的方式，以cDNA中的一条链为模板，在聚合酶的催化下合成另外一条分子链（下图）。

图1：PacBio测序平台测序模式图

左图：零模波导孔（ZMW）模式图，右图：测序模式图

PacBio测序的一般特点如下表：

PacBio最新的发布的为Sequel IIe系统，在Sequel II基础上进行了升级，运算效率得到较大提升。

2005年，英国牛津纳米孔公司（Oxford Nanopore Technologies, ONT），建立了单分子纳米孔测序，其主要原理是核酸分子通过纳米孔时，记录电流发生的微小变化，借助机器学习方法将其转换为碱基序列（下图）。

图2：ONT测序平台测序模式图

ONT测序的一般特点如下表：

ONT有多种平台支持，选择性较为灵活。

PacBio和ONT平台比较

下表从测序原理、平台设备、测序成本等角度进行了横向比较。

总的来看，ONT平台可直接对核酸序列进行测序，单G测序成本较低；PacBio平台测序错误源为随机错误经过纠错后碱基质量值要优于ONT。

接下来，重点分析PacBio和ONT平台间大家比较关心的问题：

（1）测序准确率和长度

PacBio和ONT平台在测序读长角度来看已经比较接近，其中ONT测序的极限长度甚至可达1Mb，二代测序平台望尘莫及。
PacBio和ONT平台在测序准确性角度也比较相近，但PacBio平台碱基的准确性更高一些。
PacBio测序基于荧光标记的原理，荧光信号实时记录单碱基的信息，且测序错误随机产生，一个ZMW中的模板可能被测多次，后续自我纠正后可保证较高的碱基质量，如在全长转录组测序中原始下机数据经过自纠错得到循环一致性的序列。
而ONT平台测序的错误源为系统错误，可能发生在同一个地方，且二代数据也无法完全覆盖和进行校正，故错误会一直被保留下来造成累积，测序中电信号很难精确解码，容易出现delete和insert。

（2）测序偏好性

PacBio平台数据在不同GC含量的区域表现比较稳定，测序序列覆盖均匀。

ONT平台由于系统错误的原因存在较多的测序偏好，在高GC区域，deletion和mismatch会显著升高，整体看不同GC区域测序偏好性明显。

（3）数据重复性

以全长转录组数据为例，分别对PacBio平台和ONT平台的全长转录组数据的重复性进行计算，结果显示PacBio平台数据的重复性更好（如下图）。

（4）基因表达定量

一直以来，二代转录组测序被视为基因定量的金标准。PacBio平台由于其芯片上ZMW孔数的限制，很难对全部转录本测饱和，故PacBio平台不能直接用于定量。
但随着PacBio读长的进一步提升，有研究者对PacBio文库进行了改造（HIT-scISO-seq），将多个转录本进行连接共同构建一个哑铃型文库，最终每个ZMW孔中能够获取多个不同转录本序列。所以，单个cell能够获取数倍数目的转录本序列，对于基因或转录本定量提供强有力的支持。
二代测序数据和HIT-scISO-seq基因定量的相关性很高，故该技术可将PacBio技术应用于基因的定量（下图）。

ONT平台直接可对核酸进行测序，且无其他特殊限制，能够做到全长转录本的测序和定量（如下图）。

图：不同细胞中，ONT和illumina平台测序数据表达相关性

总结讨论
如火如荼的第三代测序技术与二代测序技术各具特点，在不同场景上各有千秋，在未来一段时间内能够和谐共处，且目前仍有大量二代、三代结合的应用。

但是，随着三代测序技术的不断升级，具有长读长优势的三代测序技术，在测序准确率不断提升的未来，可能会对二代测序技术产生冲击甚至是威胁，二代测序巨头Illumina似乎不会坐视不理，是进行收购还是开发更有前景的测序技术，我们拭目以待。
另外，国产测序仪器的兴起会大大降低测序成本，对国外测序企业垄断地位产生一定威胁，不过总的来说，测序成本的降低、测序巨头垄断地位的打破更利于基因测序行业的良性发展。
参考文献[1] Mohit K. Midh et al. Long‑read sequencing in deciphering human genetics to a greater depth. Human Genetics, 2019.[2] Todd P Michael et al. Building near-complete plant genomes. Current Opinion in Plant Biology, 2020.[3] Wyman, Dana, et al. A technology-agnostic long-read analysis pipeline for tranome discovery and quantification. BioRxiv, 2019.[4] Ying-Feng Zheng , et al. HIT-scISOseq: High-throughput and High-accuracy Single-cell Full-length Isoform Sequencing for Corneal Epithelium. BioRxiv, 2020.[5] Ashley Byrne et al. Nanopore long-read RNAseq reveals widespread transcriptional variation among the surface receptors of individual B cells. Nature Communications, 2017.

作者：马可菠萝审稿：童蒙编辑：angelica往期精彩回顾