查看原文
其他

测序技术的前世今生—Nature纪念DNA测序40周年

2017-11-16 Chen X. 宏基因组

本文转载自“计算表观遗传学”,己获授权。编辑刘永鑫对全文校对和补充。

前言

这篇综述是为了纪念DNA测序的40周年,我们已经见证了多项技术革命和从几千个碱基到第一个人类基因组完成,以及现在数以百万计的人类和无数其他基因组的诞生。DNA测序已经被广泛和创造性地重新设计,包括作为生化分子现象的“计数器”。我们预测,从长远来看,DNA测序的影响将与显微镜一样深远。


DNA测序有两个相互交织的历史——即基础技术和它被证明能用于解决许多的问题。本文,我们首先回顾了DNA测序技术的发展历程以及DNA测序应用的轨迹。最后,我们将讨论DNA测序的未来。

图1. DNA测序技术。包括一、二和三代测序技术。其中二代测序也常被称为下一代测序(next-generation sequencing, NGS)


图2. DNA测序应用。主要的DNA测序应用类别,包括全新基因组组装、基因组重测序、无创产前诊断和生物分子现象的计数器等。




DNA测序技术的历史


DNA测序技术的发展有着丰富的历史,在几十年内发生了多种范式转移。下面,我们回顾了生物聚合物的早期研究,对DNA测序的电泳方法的发明,以及它们对人类基因组计划的扩展,以及第二代(大规模并行)的出现,第三代(实时,单分子)的DNA测序。一些关键技术里程碑也在下面进行了总结。



早期测序


Fred Sanger把他的科学生活主要奉献给了测序,他相信这对生物分子特定化学结构的知识对于更深入的理解是必要的。

第一个蛋白质序列,胰岛素,是由Sanger在上世纪50年代早期确定的,他把它的两条链分离,破译了每个片段,并将片段重叠,以产生完整的序列。他的研究明确表明,蛋白质已经定义了氨基酸残基的模式。在20世纪60年代,RNA测序被同样的一般过程所处理:一种RNA物种首先被分解为RNases,接下来的片段被色谱和电泳分离,然后单个片段被连续的核酸外切酶消化破译,最后由重叠部分推导出序列。


DNA测序的发明


早期对DNA测序的尝试很麻烦。1968年,Wu报道了使用引物扩展法测定噬菌体的粘结末端的12个碱基。1973年,吉尔伯特和Maxam报告了24个乳糖抑制因子结合位点的碱基,将其复制成RNA,并对这些片段进行测序。这些工作需要两年的时间:即一个月一个碱基。

在1976年前后,有两种方法可以在一个下午对数百个碱基进行解码。分别为由Sanger和Coulson开发的链终止过程,以及由Maxam和Gilbert使用的化学切割过程:一个DNA分子从一个放射性标签到每个碱基的位置,以确定核苷酸顺序。Sanger的方法包括用DNA聚合酶标记引物的四种延伸,每一种都有微量的链终止核苷酸,以产生不同长度的片段。Gilbert的方法采用了一种末端标记的DNA限制片段,并在四种反应中使用化学物质来制造特定于碱基的部分裂解。对于这两种方法,都用聚丙烯酰胺板凝胶电泳法测定了每个碱基反应中存在的片段的大小,并通过单基分辨率分离出DNA片段。将每个碱基一条标记的凝胶放在X射线胶片上,产生一个梯形图像,从中可以立即读取该序列,按照大小上升四条标记,推测碱基的顺序。


扩展到人类基因组


随着“鸟枪法测序”成为了人类基因组计划的主力,人类基因组的大片段被克隆成细菌人工染色体(BACs)。每个BAC的DNA都是片段化的,被筛选的,被克隆的。个体克隆被选中并生长,DNA被分离。将纯化的DNA作为Sanger测序的模板,从凝胶扫描图像中提取信号,进行碱基识别最终生成序列。

事实上,随着对更大基因组测序的努力,越来越明显的是,每一步的规模和效率都需要大大增加。值得注意的改进包括:(1)从染料标记的引物到染料标记的终端,允许一个而不是四个测序的互作;(2)突变的T7 DNA聚合酶,更容易合并有染料标记的终端;(3)线性放大反应,大大降低了模板要求,方便了小型化;(4)基于磁珠的DNA净化方法,简化了测序前准备的自动化操作;(5)方法使双链DNA测序成为可能,使其能够使用质粒克隆,因此可进行双末端测序测序;(6)毛细管电泳,消除了凝胶的浇注和负荷,同时简化了荧光信号的采集与识别;(7)采用工业流程,以最大限度地提高效率,减少错误(例如,自动化、质量控制、标准操作程序等)。

到2001年,一小部分学术基因组中心每天生产高达1000万个碱基的自动化生产线。基因组装配的软件在HGP内外都成熟了,有一些工具,比如phrap,TIGR和Celera,能够处理越来越复杂的基因组。许多高质量基因组以每年都翻倍的能力迅速完成,到2004年,仪器以每个read 1美元的价格生产了600 - 700个bp,但创造额外的改进是一项日益边缘化的运动。此外,随着HGP的完成,大规模DNA测序的未来尚不明确。


大规模并行测序


在20世纪80年代和90年代,有几个小组探索了电泳测序的替代方法。尽管在HGP完成后的10年内,“大规模并行”或“下一代”DNA测序(NGS)几乎完全取代了Sanger测序,但这些努力并没有得到回报。NGS技术以多种方式从电泳测序分离出来,但关键的变化是混合样品(multiplexing)。一个复杂的DNA模板库被密集地固定在一个二维的表面上,而不是每个反应的一个管道,所有的模板都可以被单一体积的试剂所访问。

虽然扩增不是严格意义上必须的(例如,单分子SBS),但高密度的NGS,数以百万计的固定化模板,在很大程度上是由克隆体在体外扩增。最简单的方法,称为“polonies”或“桥式扩增”,包括将一个复杂的模板库放大到一个表面,这样就可以把每个模板的副本保持紧密联系起来。或者,克隆的PCR可以在乳液中进行,这样每个模板的拷贝就可以被固定在珠子上,然后在表面上排列成测序。第三种方法涉及在溶液中的滚环扩增以产生排列和测序的克隆“纳米微珠”。

对于SBS,有三种主要策略。Ronaghi和Nyren的焦磷酸测序方法涉及到每一个脱氧核苷酸(dNTP)的离散和逐步添加。dNTPs的加入会释放出焦磷酸驱动荧光素发光。利用类似的方法,可以用离子灵敏场效应晶体管检测到正确加入的dNTP。第二种策略是利用DNA配体的特异性将荧光寡核苷酸配对序列相关的序列。第三种方法,已被证明是最持久的,涉及到逐步的,聚合酶介导的荧光标记脱氧核苷酸。对聚合酶SBS的成功至关重要的是可逆的终止、可逆的荧光dNTPs的发展,以及一种适当的工程聚合物,每一个模板都在每个周期中都有一个和一个dNTP。在成像后,根据表面的每个模板,分别将四种颜色的一种组合起来,然后将阻滞和荧光基团移开,设置下一个延伸;这一通用方法是由Balasubramanian和Klenerman在1998年创建的Solexa使用的。


实时,单分子测序


扩增的缺点包括复制错误、依赖于序列的偏见和信息丢失(例如,甲基化),更不用说增加时间和复杂性了。在一个理想的世界里,测序将是本地的、准确的,而且没有长度的限制。为了达到这个目标,从20世纪80年代开始,一些团体探索了比NGS更激进的方法。其中很多都是死路一条,但至少有两种方法并不是,因为这些方法最近产生了实时的单分子测序平台,这些平台可能会再次颠覆这一领域。

由Webb和Craighead和Korlach、Turner和Pacific Biosciences(PacBio)进一步开发的第一种方法是实时观察聚合酶介导的合成。一种零模式波导,即不到一半波长的光,将荧光激发到一个微小的体积内,其中一个聚合酶和它的模板存在。因此,只有在不断增长的DNA链中加入了荧光标记的核苷酸,才会发出足够持续时间的信号。工程聚合酶是高度持续的;常规的read超过10kb,有些read接近100kb。PacBio的通量仍然比最高通量的NGS平台(如Illumina)要低很多,但距离NGS平台几年前的位置并不遥远远。PacBio的最小偏差,随机误差,长read和冗余覆盖率的组合可以导致从准确性和连续性方面进行重新组装无与伦比的质量,对于许多物种,甚至可能超过类似于HGP的成就。

第二种方法是纳米孔测序。这一概念是在20世纪80年代首次提出的,它是基于这样一种观点,即当一个单链DNA分子通过一个狭窄的通道时,离子流动的模式将揭示出链的主要序列。几十年的工作需要从概念到现实。首先,通过纳米级孔隙的电场驱动的DNA传输速度非常快,每个核苷酸的离子数量不足以产生足够的信号。最终解决了这些和其他挑战,包括将一种酶作为“棘轮”,识别并改进核蛋白,并更好地分析产生的信号。




DNA测序的应用


在过去的几十年里,DNA测序应用的范围和范围也在扩大,这在一定程度上是由于测序技术发展的限制。下面本文回顾了应用的关键领域,包括基因组从头组装、个体基因组重测序、临床测序以及测序器转化为分子计数装置。在下图中概述了对参考基因组的产生和应用和软件开发的一些重要里程碑。



从头基因组组装


在最初的25年里,DNA测序的主要目的是对基因组进行部分或完全测序。事实上,1977年Sanger测序的开始包括第一个基因组(phiX174;5kb),基本上是手工组装的。然而,DNA测序仅仅是支持大型基因组组装的几种技术之一。如果DNA序列是随机的,那么任意大的基因组都可以被组装成完全基于碎片重叠的完成。然而,这并不是随机的,重复序列和技术偏差的结合使得无法从千碱基的读数中获得高质量的大型基因组组装。因此需要额外的“连续信息”。

随着NGS在2005年的到来,从头组件的数量大大增加。通过基于de Bruijn图形的新的组装算法(例如,EULER和Velvet)克服了read和重复基因组的看似灾难性的组合。然而,特别是应用于较大的基因组时,与HGP的基因组相比,其质量平均较差。虽然较短的read长度是部分原因,但这通常是夸张的。相反,质量较差的主要原因是缺乏补充NGS的邻接方法。 NGS可以进行双末端测序,但体外文库方法在跨越距离方面受到限制。此外,该领域缺乏遗传和物理映射的“大规模平行”等价物。

在体外实验中,研究了高分子量基因组片段,类似于分级的鸟枪测序。其次,方法如Hi-C (全基因组的染色体构象捕获)和光学制图(Bionano),提供可伸缩的、划算的基因组框架的方法进行染色体规模的组装。PacBio和ONT测序的read长度已经上升到几百个碱基,而且现在对高分子量DNA的准备比测序本身更有限。在单分子测序中,克隆或扩增步骤的缺失是值得的,正如高质量的PacBio 从头装配所展示的高GC含量的细菌基因组。


基因组重测序


在HGP之后,明确的下一步是对人类遗传变异进行扫描,即“重新测序”。因为Sanger测序成本仍然很高,重新测序主要用于发现常见的变异性,然后用成本较低的微阵列进行有效的基因分型,以促进全基因组关联研究。改变这种情况的大胆呼吁是“1000美元人类基因组”,这是重新定义个人基因组的雄心勃勃的目标,其成本比组装第一个人类基因组的成本便宜近一百万倍。

重测序,比对read到一个参考基因组来识别遗传变异,是一个非常不同的任务,不像基因组组装。新的算法例如Bowtie和burrows - wheeler校准(BWA),借鉴了数据压缩技术的概念,使数百万的read能够有效地映射到参考基因组。最初是SAMtools和后来GATK十分流行,校正并识别read与参考间的变异。大多数成对的短read可以被比对到人类基因组上唯一位置。但大多数并不是全部,而短read重测序的一个问题是,在于重复序列区域和结构变异经常被忽略。

2008年,吉姆·沃森(Jim Watson)的基因组在454上迅速跟进,然后是两个匿名个体的基因组,以及Solexa / Illumina上的一名患者的种系和肿瘤基因组,和5个完整的基因组。在这一时期,全基因组测序(WGS)对于大多数群体来说都过于昂贵,从而刺激了靶向捕获方法的发展,以及整个全外显子测序(WES),即对编码蛋白质的基因组1 - 2%的选择性测序。

由于WGS的成本接近1000美元,而WES的成本接近数百美元,所以个人重新测序的步伐加快了。 2010年推出了1000 Genomes Project,2010年发布了几百人的低覆盖率WGS,并于2015年达到了几千人。外显子测序项目在2013年发布了6500多个外显子组数据。最近发布的基因组整合数据库(http: /gnomad.broadinstitute.org/)包括超过12万个外显子组和超过15000个基因组。GenomicsEngland(https://www.genomicsengland.co.uk/),GenomeAsia100K(http://www.genomeasia100k.com/)和NHLBITOPMed(TransOmics for Precision Medicine,https://www.nhlbiwgs.org/)在未来一两年内,每个目标都将为10万多个人完成WGS。鉴于这些项目只是所进行的所有测序的一小部分,所以至少超过一百万人的基因组已被WES或WGS重新测序的估计是合理的。


测序的临床应用


我们对人类基因组测序的能力远远超过了我们解析基因变异的能力,这在一定程度上解释了为什么临床医学还没有完全接受WGS。尽管如此,在一些领域里,DNA测序已经被证明是有用的,我们在这里强调其中的三个。

DNA测序的最突出的临床影响区域是无创产前检测(NIPT)。 Lo和Quake在2008年的开创性研究表明,怀孕期间由胎儿释放到母体循环中的DNA片段的简单计数可以检测染色体非整倍体。基于这一策略的筛查测试比历史上的任何分子测试采用得更快,世界各地几百万孕妇已经从NIPT的低通量WGS中受益。

WES的早期应用是快速发现新的基因,并诊断受孟德尔疾病影响的患者。这一发现很快就被发现,神经发育障碍的很大比例是由编码序列的从头突变引起的。WES被越来越多地用于诊断孟德尔类型遗传病和神经发育障碍的主要工具,特别是在儿科人群中,其诊断为疑似孟德尔疾病患者的比率为25%,并持续上升。

我们对癌症的理解,从根本上说是一种基因组疾病,正在逐渐被DNA测序所转化。大规模重新测序揭示了癌症的非凡遗传异质性,有效地定义了分子分类学。 DNA测序通过以下方式影响临床癌症护理:(1)建议基于个体癌症中存在的突变的靶向治疗; (2)通过对肿瘤释放的循环细胞或无细胞DNA的测序进行非侵入性诊断或监测; (3)鉴定可能作为“个人疫苗”的新抗原的癌症特异性,蛋白质变化突变。


测序仪作为分子计数装置


尽管“表达序列标签(EST)”早在1983年就被认为是发现基因的一个捷径,即是SAGE(基因表达的连续分析; 1995),它将测序的思想引入到“数字量化”基因表达。 SAGE连接用于Sanger测序的cDNA衍生标签,其标签足够长以映射到基因。早在2000年,Brenner和Lynx Therapeutics展示了cDNA标签的“大规模并行信号测序”,这是NGS的重要前身。然而,这一概念在2008年5个组织开发RNA测序(RNA-seq)之前并没有得到广泛的应用。RNA-seq使用NGS来定量和塑造转录组,通过全长或3'末端的鸟枪测序。 RNA-seq具有超过微阵列的优势,其中最显著的是通过新的软件包(如TopHat和Cufflinks)对转录本的计数简单了分析过程。

2008年前后,早期采用NGS的小型实验室开发了转录因子结合、染色质可接近性和翻译的“数字量化”方法。在接下来的十年中,又开发了数百种方案,促进将DNA测序用作“分子计数器”,表现出了生物化学或分子现象的显著范围,包括转录,翻译,DNA复制,RNA的二级结构,染色体构象,核酸修饰,翻译后修饰,核酸 - 蛋白质相互作用和蛋白质 - 蛋白质相互作用。这些在其他综述和来源中被收录。

使用测序仪作为分子计数装置立即受到广泛的欢迎,并且在促进NGS广泛应用于生物医学研究中可能比组装或重新排序收获更大的作用。DNA测序仪之于分子生物学家越来越多,如同显微镜对细胞生物学家是测量的基本和必不可少的工具。从长远来看,这可能是DNA测序的最大影响。




DNA测序的未来


从科学历史的长远来看,DNA测序仍然是一项年轻的技术。在这里,我们简要地考虑一下它在一些现有或新兴领域的未来。


基因组的多样性


一个100%完整的基因组,也就是说,每条染色体的端粒到端粒序列,没有任何缝隙或末知区域,迄今为止可能只有一个真核细胞达到了。随着测序技术的不断发展,我们乐观地认为,我们将解决具有挑战性的其他基因组的区域(例如,着丝粒)。地球上有数百万的生物物种(还有灭绝的物种),每一个都有一个基因组等着被测序,还有无数的微生物群落和宏基因组。一种全面的基因组多样性的观点可能会以惊人的方式被证明是有用的,例如蛋白质结构的决定。


大规模人口的重新测序


我们正在接近一个新的里程碑,大约有0.1%的人类将会在某种程度上重测序其基因组,而重测序我们祖先和其他人类基因组,正在重塑我们对人类历史的理解。近年来发生的点突变(SNP)的数量大大超过了人类基因组中的核苷酸数量。最终,聚合数千万碱基的基因组可以使人类基因组的核苷酸水平足迹得到探索(即,观察与生命相容的所有杂合变体)。 


发育生物学


我们每个都从单个细胞发育成高度组织的数万亿个细胞。不过,我们对发展的了解仍然很初步。最近的技术可以实现单个细胞的测序分析。虽然流行的方法是离体的(例如,单细胞RNA-seq),更基本的方法是在原位进行RNA或蛋白质测序,从而保留空间环境。其他新兴的策略使用体内基因组编辑来跟踪细胞谱系关系传输条形码来识别神经元连接。 DNA的编辑可以用于记录生物学事件,例如监测基因表达或钙。


实时、便携传感器


目前,纳米孔测序仪的质量为70克,在样本的应用中30分钟内可获得数据。可以想像纳米孔测序仪的传播网络,能够“连续监测”核酸,在环境和日常人生中,例如详细的跟踪我们的空气,食物和身体,潜在地从数百万台设备流式传输数据,并整合具有GPS和视听数据。


非常规的使用


DNA测序技术可能会以惊人的方式被证明是有用的。例如,在合成DNA中NGS最近被用来恢复合成DNA中编码的大量数据。纳米孔可以用于检测分析物结合物、化学纳米蛋白或蛋白质折叠/展开。




DNA测序可作为新的显微镜



自从发明光学显微镜以来,已有大约400年的时间,这是继续使用和发展的技术。相比之下,DNA测序发明只有40年了。其技术在未来几十年和几个世纪可能还将继续发展。基于转化生物医学研究的速度,并开始转变临床医学,我们预测DNA测序将的寿命和影响将与显微镜相符或超过显微镜。


参考文献:


Shendure, J., et al., DNA sequencing at 40: past, present and future. Nature, 2017. 550(7676): p. 345-353.

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外七十多位PI,七百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存