简介
SOLID测序是ABI公司于2007年推出的一种二代测序方法,全称为supported oligo ligation detetion。与其他传统的聚合酶连接反应不同,其独特之处在于以8碱基四色荧光标记寡核苷酸的连续连接合成为基础,可对单拷贝DNA片段进行大规模扩增和高通量并行测序。
工作流程
文库制备->PCR扩增->微珠沉积->连接测序
1.文库制备
SOLiD测序可根据实际需要,制备片段文库(fragment library)或末端配对文库(mate-paired library)。片段文库就是将基因组DNA打断,两头加上接头,制成文库,长度一般为60-110bp。配对末端文库是将DNA打断后,与中间接头连接,再环化,然后用EcoP15酶切,使中间接头两端各有27bp的碱基,再加上两端的接头形成文库,长度一般为120-180 bp。
适用范围:片段文库主要用于RNA-seq、重测序、3’, 5’-RACE、甲基化分析、ChIP-seq等;匹配末端文库主要全基因组测序、SNP分析、结构重排、CNV等。
2.PCR扩增
和普通PCR一样,SOLiD测序也是在油水混合乳液中进行的。该溶液中包含DNA双链模板,PCR所需的试剂,分别与P1、P2 adapter结合的引物和磁珠。其中,表面固定着大量P1引物的磁珠被称为P1磁珠。P1引物固定在P1磁珠球形表面,PCR反应过程中,磁珠表面的P1引物可以和变性模板的P1 adapter负链结合,引导模板的合成。反应的结果是P1引物引导合成的DNA链被固定到P1磁珠表面。
乳液PCR最大的特点是可以形成数目庞大的独立反应空间以进行DNA扩增。其关键技术是“注水到油”,基本过程是在PCR反应前,将包含PCR所有反应成分的水溶液注入到高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴。这些小水滴就构成了独立的PCR反应空间。理想状态下,每个小水滴只含一个DNA模板和一个P1磁珠,由于水相中的P2引物和磁珠表面的P1引物所介导的PCR反应,这个DNA模板的拷贝数量呈指数级增加,PCR反应结束后,P1磁珠表面就固定有拷贝数目巨大的同来源DNA模板扩增产物。
3.微珠沉积
PCR完成之后,变性模板,富集带有延伸模板的P1磁珠,去除多余的微珠。磁珠上的模板经过3’修饰,可以与玻片共价结合。SOLiD测序最大的优点就是每张玻片能容纳更高密度的微珠,在同一系统中轻松实现更高的通量。
4.连接测序
SOLiD测序第二大特点便是双碱基编码原理,其连接反应的底物是8碱基单链荧光探针混合物,可简单表示为3'-XXnnnzzz-5',5'末端分别标记了CY5、Texas Red、CY3、6-FAM这4种颜色的荧光染料。其中第1、2位(XX)上的碱基是确定的,并且(XX)决定了5'端荧光的种类,对应关系如下图。第3~5位的(nnn)表示随机碱基位,是未知的。第6~8位的(zzz)指的是可以和任何碱基配对的特殊碱基。两个碱基确定一个荧光信号,相当于一次能决定两个碱基,这种测序方法也称之为两碱基测序法
当荧光探针能够与DNA模板链配对而连接上时,就会发出代表第1,2位碱基的荧光信号,在记录下荧光信号后,通过化学方法在第5和第6位碱基之间进行切割,除去6~8位碱基及5’末端荧光基团,此时配对的探针只剩5个碱基,暴露探针第5位碱基5’磷酸,为下一次连接反应作准备。
配对→荧光→切割过程
因此,每次测序的位置都相差5位。即因为第一次连接反应使合成链多了5个碱基,所以第二次连接反应得到模板上第6、7位碱基序列的颜色信息,而第三次连接反应得到的是第11、12位碱基序列的颜色信息。在测到末尾后,要将新合成的链变性洗脱,接着用引物n-1进行第二轮测序。引物n-1与引物n的区别是,二者在与接头配对的位置上相差一个碱基。也即是,通过引物n-1在引物n的基础上将测序位置往3’端移动一个碱基位置,因而就能测定第0、1位和第5、6位。第二轮测序完成,依此类推,直至第五轮测序,最终可以完成所有位置的碱基测序,且每个位置的碱基均被检测了两次。
横向表示模板上碱基的位置,从0到35,纵向1-5表示5轮测序
太复杂?OK。用简单的语言说,每一轮任意两次连续的测序反应都相差5个碱基,即测序反应以5个碱基长度为一个单位。为什么需要5轮反应呢?假设有五个数字,1、2、3、4、5,第一轮测1、2,第二轮测2、3,第三轮测3、4,第四轮测4、5,第五轮测5、1(注意这里的5、1并不是真的跨越中间的碱基测5和1,而是平均覆盖度都为2×)。所以需要5轮,且每个位置的碱基被两次测序。由于是双次检测,这一技术的原始测序准确性高达99.94%,而15x覆盖率时的准确性更是达到了99.999%,应该说是目前第二代测序技术中准确性最高的了。但在荧光解码阶段,鉴于其是双碱基确定一个荧光信号,前面碱基的颜色编码直接影响紧跟其后碱基的解码,因而一旦发生错误就容易产生连锁的解码错误。
为避免连锁解码错误的发生,SOLiD数据分析软件不直接将SOLiD原始颜色序列解码成碱基序列,而是依靠reference序列进行后续数据分析。SOLiD序列分析软件首先根据双碱基编码矩阵把reference碱基序列转换成颜色编码序列,然后与SOLiD原始颜色序列进行比较,来获得SOLiD原始颜色序列在reference的位置,及两者的匹配性信息。Reference转换而成的颜色编码序列和SOLiD原始序列的不完全匹配主要有两种情况:“单颜色不匹配”和“两连续颜色不匹配”。由于每个碱基都被独立地检测两次,且SNP位点将改变连续的两个颜色编码,所以一般情况下SOLiD将单颜色不匹配处理成测序错误,这样一来,SOLiD分析软件就完成了该测序错误的自动校正;而连续两颜色不匹配也可能是连续的两次测序错误,SOLiD分析软件将综合考虑该位置颜色序列的一致性及质量值来判断该位点是否为SNP。
参考资料:
http://blog.csdn.net/huangliangbo0805/article/details/40586317
三代测序技术和原理介绍
还有更多文章,请移步公众号阅读
如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。