illumina测序的化学原理
概览
illumina是当前最热的二代测序公司,它测序的特点是使用带有可以切除的叠氮基和荧光标记的dNTP进行合成测序,由于dNTP上的叠氮基的存在,每个链每次测序循环只会合成一个碱基,由于A、C、G、T四种碱基所携带的荧光各不相同,因此读取此时的荧光就可以得知此时的碱基类型,重复这个过程,所有碱基序列就可以完成测定了。
illumina测序的工作流程
建库->桥式PCR扩增->Read1测序->Read2测序->双端测序(Read3)
1. 建库
使用超声将DNA样品打碎成小片段,接着T4酶修补末端, klenow酶在3‘末端加A,然后DNA连接酶将测序引物和DNA片段连接,即制成测序文库。
如图所示,即是建好的文库片段。其中a与e分别与flowcell中的P5与P7互补配对。b-c是Read1引物结合位点,c'-d是Read2结合位点,用于读取barcode,多样品在同一lane测定时才需要检测,d'-c是Read3结合位点,双端测序时才会用到。i是index,也叫barcode。(c与c'互补配对,d与d'互补配对)
2. 桥式PCR扩增
建好的文库,会加入到flowcell的lane里面进行桥式PCR扩增。
> flowcell是什么
>
> illumina测序仪中实际进行的测序反应位于flowcell(流动池)中,如图就是一个典型的illumina flowcell,一个flowcell有8条lane(通道),每个lane内表面共价结合了大量的P5、P7短序列(你可以将其想象为一个牙刷,一个平面上有大量的“短发”状序列),P5与P7将会用于结合构建好的文库片段。
* 模板结合,并合成第一链 将文库加入到一个lane中去,由于文库两端的序列是和lane内的P5和P7互补的,因此文库片段会和lane内表面互补结合,如果此时加入dNTP和酶,调至延伸温度,那么就会开始进行第一链合成。
* 解链,第二链合成 加入碱液,解开双链,并使用液流冲洗lane,由于新合成链末端的P5和P7已经共价结合在lane上,所以新合成的链会留下来。接着使用中性溶液中和lane内环境,再降至退火温度,那么新链的游离端就会和lane上的其他P5或P7进行碱基配对结合,形成一个桥状,如图所示。
此时如果加入dNTP和酶,并调至延伸温度,那么就会开始进行第二链合成。
* 多次PCR扩增 经过多次循环之后,那么DNA链的数量,就会以指数方式增长,形成如图中所示的大量的DNA簇。
* 制备DNA单链 DNA链扩增达到要求之后,将其中一个链切断(P5端),碱液变性并冲走,剩余即是可以用于后续测序的单链DNA了,并使用中性液中和lane内环境。
3. Read1测序
* 加入特殊dNTP和酶合成第一个碱基 DNA单链制备完成之后,加入Read1测序引物与DNA单链杂交,然后再加入特殊制备的dNTP和聚合酶即可开始测序反应。这里的dNTP有两个特点:3‘端被叠氮基封闭了、携带一个荧光基团。因此每次反应只能延伸一个碱基,接着读取此时的荧光就可以得知DNA链上的碱基。
* 切去叠氮基和荧光基团,开始第二轮测序 接着将叠氮基和荧光基团切去,液流冲走,重新加入荧光标记的叠氮dNTP和酶,扫描此时的荧光,测出第二个碱基是哪一种。
重复这个过程,即可将全部的DNA序列测定。
4. Read2(barcode)测序
由于illumina测仪器的测序能力太强了,往往单个lane就足够测很多组样品数据,因此为了充分使用测序仪,会同时在单个lane里面测定多组样品,而barcode(又叫index)就是用来区分不同的样品的。
barcode一般位于文库片段的P7端,在P7和样品DNA片段之间,illumina推荐使用12个barcode,长度6个碱基。
* 去除Read1链 在对barcode测序之前,需要加入碱液,先将刚才合成的Read1新链解开,然后液流冲走,使用中性液中和lane内环境。
* 继续测序6-8个碱基 接着加入Read2引物,继续测序6-8个碱基即可。
5. 双端测序
在读完Read1之后,可以选择对此时的DNA序列反向再读一次,从而在单次制备文库的情况下,将illumina的有效 测序长度增加了一倍。
* 重新合成第一链 在Read3测序之前,先加入dNTP和酶,再次合成第一链(同Read1序列相同),图中所示黑色链即是新合成链。
* 切除并去除Read1模板链 然后切割位P7端,碱液冲洗将此时的模板链去除。如图中所示,灰色链即是Read1的模板链,已将P7端切开。
* 开始Read3测序 然后加入Read3引物,反方向再测序一次,测序过程同Read1类似。如图中所示,蓝色链为Read3的引物及Read3序列。
> Read2与Read3的引物位置一般是重合的,碱基恰好互补,方向相反,见本文图一的d-c'与c-d'。
### illumina测序质量控制
碱基识别
illumina测序的flowcell其实是一个非常精密的装置,它的每个lane里面分为上下表面,每个表面上有3个swath,每个swath有16个Tile,每个Tile在扫描的时侯,会根据4种颜色,产生4张照片,每张照片分别代表A、C、G、T四种碱基的信息。
然后数据处理软件会通过对4张照片上的亮点相互比对,找到最合适的、匹配的位置,并把4种颜色的4张照片,组合在一起,变成一张有4种颜色的彩色照片(如图所示)。
每一个循环会生成一个组合彩色图片,每一个光点就是一个碱基信息,整合全部测序循环的碱基信息之后,就会得出一个DNA的Read。
Phasing和Prephasing
在illumina测序步骤的桥式PCR之后,会生成大量的DNA簇,这些簇内的DNA序列都是一样的。每个簇大约有5k-10k个DNA链,理想状态下,每一次测序循环之后,每一簇的几千个DNA会同时增长一个碱基。
但是实际上总有少量的DNA分子没有延长,这种现象就是Phasing。Phasing一般和酶活不足有关。
而有些时候,一个DNA链有可能延长了2个碱基,而这种现象就叫做Prephasing。Prephasing是由于叠氮dNTP的叠氮基丢失所致。
> 在测序时,从第12个循环开始,就要把Phasing和Prephasing的影响纳入考虑。
Chastity 和 Pass filter
为了对光点当中荧光素的纯粹程度进行描述,Illumina公司定义了个标准,叫“chastity”,Chastity的定义就是浓度最高的那个荧光素的量,去除以“它自己 + 排名第二的荧光素的量的和”。Chastity大于0.6代表此碱基可信度较高,是一个“好碱基”。
由于桥式PCR生成的大量DNA簇并非都是单克隆的DNA,在碱基识别时,就很有可能会在杂合DNA克隆的DNA簇上产生误读。而Chastity的生物学意义是指的去除那些杂合的DNA簇,只保留单克隆DNA簇以保证测序质量。
illumina对每个read的质量都要做一个检验,这个检验就叫“pass filter”检验。检验的标准,是看前25个碱基当中,有几个是“坏碱基”。如果只有一个或者没有坏碱基,则Pass filter就通过;如果有超过一个以上的坏碱基,Pass filter就不能通过。
Quality Score
一个碱基的Quality Score,也就是这个碱基的质量分数(Q值)。它是通过这个碱基被误判的可能性,换算出以10为底的对数,再乘以“-10”得到的一个数字。
以Q30为例,Q30代表碱基可信度为99.9%,那么其被误判的几率就是0.1%,于是-10*lg(0.1%)=30。也就是说,如果一个碱基测序的可信度为99.9%,就代表其达到了Q30质量标准。
那么,所谓的“Q30比例”,就是在全部PF数据当中,达到或者超过Q30质量标准以上的数据占所有PF数据的比例。Q30比例,可以表征一次测序过程的质量好坏。
参考资料
\1. 【陈巍学基因】视频1:Illumina测序化学原理
\2. 【陈巍学基因】视频2:HiSeq测序仪工作原理
---
还有更多文章,请移步公众号阅读
如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。