一文带你领略液相捕获的原理与细节 | 全外专题
一文带你领略液相捕获的原理与细节:总览(以全外捕获为例)
2004年一篇划时代的论文开启了合成生物学的新纪元。联川生物首席科学家高晓连教授、联合创始人周小川教授、哈佛大学著名遗传学大牛George Church教授第一次将大规模低成本核酸探针技术应用于科研和工业领域成为可能。这项研究发表在顶级期刊Nature并被纽约时报报道。接下来在2005年,靶向测序最初的概念从Nature Methods上一篇名为“Direct Genomic Selection”的论文开始慢慢扩散开了。
2007年,联川生物美国总部LC Sciences与Broad Institute合作,依靠联川生物自主光化学原位合成技术的芯片平台µParaflo®,可以根据客户需求,对目标区域进行捕获探针合成混合寡核苷酸序列文库(pooled oligonucleotides)OligoMix®。
由于合成生物学在成本上的突破,在接下来的几年时间里,来自Broad Institute、UCSD、斯坦福等高校的科学家们与多位来自工业界顶级工程师合作,在全球掀起了捕获测序的新高潮。这项原本处于实验室内小范围应用的技术,开始慢慢地走进我们的生活,在遗传病检测、肿瘤筛查等转化医学领域发挥出巨大的作用。
液相杂交捕获测序,简单来说利用碱基互补配对原理,将设计好的核酸探针与目标区域结合后,对目标区域进行测序的一项技术。外显子测序也属于液相捕获测序或靶向捕获测序技术在下游的应用场景之一。
其中一项关键技术就是基于联川生物寡核苷酸合成平台µParaflo®,合成的外显子RNA捕获探针(有部分U碱基会带有生物素修饰)。
下面部分内容都基于联川生物自主研发的液相捕获技术VariantBaits™基础上展开。目前讨论RNA探针杂交捕获这种方式,DNA探针暂不讨论。(源自联川生物 VariantBaits™ Target Enrichment System User Manual原理示意图)
液相杂交捕获测序,简单来说利用碱基互补配对原理,将设计好的核酸探针与目标区域结合后,对富集到的目标区域进行测序的一项技术。上图为联川生物基于RNA探针的VariantBaits™液相捕获技术原理示例图。
第一步在提取基因组DNA后,利用超声波将基因组DNA进行片段化并且加上测序接头;第二步将带有生物素标记的RNA探针与已经带上接头序列的DNA片段进行结合;第三步链霉亲和素包裹的磁珠会和带有生物素标记的RNA探针与DNA相结合的双链复合物相结合(探针过量);第四步就是清洗(Washing)得到目标区域的DNA,其目的是去除非特异性杂交提高捕获效率;第五步对洗脱下来的DNA产物进行PCR扩增,构建Illumina测序文库。
短短的一百多字,基本上可以对液相捕获有了大致的了解。但是深挖下去,你会发现有无数的坑在等着你。下面我们就会分别针对实验中一些容易出问题的环节做更加详细的讨论。
2010年,来自Broad Institute基因组平台的资深总监(Senior Director of the Genomics Platform)Stacey Gabriel博士所领衔的研究团队,在Current Protocol in Human Genetics发表了名为“Targeted Exon Sequencing by In‐Solution Hybrid Selection”方法学论文。
在这篇论文中,作者讨论了诸多可能会影响到捕获性能的因素。包括但不限于文库的复杂程度(Library complexity)、Duplication率、文库大小、0覆盖度碱基比例、碱基被覆盖20X以上的比例等因素。
文库制备这块,样本类型、DNA起始量、DNA聚合酶(DNA Polymerase)的性能甚至PCR循环数,每一个环节出现一点偏差,最后都会对分析结果造成巨大的影响。
另外在杂交过程中Blocking封闭试剂的性能、探针浓度、探针质量,以及清洗过程中盐离子浓度等,也会对最后的捕获性能产生很大的干扰。
在https://genohub.com/exome-sequencing-library-preparation/ 这个网站中,作者给出了全外显子测序的一些建议。其中关于如何影响捕获效率,作者认为一共有6个主要因素。这些因素包括捕获区域碱基的GC含量,DNA本身的质量尤其是那些low input的低起始量DNA,假基因,DNA片段化长度以及重复元件等。
同样在上一章节中,我们提到的Stacey Gabriel博士所领衔的研究团队认为,目标区域大小(Target size)以及目标区域的特异性/唯一性(Target region uniqueness)也会最终影响捕获效率。
上图所展示的数据为联川生物针对2份盲测样本,PE150 reads比对上目标区域比例分别为81.41%和81.60%, 而算上探针区域外的flanking区域(150bp),比对上的比例分别为90.04%和90.17%。我们在设计RNA探针时候,长度为120nt。实际上被捕获到的区域大小,会超出探针设计区域200多bp以上。这就使得实际长度在300多的DNA片段,只要有部分区域跟RNA探针吻合就会被富集下来。
上图是两份盲测样本,大于10X/20X/30X覆盖率分别为97%/95%/91%。所以30X覆盖度最低都大于90%。
平均测序深度100X情况下,我们可以在左图看到每个位点碱基在平均100X左右几乎很陡峭地分布在100X周围形成一个很陡峭的峰。如果峰不够陡峭说明均一度差,换句话说部分位点会测得过多部分位点会测得过少,从而影响后期数据分析,可能要加测数据,导致实验成本过高。
针对探针整体GC含量/捕获区域GC含量的高低不同,在平均覆盖深度上,VariantBaits™也体现出优良的性能。
影响Dup率的几个因素包括样本来源和类型、文库构建、杂交捕获和测序仪性能等。
从样本来源来看,新鲜的组织样本和全血样本最后的数据质量肯定会优于那些FFPE、ctDNA/cfDNA样本。此外,若total DNA样本中混入植物DNA以及微生物DNA,最终也会严重影响数据产出,加深Dup率。
提取完了DNA后,如果起始量过低需要进行几轮PCR,或者说杂交结束后富集到的DNA过低也需要多进行几轮PCR扩增。所以Input的DNA起始量以及Pre-Caputre和Post-Capture等环节出现问题最终也会反映到数据上,导致Dup率上升。除此之外,无论是超声波打断还是样本降解导致短片段过多也会面临同样的问题。
你以为这就完了吗?还没有呢!在杂交捕获过程中,Blocking封闭试剂性能、探针质量和浓度稍有变化,最终数据也会千差万别,从而导致Dup率升高。
最后测序平台本身、上机文库质量等也会影响Dup率。总之实验各个环节哪怕一些小的错误,都会将误差成倍放大,从而导致Dup率升高。
那么究竟什么类型的样本可以做液相捕获测序呢?我们以外显子捕获测序为例,除去FFPE、cfDNA等特殊样本,常规样本包括全血、新鲜未降解组织、细胞、唾液(主要为口腔上皮细胞)等都可以提取出足够量的DNA用于外显子测序。
对于DNA浓度如何定量,常规实验室会选用nanodrop。事实上nanodrop虽然方便快捷,但是在DNA浓度过低以及整体DNA量不足时,nanodrop定量结果会与真实的DNA量产生较大误差。另外蛋白消化不纯,有RNA混入等情况下也会导致DNA定量不准。
Qubit在DNA定量上准确性会远远高于nanodrop。如果定量准确,DNA起始量为1μg,最低不小于200ng,浓度不低于1ng/μL。DNA质量的话,OD260/280≥1.8,OD260/230≥1.5,电泳主带完整,无明显降解。
有些老师可能会问了,那万一不足100ng还能做外显吗?答案是可以的。质检完全合格的人基因组DNA最低极限量是50ng,但是最终数据中Dup率以及均一度(Coverage Evenness)都会受到极大的影响!
FFPE全称是石蜡包埋组织切片。这类样本来源DNA总量在100ng左右,也需要通过Qubit来定量。常见的质检手段包括但不限于电泳、Agilent Bioanalyzer 2100/4200等。
年限较短的石蜡切片或新鲜蜡块通常DNA降解程度较轻,电泳图呈弥散型,可以尝试进行实验;DNA降解严重时电泳条带集中于200bp以下(常见于保存年限较长的样品),一般情况下不建议进行实验,上面的电泳图供参考。
使用Agilent Bioanalyzer 2100/4200质检相比电泳检测灵敏性更高,更容易判断样品降解情况。样品质检结果越集中于小片段区域,表明降解程度越严重。
如上图所示,两个FFPE样品保留了较多大片段,降解程度较轻,可以尝试进行实验。另外,这2个样品由于具有弥散大片段,导致质检upper marker难以分辨,此时不宜做样品定量,只能根据样品片段分布判断其降解情况。
前面提到的Qubit可以对DNA浓度进行检测外,我们这里还有另一种更为精确的方法——qPCR。推荐使用KAPA hgDNA Quantification and QC Kits(KK4960)对FFPE样品进行质检。
FFPE在样本质检上需要注意的点会比较多。首先这种特殊类型的样本在Dup率上必然会比常规样本要高。长时间存放会导致DNA出现损伤,如交联、C碱基脱氨成U碱基、物理损伤等。这时候我们需要对DNA进行修复,推荐使用NEBNext FFPE DNA Repair Mix。
另外超声波打断时,由于样本特殊性打断条件需要不断摸索,打断时间需要缩短。构建完成的基因组文库使用Qubit测定浓度,建议使用Agilent Bioanalyzer 2100/4200进行文库峰型质检。
这些样本通常来源为人血浆>10mL。可以使用Qubit测定DNA浓度。
从人血浆样品提取的cfDNA应保证无基因组DNA的污染,通常情况下,普通健康人每毫升血浆中的cfDNA含量不超过25ng,肿瘤患者的cfDNA水平是健康人的数倍,根据提取的DNA的总量可初步判断是否有基因组DNA的污染。
样品及实验过程避免污染,一般要求较高有效覆盖深度(5000-10000×),Dup%必然较高,文库复杂度均一性受影响。
使用Bioanalyzer质检后发现,血浆cfDNA在170bp附近有特征峰,以及少量大片段。
片段化主峰通常在150-220bp左右,片段化后需要纯化,100bp不到的片段可以直接舍弃,因为有文献报道称小片段在PCR过程中更容易被扩增,从而导致Dup率上升。纯化后的DNA必须用Qubit定量,以此作为Input的DNA量。
纯化后的片段可用Agilent Bioanalyzer 2100/4200选取部分DNA样本进行质检,包括风险DNA和部分合格DNA。其中假如有极少量的大片段存在也不会影响实验,后续筛选可以过滤掉。
无论是纯化还是筛选,磁珠尽量避免过多导致损失。模板分子越少,文库复杂度就越低,PCR偏好性就会加剧。最后导致捕获的覆盖度降低,均一度变差,Dup率上升。
在接头方面,接头与模板分子比例、合适的磁珠筛选比例以及连接效率本身都会影响文库的均一性。
最后,PCR循环数(跟DNA起始量有关)、PCR酶对GC含量偏好性等均会影响最后数据的Dup率、捕获效率、文库均一性等。不同样本应该选择对应合适的PCR酶。
文库平均长度为350-400bp,太短会导致数据浪费,所以350bp左右长度最为合适。使用Agilent Bioanalyzer 2100质检后我们发现,在上图中并无引物二聚体,且无大片段污染,主峰350-400bp,符合建库要求。
在文库混样方面,一定要根据qPCR定量结果进行混样,注意取样准确、混合均匀。单个文库DNA量过少也容易造成文库多样性降低从而导致Dup率上升。
综上所诉,(1)全部文库需要使用Qubit定量,记录浓度(ng/uL),计算总量(ng);另外,全部文库必须使用qPCR定量质检,计算摩尔浓度(nM);(2)文库合格标准:文库浓度高于1ng/uL;qPCR定量浓度高于5nM,熔解曲线峰型单一,无Dimer污染。
我们都知道,在片段两侧我们都会加上接头序列。由于这些通用接头/引物序列“长得比较像”,如果不做任何处理非常容易发生互补配对成为一对好基友。Block的原理就是封锁住最前端和最后端的接头序列,防止发生自连或他连。
所以综上所述,文库中每个分子都带着相同的接头序列,杂交时可能造成Daisy-Chains。Blocking Oligo的作用就是封闭这些接头序列。
一些重复序列过高的片段在杂交之前,我们会用Cot-1提前与目标区域进行结合。这些被Cot-1提前结合的片段,最后不能够与RNA杂交探针相结合。
Cot-1长度主要为50至300bp,并且富含重复的DNA序列,比如Alu和Kpn家族成员 。人Cot-1 DNA通常用于在微阵列筛选中阻断非特异性杂交,还能用于抑制重复DNA序列。
另外Salmon Sperm DNA(鲑鱼精DNA)溶液是已剪切的即用型DNA溶液,平均长度≤2000bp,可直接用于杂交,这些小片段和靶序列上具有普遍同源性的短序列结合,降低非特异性杂交。
RNA探针长度通常在120nt,在制备模板和RNA探针时要避免反复冻融。使用前置于冰上融化,充分混匀,在杂交温度(65℃)下预热后使用。
2011年,来自斯坦福大学医学院的Snyder教授领衔的团队,对不同外显子测序技术性能做了一次全方位的大比拼。该论文发表在Nature Biotechnology上。
目前市面上的外显子靶向捕获技术中,探针分为两大阵营,分别是DNA探针和RNA探针。其中从结合力上来看RNA与DNA结合力>DNA与DNA结合力。
RNA探针对基因组文库(DNA)结合力更强,但这并不意味着RNA探针的捕获能力一定比DNA探针高。RNA探针和DNA探针的主要区别是杂交反应温度不同,以及杂交体系上的差异。
探针长度和探针设计排布的策略对捕获效率有更多的影响,覆瓦式(Tiling)的探针设计比相邻式或间隔式的探针排布富集效率更高;另外长探针在捕获时对目标序列的错配容忍度更高,因此长探针在捕获indels上灵敏度更高。
磁珠避免剧烈震荡,避免产生大量气泡。确保足量的链霉亲和素磁珠以捕获所有生物素标记的杂交复合物。清洗目的是除去非特异杂交,提高捕获效率。高温低盐环境使大量非特异杂交复合物不能稳定存在,通过多次清洗可以除去。清洗时温度严格控制在65℃,水浴锅孵育时注意避免磁珠沉降到管底。
VariantBaits™ Target Enrichment System
液相杂交捕获系统
基于自主知识产权μParaflo® 微流体芯片平台合成RNA捕获探针,采用液相杂交技术捕获靶标DNA,使用生物素标记探针诱饵,探针序列与靶向序列互补,完成靶向序列文库的富集与制备。可用于从小到大规模的基因捕获,容忍某些局部模板的变异。
VariantPro™ One-Step Multiplex PCR System
一步式多重PCR建库系统
经过LC Sciences科学家两年潜心攻关,于2015年成功研发出VariantPro™一步式多重PCR建库系统,在目标区域进行引物设计,通过多重PCR的方式进行目标区域扩增,通常不受引物间模板变异的影响。文库制备可简化成一步,人工操作时间仅5分钟,可用于小到中规模的基因捕获。
相关阅读【干货】SNP注释神器VEP如何C位出道?你的全外/人重选对软件了吗?
MEGA软件下载安装&序列处理&进化树绘制&Newick格式介绍
云课堂(8)|MetaboAnalyst使用教程-Enrichment Analysis模块
云课堂(9)|MetaboAnalyst使用教程-Pathway Analysis模块
云课堂(10) | MicrobiomeAnalyst在线绘图教程
云课堂(13) | 高通量测序数据NCBI GEO数据库上传指南
云课堂(17) | Cytoscape内插stringAPP完成PPI蛋白互作分析指南
Enrichment Analysis 模块 | 云课堂(18)
蛋白质组学搜库数据下载 | 云课堂(19)
samtools常用指令 | 云课堂(20)