NGS海量数据仅靠8nt的Index区分冗杂的RNA&DNA,样本“张冠李戴”带来的“假阳性”该如何处理?
在Massively parallel sequencing(MPS)平台上,特别是使用Illumina技术的平台,大量样本通常被汇集在一起进行测序,但样本仅靠单端或双端的Index来勾取和区分进入下游分析。
样本串扰(sample cross-talk)就是在复杂的NGS过程中,由于多种因素引起的标签错配(Index misassignment)导致的样本“张冠李戴”的问题。前期IDT公司发表了一篇“Unique, dual-indexed sequencing adapters with UMIs effectively eliminate index crosstalk and significantly improve sensitivity of massively parallel sequencing”的文章,系统的阐述了样本串扰的原因以及解决办法,还提供了一个能有效消除样本串扰的新“三合一”接头策略。
小编技术部的同事对该文章进行了案例分享,今天与大家一起学习~
什么是Sample Cross-talk (样本串扰)
测序的同质行业竞争日益激烈,谁能检测出更低频的突变,谁的假阳性率低,谁的敏感性更高,谁就能在竞争中抢占C位。样本串扰(Sample cross-talk)会导致假阳性干扰,特别是一些需求敏感性高的检测,如低频体细胞突变、古DNA研究、人体样本微生物检测、ctDNA变异检测等。
随着测序平台更新升级、测序通量急速提高,样本串扰(sample cross-talk)问题突显而出。导致样本串扰的原因可能是:①接头合成、制备、稀释过程中的交叉污染;②建库过程中的交叉污染;③捕获平台多杂一;④DNA聚合酶的局限性导致的Index错误合成引起的测序错误;⑤真正让数据污染问题突显的“罪魁祸首”,是以Novaseq为代表的测序平台,因为它们均采用了规则流动槽(Patterned Flow Cell Technology, PFCT)芯片和排他性扩增(Exclusive Amplification, ExAmp)的成簇新技术。然而利剑有双刃,也正是这两个新技术使得pooling在一起的文库更容易发生标签跳跃,导致标签错配。
为了阐明样本串扰的问题,文献首先做了几组巧妙的实验,证明了传统的双端barcode容易因交叉污染导致样本串扰,但使用IDT公司新款含有UMI的唯一匹配双端接头基本上能消除样本串扰。IDT新版“三合一”接头的NGS实验结果显示,一条lane里就发生了一个index misassignment,概率为7.1 × 10^-7% 。
另一组实验证明:捕获平台的多杂一也会产生样本串扰。
因为PCR过程中游离的index能利用接头的3’端临近Inset DNA的测序引物部分,形成不完全匹配的PCR扩增得到错配的扩增产物。上面a图中处于对角线是正确匹配的,对角线以外部分发生了样本串扰,串扰程度随颜色呈递增关系,并且可以看到随样本混杂数量的增加,样本串扰的程度就越高。
文献中还着重介绍了,如果使用IDT新版接头,对角线以外的接头错配的部分都会被判定为无效数据,不进入下游分析,保证了样本数据的真实性。
引起样本串扰的因素还有可能是DNA聚合酶的活性降低,延伸过程中的不完全互补配对造成的index错配。
Novaseq、Hiseq等平台应用了新型cluster 生成方式“Patterned Flow cell & ExAmp”
大大增加了Index hopping的概率,是导致Sample cross-talk引起广泛关注的主要原因。
传统的cluster生成方式可表述为Binding→washing→amplification 的过程,即dsDNA变性成为ssDNA后根据碱基互补配对的方式与FC表面的“草坪”结合,后续缓冲液将未binding上的文库以及游离接头冲洗掉,再加入试剂进行桥式PCR。
但ExAmp 是变性后直接加入ExAmp Reagent Cocktail(ExAmp专用试剂),ssDNA loading到Flow Cell上。经beads纯化的文库,会存在很多游离的接头,这些接头能利用DNA聚合酶和dNTP 与well里的“草”不完全互补配对扩增,导致“张冠李戴”,称为Index hopping。
可以从下图柱形图中看出,应用于Novaseq等平台的新型Patterned Flow cell 比传统的non-patterned Flow cell,index hopping问题更严重。
为此,IDT公司提供了一个新型“三合一”接头。接头的P5端index 1和P7端index 2成组设计,每组接头都是特异的,并含独特的UMI 来保证reads 的真实性。
由于两端接头都是唯一对应的关系,不与其他接头相同,当发生index misassignment,index1与Index 2未对应,将被剔除,不进入下游分析,因此能有效消除样本串扰的影响。
IDT公司的新型“三合一”接头根据三种不同的读取方式,可以行使三种不同的功能。
1.基因分型检验
只需要读取P7端 index,即把“3合1”接头当做普通的illumina Truseq TSLT单端接头来读取信息。这种应用方式适合对样品串扰不敏感的测序,比如遗传病等体细胞层面的突变。
2.高灵敏度检验
利用“3合1接头”的P5和P7端两个元件,读取两端UDI,进行双侧检验,有效降低index错误分配,防止样品交叉污染。
3.低频突变检验
运用“3合1接头”全部元件,一方面,P7和P5端的UDI设计可以有效降低NGS各个阶段的index misassignment;另一方面利用紧随P7端 index的UMI,可以用于检测低频突变,例如液体活检用户。
如果下游为高敏感分析,传统的双端Index的使用是不合适的,因为它会导致不可接受的样本错配。IDT公司的新型“三合一”接头策略几乎消除了样本串扰的影响。文章中的实验结果表明,使用这种接头是行之有效的减少假阳性率的方法。
参考文献
Macconaill L E , Burns R T , Anwesha N , et al. Unique, dual-indexed sequencing adapters with UMIs effectively eliminate index cross-talk and significantly improve sensitivity of massively parallel sequencing[J]. BMC Genomics, 2018, 19(1):30-.