样本总是“戴错帽子”?解读错配率趋于0的DNA纳米球技术
进入高通量时代,更多的样本混合上机成为常态。研究人员在构建文库时,将不同的index加到每个样品上,就像给它们戴上独特的“帽子”,这让生信工程师能在“茫茫reads海”中一眼就看到自己的目标。这一方案降低了测序成本,使临床基因测序得到广泛应用。
但是,在实际流程中,不能保证所有操作的准确率100%,总有样本会“戴错帽子”。最近研究发现[2-8],基于ExAmp(排他性扩增)的测序平台,例如HiSeq 3000/4000、HiSeq X Ten以及NovaSeq, 混样上机测序会出现index错误分配(index hopping)问题, 样本错误分配率超过1%,且对于PCR-free文库,index hopping比例可高达6%[5]。即使采用繁琐的non-combinatorial dual index方案来解决这个问题,index污染率也只能降低到0.08%[5]。
今年6月份,bioRxiv公开了题为《Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform》[1]的文章,使用三种主要的文库制备方法研究了DNB测序平台的Index hopping问题。
其中,BGISEQ测序仪利用独特的DNA纳米球(DNB)技术,基于滚环复制(RCR)进行文库扩增,这种线性扩增可以避免常规PCR带来的错误累积。基于DNB的NGS应用仅使用单个index就实现了0.0001%至0.0004%低样本错误分配率。此外,用水代替DNA,加入index,增加空白对照,DNB测序平台发生错误匹配的概率为36 million reads分之一,即0.0000028%。
图1.不同测序技术的index hopping比例
DNB测序平台的极低的index hopping比例,不仅可以有效避免样本的“张冠李戴”,还可带来以下效果:
1. 高的检测准确度,保证体细胞低频突变、HPV检测等基因检测的准确性[1];
2. Single index避免了繁琐的non-combinatorial dual index带来的额外成本和劳动力浪费[2];
3. 避免大通量测序中样本数据完整性的丢失。
DNB测序平台具有极少index hopping的原因及解决方法
1
DNA纳米球技术的高index保真度
BGISEQ平台将DNB加载到规则阵列(patterned arrays)上,并利用组合引物锚定测序技术(cPAS)进行测序[9]。独特的DNB技术采用具有强链置换活性的Phi29聚合酶和能够进行线性扩增的RCR工艺,每个扩增循环都以原始的单链环状DNA文库为模板,保持每个拷贝子的独立性(图2a)。因此,即使出现寡核苷酸的index hopping等错误,也不会累积错误拷贝,正确的序列总是会在后面的DNA拷贝中复制,保证最高的扩增保真度。
图2. Index hopping在不同的测序平台产生的机制
2
信号外溢造成极少的index hopping
Index污染可以通过实验操作、PCR错误、测序错误、寡核苷酸合成错误引入。为了检测BGISEQ平台极少index hopping的原因,研究人员首先找到那些出现错配的DNB,调查其测序质量。发现这些不匹配的DNB在index区域的平均Q30仅为36.66%,显著低于正确匹配的DNB的index区域(平均Q30 = 91.19%)。同时,统计了DNB在芯片上的位置,并计算了与其周围DNB共享相同index序列的概率。平均而言,无index hopping的DNB与相邻DNB共享相同index序列的概率为20.21%,存在index hopping的DNB共享相同index 的概率则为57.04%。该结果表明相邻DNB的信号外溢造成了index hopping。对于这种情况,index的测序质量通常偏低,研究人员可以通过Q30>60%过滤来降低因此产生的index hopping。
3
Oligo合成污染为另一主要原因
与原因2不同,研究人员还发现EFEMP2 / LOX被错误分配到index 7的 reads的index区域的测序质量值很高(平均Q30 = 85.03%和82.38%),如表1所示。index 2和index 7之间的汉明距离是8,索引3和7之间的汉明距离是9,因此,EFEMP2 / LOX 的index hopping也不太可能由随机测序错误引起的。
很可能的一个原因是,Index 7 oligo在合成或寡核苷酸处理过程中污染了其他寡核苷酸,导致在测序时候在其他的里面发现了index7。寡核苷酸合成污染可能是index错误分配的另一个主要原因,可通过使用IDT的TruGrade的oligo,有效避免此类index hopping的产生。
表1. BGISEQ平台的index hopping结果
此外,对于PCR-free的文库,由于起始量高,需要加入更多浓度的index,因此相比PCR文库更容易造成去除不干净的情况[2],如图3所示:
图3. PCR-free和PCR在两种测序芯片上index hopping比例的比较[2]
除了常规PCR文库外,文中还对PCR-free文库在BGISEQ平台的index hopping情况进行调查,未经过任何Q30过滤的99.9998%精度再次证实了DNB可以在很大程度上最小化index污染。与上面的常规PCR文库类似,污染率平均约为0.0004%。
表2. PCR-free 文库index污染比率
最后,对目标区域捕获文库进行测试,BGI肺癌试剂盒的数据验证了DNB测序平台上的single index不易发生index hopping,可用于准确检测癌症等疾病的低频变异。结果显示在不同库类型中BGISEQ index hopping比率都非常低,表明DNB测序技术的数据准确性不受文库构建方法的影响。
未来,测序通量极速扩大是大概率事件,避免样本的“张冠李戴”显得更加重要。基于DNB技术的测序平台,凭借极低的错误分配率和不断完善的技术,将有望提升数据质量,帮助科研人员牢牢把握精准数据以及背后的重大发现。这对所有科研人员而言,都是一个振奋人心的进步。
BGISEQ测序仪
参考文献:
[1] Li Q, Zhao X, Zhang W, et al. Reliable Multiplex Sequencing with Rare Index Mis-Assignment on DNB-Based NGS Platform. bioRxiv, 2018: 343137
[2] Illumina. Effects of Index Misassignment on Multiplexing and Downstream Analysis (white paper). 4 (2017). doi:10.1101/125724
[3] Macconaill L E, Burns R T, Nag A, et al. Unique, dual-indexed sequencing adapters with UMIs effectively eliminate index cross-talk and significantly improve sensitivity of massively parallel sequencing[J]. Bmc Genomics, 2018, 19(1):30.
[4] Sinha, R, Stanley G, Gulati GS, et al. Index Switching Causes “Spreading-Of-Signal” Among Multiplexed Samples In Illumina HiSeq 4000 DNA Sequencing. bioRxiv,125724 (2017). doi:10.1101/125724.
[5] Costello M, Fleharty M, Abreu J, et al. Characterization and remediation of sample index swaps by non-redundant dual indexing on massively parallel sequencing platforms. BMC Genomics, 2018 May 8;19(1):332.
[6] Griffiths J A, Lun A T L, Richard A C, et al. Detection and removal of barcode swapping in single-cell RNA-seq data:[J]. Nature Communications, 2018, 9.
[7] Vodák D, Lorenz S, Nakken S, et al. Sample-Index Misassignment Impacts Tumour Exome Sequencing.[J]. Scientific Reports, 2018, 8(1):5307.
[8] Van der Valk, T. et al. Low rate of index hopping on the Illumina HiSeq X platform. bioRxiv 179028 (2018). doi:10.1101/179028
[9] Huang J, Liang X, Xuan Y, et al. A reference human genome dataset of the BGISEQ-500 sequencer[J]. Gigascience, 2017, 6(5):1-9.
· END ·
直播预告:Science一作亲临解读
2018年8月31日,西安交通大学叶凯教授研究团队在著名学术期刊Science发表了罂粟基因组测序的最新研究成果,该研究成功绘制了罂粟的全基因组草图,并揭示了罂粟基因组中发生的基因重复、重排和融合事件。
9月5日(本周三)20:00,本文第一作者郭立博士将亲临探基学院“开讲啦,一作!”栏目,对本篇Science力作进行深度解读!长按识别下方二维码,关注探基,点击“课程报名”,进入“开讲啦,一作!”,即可报名观看直播!