测序文库PCR扩增产生的假重复去不掉?你试试这招
上一期我们说到“转录组测序结果上调,而qPCR结果下调,问题出在哪儿?“,赶紧再来复习一遍需要避开的5个常见的坑
需要避开的5个常见的坑
坑一:你验证的不是你以为的分子
坑二:不是同一批样品来验证
坑三:用不同的样本类型来验证
坑四:拿低表达或差异不显著的基因做验证
坑五:样本比对关系搞反
我们也知道了一个被忽略的坑:Duplication对测序定量结果的干扰(见图1)
图1 Duplication干扰基因定量
因PCR扩增产生的重复reads即为Duplication[1]
我们还知道了duplication不能简单地用生信的方法去除。因为转录本天然就存在着多拷贝(如上图),打断的片段自然也存在多拷贝,直接去除所有重复,一方面去除了duplication,但也把真实的重复给去除了,也就无法得到样本组间真实的基因表达差异。
那么怎么办呢?能不能在测序建库过程中就将真重复和假重复区分开来?
是可以的。
应对的策略其实很简单,“PCR扩增重复避不开,那就来打上标记。”
来看下面这项发表在PNAS上的研究工作。
这是来自谢晓亮院士(谢院士的介绍请自行百度)早年在哈佛大学的研究工作。这项工作讨论了如何最小化PCR扩增偏好性(就是Duplication)对测序数据,特别是低拷贝序列,定量分析的干扰[2]。研究团队开发出了一种称为Digital RNA sequencing的方法:序列在反转录后,加入大量的标签(barcode),几乎每个cDNA都被唯一的barcode标记,然后进行PCR扩增获得转录组测序文库(见图2)。由于序列是被barcode唯一标记的,计算序列拷贝数时,不再直接统计同一种reads的数量,而是统计每种reads有多少个unique的barcode。而具有相同barcode的同一种reads,无论有多少拷贝数,都只计作一个拷贝,即来自PCR扩增的假重复(Duplication)被有效去除。
图2 标签标记序列法去除Duplication的原理
把上图内容再展开说明一下,我们可以简单地认为,在样本中cDNA1有3个拷贝,cDNA2有2个拷贝,比例为3:2,然后用大量不同的barcode标记这5条序列,每条序列都被unique的barcode标记,最后进行PCR扩增完成文库制备。由于Duplication的存在,在没有barcode标记的情况下,cDNA1经扩增变成了9个拷贝,cDNA2变成了12个拷贝,比例变成了3:4,而我们知道两者原始的比例是3:2;而标记了barcode的cDNA1和cDNA2,合并具有相同barcode的同种序列后,cDNA1和cDNA2仍保持原始的拷贝数和比例,此种方案下测序定量结果准确反映了样本中序列的真实丰度和比例。
在同个时间段,瑞典卡罗林斯卡学院Linnarsson教授领导的团队也在Nature Methods报道了使用Unique Molecular Identifers (UMIs)标记进行单细胞转录组测序的研究工作[3,4]。对于单个细胞中的转录本表达水平分析,是不允许受到PCR扩增干扰的。UMI标记技术的应用,完美去除了扩增噪音。
此后UMI标记技术成为了单细胞转录组测序(scRNA-Seq)的标配之一,如10×Genomics,CEL-seq,Drop-Seq,SCRB-seq都成功应用了UMI标记技术[5]。
每位科研人都追求真实的数据和发现。采用UMI标记技术的RNA-Seq,可以获取更准确的测序定量结果,进而获得更高的qPCR验证吻合率,大幅减轻验证实验工作量,最后快人一步地取得科学发现。
不仅如此,采用UMI标记的RNA-Seq还可以获得更准确的… …
下期接着说。
1. Aird D, Ross M G, Chen W S, et al. Analyzing and minimizing PCR amplification bias in Illumina sequencing libraries[J]. Genome Biology, 2011, 12(2):1-14.
2. Shiroguchi K, et al. Digital RNA sequencing minimizes sequence-dependent bias and amplification noise with optimized single-molecule barcodes. Proc Natl Acad Sci U S A. 2012 Jan 24;109(4):1347-52.
3. Kivioja T, et al. Counting absolute numbers of molecules using unique molecular identifiers. Nat Methods. 2011, 9(1):72-4.
4. Saiful Islam, et al. Quantitative single-cell RNA-seq with unique molecular identifiers. Nature Methods 2014, 11:163-166.
5. Ziegenhain C, et al. Comparative Analysis of Single-Cell RNA Sequencing Methods. Mol Cell. 2017 Feb 16;65(4):631-643.e4.