目前10X单细胞是一项十分火热的技术,但是根据不同的研究目的和研究类型,标记的细胞数量以及最后制备文库所需的cDNA量也是千差万别。这就涉及到一个非常关键的步骤那就是高通量测序文库的制备。在制备文库之前就需要对cDNA进行一轮扩增,所以cDNA扩增所需的PCR循环数也因为不同细胞类型和细胞数量会有一些差别。然后在完成打断和测序接头连接后需要在高通量测序文库构建中再次进行一轮PCR扩增,这时候也会因为cDNA Input的不同,又会有不同的循环数。下面我们就仔细探究下细胞的不同数量以及不同的细胞类型对cDNA扩增以及文库制备过程中PCR循环数究竟有何影响。
根据官方文档CG000183提供信息来看,从细胞悬液制备到测序文库出具QC报告总计历时在8小时左右。而其中最为关键的一个步骤之一就是cDNA扩增以及文库制备环节。无论是捕获的细胞数量,还是不同细胞类型的RNA产率都会严重影响最后的结果,为了保证不同细胞数量及细胞类型对最后的分析不产生较大影响,保证上机文库最终的cDNA量尽量要保证一致,这就使得我们在PCR扩增这一步要做出一定的调整。典型的如外周血单核细胞PBMC(Peripheral Blood Mononuclear Cell)的total RNA会显著低于一些细胞系,而纤维细胞、造血祖细胞乃至树突细胞,RNA整体得率甚至比PBMC还要低。下面我们会分几块内容层层递进,来进行详细讲解。
在制备细胞悬液的过程中,我们会确定一个大致的细胞浓度。目前根据10X官方统计结果来看,当Input的细胞数量为1600个时,10X芯片大概能捕获到1000个左右的细胞数量,多细胞率(multiplet rate)为0.8%。官方推荐的细胞悬液的浓度为700-1200个。
另外当细胞悬液中存在大量的死细胞时,也会严重影响10X芯片最后捕获的细胞数。当然随着Input载入的细胞数量越多,10X芯片捕获的细胞总数也越多,自然多细胞率也会增加。根据10X官方文档CG000183统计,当被捕获的细胞数只有500个时,多细胞率为0.4%,当达到10000个细胞捕获数时,多细胞率达到了7.6%。那么又一个问题来了,究竟这个700-1200 cell/μL的细胞悬液浓度范围是怎么得到的呢?我们根据上面的表格可以看到,不同细胞浓度会对应不同的上样体积(不计算RF水),最终会影响到捕获细胞的数量。蓝色区域能够让10X芯片最终捕获的细胞接近更真实的数量。黄色部分会导致捕获细胞数量比实际预估的要高。至于灰色部分由于整体进样的反应体积已超出正常范围,所以无法进行相对应操作。唯一始终不变的是细胞悬液+RF水总计46.6μL进样体积。所以细胞悬液浓度并不是越高越好,更不能越低越好。这些通过无数次条件测试的官方数据,能够指导我们以合理的浓度进行实验。那么相同的细胞数量后期对我们文库构建时PCR循环数就没有影响了吗?大错而特错!实际上不同的细胞整体的RNA得率千差万别。根据美天旎官方信息统计,我们发现PBMC、造血祖细胞、纤维细胞、树突细胞(DC细胞)等total RNA得率简直是感人,1×106的细胞数只有约1-8μg的得率。换句话说,造血祖细胞单个细胞的RNA得率仅有1pg,PBMC约为8pg。而一些细胞系的RNA得率就高得多了,如HeLa细胞单个细胞RNA得率居然可以达到32pg。所以具体到NK细胞以及Treg细胞等免疫细胞在mRNA得率上会比一些细胞系更少(PBMC里包含NK细胞以及T细胞等)。对于组织而言,肝脏以及肾脏RNA率最高。所以后期我们无论是进行cDNA扩增还是在制备文库时,一定要了解样本的来源,这些RNA产出会影响到后期cDNA扩增的循环数,继而影响到cDNA的Input量,最终对后期高通量测序文库的PCR循环数至关重要。在制备好细胞悬液后,下一步就是在10X芯片中将每个细胞都包裹在一个油包水的结构中,每个油包水也称之为GEM。当每个油包水中,已经对细胞中带有polyA尾的mRNA进行了一轮预扩增后,油包水发生破裂,带有barcode和UMI的cDNA预扩增产物会随之释放出来。变成一个混合的cDNA pooling库。其中对mRNA进行预扩增的关键因素就是MMLV逆转录酶以及具有oligodT特殊结构的预扩增引物。这个技术从原理上与Takara旗下CloneTech出品的smart-seq2技术如出一辙。你可以把10X理解为几千个同时反应的smart-seq2,只不过每个细胞都带有特有的barcode。下面我们就来稍微来对这种特殊扩增技术的原理做一个解释。通过上图我们首先可以看到逆转录的起始引物1,最头上是一段通用序列,在后续的反应中这段通用序列将会用于PCR扩增引物的识别序列。中间的一长段T是专门用于识别mRNA的3’末端polyA尾结构的,并与这些polyA尾序列进行碱基互补配对并结合。特殊引物1的3’最末端有一个定位的结构,由两个简并碱基构成,但在PolyT的3’端倒数第二个碱基是A、C、G而非T的简并碱基,而倒数第一个为简并碱基,这样做的好处是让它正好结合在mRNA的3’端连到Poly(A)尾巴的这个连接处,而不会结合到mRNA的别的地方。这样就保证了逆转录的起始位置正好是mRNA的3’端的序列终止位置。MMLV逆转录酶,这个酶有个特点,就是它在转录到mRNA的5’端末端的时侯,会在新合成的cDNA的3’末端,多加出几个C碱基来。所以从上图中我们可以看到,在绿色部分,逆转录反应最后会在末端多形成几个C碱基。特殊引物2由一段通用序列及它的3’端是3个非脱氧的G碱基构成,也就是核糖核酸的、RNA的G碱基,而不是DNA的G碱基,这个引物可以与刚才新合成的cDNA的3’端的那几个C碱基发生互补杂交,然后引导这个MMLV酶再次发挥聚合作用,以刚才那条新合成的cDNA为模板,复制的结果,就是得到双链的cDNA。
这个双链cDNA,两端都已经接好了人工设计的PCR引物序列,然后,就加入常规的PCR引物,进行常规的PCR扩增,得到大量DNA。上图中红色框框,也就是两端的通用引物序列是相同的,所以PCR扩增效率基本会保持一致。
所以在这种技术的帮助下,一个细胞中的mRNA会快速复制,单个细胞RNA得率越高,最后预扩增得到的cDNA总量就会越高。所以MMLV酶在每个油包水中对mRNA进行预扩增后,油包水会发生破裂,得到了带有barcode和UMI的cDNA。我们接下来还需要对cDNA进行一轮扩增。根据10X官方文档CG000183统计,当细胞数小于500个时,推荐的PCR循环数为13个循环,而当细胞数大于6000个时,推荐的PCR循环数为11个。但是官方也指出,最佳的PCR循环数需要在产生足够用于文库构建的起始量与PCR扩增带来的影响之间进行权衡。如果细胞数量本身较多,则还应减少cDNA循环数。需要注意的是,根据前面章节提到的不同细胞类型RNA得率等问题,相对于得率较高的部分细胞系以及组织消化后得到的细胞悬液,PBMC以及其他免疫类细胞,可以适当增加2个PCR循环。接下来进入了cDNA CleanUp-SPRIselect步骤,最终将40μL样本转移到一个新的离心管中。4℃可以保存72小时,而-20℃则可以保存约4个星期。在进入cDNA质检环节,常规样本需要从上述的40μL中取出1μL进行1:10稀释后使用Agilent Bioanalyzer 2100质检.如果单个细胞total RNA得率低于1pg,则不需要对1μL体积进行稀释。需要注意的是,一些低分子量大约在35-150bp的小片段可能也会被测到,官方认为这属于正常现象,不影响测序结果。
官方建议电泳图的区域大约设置在200-9000bp左右。另外,也需要注意cDNA质检的浓度。官方给出的意见为1244.06pg/μL。最后官方还给出了cDNA整体产出总量的计算公式。通过Agilent Bioanalyzer 2100机器中读取的数值来看,cDNA浓度[pg/μl]乘以cDNA扩增后反应净化样品的洗脱体积(40μl),然后除以1000就可以得到总浓度cDNA(ng)。以上图中1244.06pg/μL浓度为例,洗脱体积40μL,稀释倍数10,最终total RNA产出如下所示但需要注意的是,最终用于高通量测序所用文库的cDNA量,不能全部用完,只能用其中的25%,也就是0.25×497.62=124.4ng。具体细节我们会在后面小节中详细介绍。前面已经获取了cDNA后,就需要对其进行打断,末端修复并连上接头序列。根据10X官方推荐,该步骤整个反应只需10μL,也就是25%的体积即可。剩下的样本可继续保存在4℃中72小时或-20℃中4个星期。通过Post Ligation CleanUp-SPRIselect步骤后,将最终得到的30μL体积样本转移到新的离心管中。随后加入60μL Sample Index PCR Mix以及10μL的individual Chromium i7 Sample Index(用于区分不同样本,一张10X芯片最多可以做8个样本)。最后高通量测序文库构建也需要进行PCR扩增,我们看到不同的cDNA Input对应的PCR循环数也是有所不同。如上一小节我们提到的对40μL体积中总计492.76ng的cDNA,取其中10μL也就是25%,总计142.4ng的cDNA,按照上面要求PCR循环数需要12-13个左右。而一些低起始量RNA产出的细胞,极有可能cDNA Input不到20ng。同样扩增好的样本,可以在4℃环境下保存约72小时,用于下一步骤的准备。最后通过双端Index的reads进行一轮SPRIselect筛选后,获得约35μL样本转移到新的离心管中进行4℃保存72小时或-20℃保存4个星期。最后取其中1μL进行1:10稀释后在Agilent Bioanalyzer 2100上进行质检,我们发现标准的illumina PE150测序文库,片段大小基本上主要集中在350-400bp左右的位置,而这种没有测通的reads也符合测序效率最优最大化的原则。