300ng就能做m6A测序?RNA起始量究竟能有多低?
前几日小编收到一条正在某top科研机构读博同学的一条微信,说自己隔壁某顶级实验室已经将m6A测序total RNA最低起始量降到了丧心病狂的300ng!这是什么概念呢?这意味着RIP下来真正能用于IP文库的RNA起始量很有可能处于pg至ng级别。
作为国内最早提供m6A测序服务且在CNS杂志上有论文发表的公司,联川生物已经对不同物种不同样本类型有着丰富的RIP经验和建库经验。所以在这里,我们会为老师详细解剖RNA起始量的奥妙所在,其中的大坑和细节也会为老师们一一道来。
根据先前何川教授已公布的protocol,以及m6A-seq的发明人以色列特拉维夫大学医学院的Gideon Rechavi教授发表在Nature Protocols(Pubmed id:23288318)上的要求来看,total RNA需要至少200ug以上,polyA mRNA需要3-5ug以上。如果换算成细胞量的话,至少得是108。组织的话按照RNA得率丰度来看,800mg走起。若是拟南芥等植物,部分组织部位可能需要几百株才能取够。
如此大的起始量,意味着许多老师很难在自己的领域开展m6A的研究,基本上前期样本量不够就会卡死许多实验室。但是根据2018年已发表的部分高水平文章来看,这种情况似乎得到了改善,RNA起始量开始大幅度降低。
我们针对今年发表100多篇论文的起始量进行了筛选后,选取了影响因子大于10分的10多篇最有代表性的论文(代表各领域),从total RNA、m6A抗体RIP的最低起始量、建库最低起始量、建库方法等方面进行了统计(详见下图)后发现,从事神经科学和干细胞研究的课题组RNA起始量最低,而且建库方法有别于常规的m6A测序。由于神经科学以及干细胞研究的特殊性,导致组织或细胞RNA得率一直维持在一个较低的水平(许多实验室难以培养出巨量干细胞以满足m6A测序的最低起始量),所以这些学科方向的老师开始对传统的m6A测序方法进行了改良。
如上表所示,我们可以看到最后IP下来的RNA用于建库最低起始量可以低到1ng。除了上面所列的文章,小编又查询了其他几篇5-10分文章,发现许多建库起始量低于5ng的文章多次出现以前在FACS单细胞测序(FACS-scRNA-seq)中才会用到的技术——SMART扩增。
用于IP的RNA,绝大部分是polyA,也就是用oligodT磁珠这种方法来富集。而部分实验室由于对lncRNA和circRNA上的m6A修饰比较感兴趣,这时候需要使用Illumina的试剂盒Ribo-Zero Gold rRNA Removal Kit来对total RNA中的rRNA进行消化,适合的物种包括Human/Mouse/Rat、Plant leaf、Yeast等。如果做circRNA,还需要用RNase R来对剩余的线性转录本进行消化。
那么m6A抗体究竟是和打断后的RNA一起孵育还是直接对完整长度的RNA进行富集呢?我们可以从上表中看到,绝大部分文章都是对RNA先打断再用m6A抗体去孵育富集,且打断长度都集中在100nt左右。而有一篇Neuron的文章则是对不打断的RNA直接用m6A抗体进行富集。这里我们建议还是要对RNA先打断再富集,因为富集到的片段都属于高甲基化区域,而完整片段在后期分析时会带来一定的误差。当然如果是进行m6A-IP-qPCR,那么不打断则更容易设计引物。
所以到这一步我们发现,10-50ng之间RNA起始量对于实验室来说,用常规的转录组建库方式虽然有点小难度但是成功率还是很高的,大于50ng成功率会大大增加。我们还是以上图中那篇发表在Neuron上的文章为例,文中polyA的RNA在IP前的起始量是150ng,那么根据我们内部测试数据显示动物或细胞能够IP下来10-30ng左右(最高效率在20%),植物的话通常在20-40ng之间(最高可以到75ng,约50%的效率)。
对于老师来说,total RNA在20-30ug以上的话,IP文库适用的建库方法介于常规转录组建库和SMART建库之间,total RNA>30ug一般推荐使用常规转录组的建库方式。
那么低于20ug,乃至300-500ng左右的total RNA,就真的不能做m6A测序了吗?其实也不是。
在IP前无论是使用rRNA去除还是oligodT磁珠富集,最后IP下来的RNA必定要使用非常规的建库方法,除了SMART扩增,利用UMI分子标签技术来排除PCR duplication的干扰也是一种不错的技术。
我们知道单个细胞total RNA产出约为10pg左右,超过90%的序列为rRNA,植物可能还有叶绿体及其他细胞器产生的序列,如此估算下来mRNA的量只有0.2pg左右。这就意味着要产生合格的测序文库必须要对原有的RNA进行PCR扩增达百万倍以上。如此大的扩增量意味着PCR扩增效率一个小小的误差会对最后的结果产生很大影响。
下面我们就来谈论一下几种不同的微量建库方法,对于做m6A测序的可行性分析。其中我们会详细介绍两种SMART扩增法,后面的UMI分子标签技术、Target-Amp法以及Anydeplete法仅做简要介绍。
如何在total RNA中有效扩增出mRNA而不是rRNA,这就需要用到CloneTech公司推出的SMART扩增法。其中最核心的技术,就是设计了2个特殊的引物,再配合用MMLV逆转录酶进行逆转录。
通过上图我们首先可以看到逆转录的起始引物1,最头上是一段通用序列,在后续的反应中这段通用序列将会用于PCR扩增引物的识别序列。中间的一长段T是专门用于识别mRNA的3’末端polyA尾结构的,并与这些polyA尾序列进行碱基互补配对并结合。
特殊引物1的3’最末端有一个定位的结构,由两个简并碱基构成,但在PolyT的3’端倒数第二个碱基是A、C、G而非T的简并碱基,而倒数第一个为简并碱基,这样做的好处是让它正好结合在mRNA的3’端连到Poly(A)尾巴的这个连接处,而不会结合到mRNA的别的地方。这样就保证了逆转录的起始位置正好是mRNA的3’端的序列终止位置。
MMLV逆转录酶,这个酶有个特点,就是它在转录到mRNA的5’端末端的时侯,会在新合成的cDNA的3’末端,多加出几个C碱基来。所以从上图中我们可以看到,在绿色部分,逆转录反应最后会在末端多形成几个C碱基。
特殊引物2由一段通用序列及它的3’端是3个非脱氧的G碱基构成,也就是核糖核酸的、RNA的G碱基,而不是DNA的G碱基,这个引物可以与刚才新合成的cDNA的3’端的那几个C碱基发生互补杂交,然后引导这个MMLV酶再次发挥聚合作用,以刚才那条新合成的cDNA为模板,复制的结果,就是得到双链的cDNA。
这个双链cDNA,两端都已经接好了人工设计的PCR引物序列,然后,就加入常规的PCR引物,进行常规的PCR扩增,得到大量DNA。上图中红色框框,也就是两端的通用引物序列是相同的,所以PCR扩增效率基本会保持一致。
所以从上图的比较图中可以看到,如果拿常规建库和SMART建库方法进行比较,我们会发现针对微量样本SMART扩增法具有非常大的优势。但是这种方法在做m6A测序时可能有以下几个缺点:
a. 对RNA质量要求比较高,不能分析RNA降解样本和FFPE样本;
b. 只能分析mRNA和部分带有polyA尾的lncRNA;
c. 若样本出现污染或处置不当,后续建库序列中会存在大量原核污染序列;
d. 分析上带来极大的误差,如比对率低、接头序列比例过高,表达水平误差较大
e. 完整mRNA用m6A抗体富集会与先打断后抗体富集比起来,实验难度会有所提升,后期结果分析难以预估
…………
这种方法在2018年逐渐成为主流的低起始量m6A测序解决方案。我们参考了这篇发表在Nature NeuroScience(Pubmed id:29950670)的方法。这种方法的好处在于,rRNA去除后尽可能地保留了lncRNA、circRNA、mRNA等RNA信息在里面。另外这种方法也非常适合用于RNA降解样本、FFPE样本以及部分临床微量样本。
先来谈一谈rRNA去除效率,我们仅以人、大鼠、小鼠作为讨论对象。若需要得到500ng的rRNA-removal RNA,我们以Illumina Ribo-Zero Gold rRNA Removal Kit(Human/Mouse/Rat)为例,最起码需要total RNA在10ug以上。另外诺唯赞公司和NEB也有对应产品出售。
Illumina这款试剂盒对于哺乳动物rRNA去除效率,根据我们内部测试数据来看,大约维持在90-95%之间。最后消化完的RNA中,假如仍有极小部分rRNA残留,会对后期数据分析产生很大影响。官方推荐一次反应total RNA量在1-2ug左右,若不按照官方试剂盒操作,极有可能造成rRNA消化不充分,根据我们几次内部条件测试反馈结果来看,后期下机数据有大量无用数据,超过50%数据为rRNA,有时候只有不到30%为有效数据。
要想保证常规建库提高成功率,我们推荐total RNA起始量最好在20-30ug以上,无论是采用rRNA去除还是polyA富集,最后用于IP的RNA量大于1ug是比较保险的。
这篇文章打断长度是200nt,也有另外一篇SMART扩增的m6A测序论文(Pubmed id:30065315)打断长度是100nt。那篇文章total RNA起始量不到2ug,若去除rRNA,最后用于IP的RNA将不会多于200ng,若用polyA富集则不会多于50ng。IP下来最后RNA也就维持在1-5ng之间。常规转录组建库方法已无法满足要求,这是SMART法就可以登场了。
不同于方法一的SMART法,这款CloneTech名为SMARTer® Universal Low Input RNA Kit试剂盒的亮点在于,起始量可以低至200pg,针对2<RIN<3的降解样本以及FFPE样本具有特别好的效果。从上图中我们可以看到,不同于方法一中的常规SMART扩增法,这款试剂盒在SMART接头中引入了6N随机引物的概念。
所以根据我们目前查阅的大量论文来看,绝大部分课题组所使用的试剂盒以这款居多。
当然这种方法的弊端在于,样本中rRNA去除不干净导致后期下机数据中出现大量rRNA序列,而有效数据不会超过30%。另外就是老生常谈的一些问题,如原核序列污染(鉴于SMART高效的扩增效率)、后期比对率较低、接头序列过高等情况都会发生。这就是目前所有低起始量样本无法避免的问题,那就是噪音会被放大。
另一个问题就是,一个rRNA-removal RNA用m6A抗体IP下来构建的文库,尽管包含了mRNA、lncRNA、circRNA及其他类型的RNA,但这一个文库能否同时分析lncRNA和circRNA呢?答案是不一定,lncRNA基本确定可以分析,但是circRNA的特殊结构导致后期分析时无法将高甲基化的线性转录本reads和circRNA自身的甲基化reads区分开来。
从Cell Reports(Pubmed id:28854373)中的一幅统计图我们可以发现,circRNA所对应的host gene线性转录本高甲基化区域基本集中在3’ UTR区域附近。所以理论上一个文库同时分析mRNA和lncRNA是可以的,但是circRNA会严重失真,建议老师想要研究circRNA的话可以单独构建一个m6A circRNA文库,即全转录组m6A测序要构建2个IP文库,一个IP文库包含mRNA和lncRNA信息,一个IP文库单独包括circRNA的心里在里面。
这种方法目前已经在绝对定量转录组和液态活检技术中大放异彩。低起始量RNA在建库过程中用于PCR扩增所带来的偏好性导致后期SNP及转录本表达水平失真。UMI技术有效弥补了这个弱点,针对转录组中低丰度基因具有更好的定量效果。
同样m6A测序若最后IP文库起始量偏低又担心PCR扩增带来偏好,那么分子标签的引入可以解决这个问题。目前该方法还未有文章问世,联川生物内部也在进行紧张的测试环节。
1. 第一链cDNA合成:用T7-Oligo(dT)的引物进行cDNA合成,以便引入一个T7启动子
2. 第二链cDNA合成:cDNA:RNA杂交产物中的RNA被RNase H消化,剩下cDNA单链
3. 体处转录合成反义RNA:利用带T7的转录启动子的双链DNA,启动体外转录生成大量反义RNA
4. 纯化反义RNA
5. 第二轮的第一链cDNA合成:使用随机引物,再合成一轮cDNA
6. 第二轮中的第二链cDNA合成:用RNase H把DNA:RNA杂交产物中的RNA消化掉。用T7-Oligo(dT)引物合成cDNA
这种方法的特点是第一轮与第二轮都是线性扩增,大大减少了PCR反应的指数效应所引起的偏差。高效扩增,一轮扩增可以扩增几千倍,把10pg级的total RNA中的mRNA(约0.6pg)扩增到几个ng,达到测序的建库起始量要求。如果经过两轮扩增,就可以达到芯片所需的ug级的RNA量。
T7启动子在线性扩增上具有良好的稳定性,与SMART法比较相似。在不到3轮的情况下,即可扩增出符合测序和芯片实验所需的RNA起始量。
当然这种方法前期不能对RNA进行打断,只能直接先用m6A抗体富集(会有大量rRNA被一起富集下来),然后进行T7扩增。这对RNA样本质量要求较高,而降解样本和FFPE样本显然不符合要求。分析层面只能分析到mRNA和部分带有polyA的lncRNA
Anydeplete技术首先通过随机引物进行一链合成,一链合成引入核苷酸类似物,用于酶切打断,二链合成同样引入核苷酸类似物用于保证链特异性。然后两端加上接头,接头一条链也带有核苷酸类似物,用于酶切降解。当形成单链文库后,设计特异性引物与rRNA形成文库结合,一轮退火延伸,rRNA文库形成双链结构。Reverse adaptor上带有特异的酶切位点,当形成双链结构酶切位点被识别,切去接头,这样rRNA形成的文库不带有完整的接头,而其他文库带有完整接头,通过PCR扩增富积既能得到想要的信息,包含mRNA及lncRNA信息。同样Anydeplete技术与10×Genomics技术一样,包含UMI分子标签,可分析duplication及PCR产生突变位点。这点上SMART不能分析突变位点。
Anydeplete技术能够用于降解性样本,保证5’端及3’端信息的完整,能同时得到mRNA及lncRNA信息。所以一些降解样本做m6A测序,可以尝试下Anydeplete技术。
根据上面所介绍的内容,我们再来做个最后总结,分为常规建库方法和低起始量扩增法。
那么低起始量的缺点也是非常明显的,总结起来包括接头序列高,样本若污染会有大量原核序列被一起扩增出来造成数据量浪费,rRNA消化不完全导致后期数据大量浪费,reads比对率不高,数据分析不准确等。
所以各位老师还是要满足常规建库要求,尽量多寄送一些样本或RNA给我们,才能保证后期的数据是没有问题的。因为一旦RNA起始量过低,任何噪音都会呈指数型被无限放大,最终导致数据无法使用。
相关阅读推荐
病毒m6A专题 | HIV感染宿主促进病毒及T细胞m6A修饰
lincRNA1281上m6A修饰影响胚胎干细胞分化 | m6A专题
案例解析:METTL3上调肝癌中m6A水平引起YTHDF2介导SOCS2降解 | m6A专题
案例解析:拟南芥m6A甲基化酶FIP37调控茎尖分生组织发育 | m6A专题
你以为做完m6A测序后就完了?m6A-IP-qPCR了解下!
案例解析:拟南芥去甲基化酶ALKBH10调控成花转变 | m6A专题