Nature Reviews Genetics探讨环状RNA研究方法现状
10月14日,Nature Reviews Genetics杂志在线发表了斯坦福大学斯坦福癌症研究中心的Julia Salzman教授为通讯作者的综述文章,汇总分析了环状RNA研究方法的现状和主要问题(Szabo and Salzman, 2016)。
作者汇总分析了目前环状RNA研究所使用的生物信息学技术和实验技术的主要局限性。如何客观准确的反映样品中环状RNA及其他类型的RNA依然没有彻底解决,各位对环状RNA有兴趣的同行不妨和山人一起学习一下作者对这一问题的深刻剖析和见解吧。
检测RNA拼接作用所面临的挑战:
基于二代测序的RNA-Seq技术大大提高了我们研究转录组的能力,已开发出了很多种线性RNA分子中RNA拼接作用的信息学分析算法,但从一些科学家的实验比较结果来看,如何提高RNA拼接作用检测的精确性依然是一个富有挑战的问题。就连基因组序列非常清楚的C57BL/6NJ小鼠中,也遇到了信息学分析结果与实验结果对应不上的情况(Engstrom et al., 2013)。因此即使在还没有考虑环状RNA的情况下,仅仅分析线性RNA的情况下依然会存在假阴性的问题,而若充分考虑环状RNA的情况,RNA拼接作用分析的精确性的不足就更可想而知了。
造成这一状况的一个可能的原因是特定的算法都会针对某种假阳性或假阴性设计相应的算法,面对日益庞大的RNA-Seq数据量,还要兼顾运行时间和数据存储等因素,导致各个算法都有一定的偏好性或不精确性的倾向。不同的算法在筛选拼接位点的时候所采取的数据比对算法及mapping算法都会影响其RNA拼接分析的精确性。不同的算法在处理mismatches及indels时所得出的报告甚至会大相径庭(Engstrom et al., 2013)。
常规RNA-Seq数据mapping常用已注释的转录组进行比对,也可以直接用基因组序列进行mapping比对,利用基因组进行比对mapping的情况可帮助发现非典型的转录本,但满足这类需求的比对算法的精确性还有待提高。环状RNA不适合用已注释的参考转录组进行比对分析,因此就会面对比对分析精确性的问题。环状RNA分析的样品制备和数据分析都需要与常规转录组分析不同的技术体系,由此导致的精确性下降是本文讨论的重点。
环状RNA检测技术所面临的挑战:
样品制备方面:样品制备方面会影响测序分析结果的因素有三个:
1. 样品纯度;
2. RNA和cDNA水平分子大小过滤的情况;
3. 样品片段化处理及加接头等操作步骤的影响。
专门分析环状RNA的实验往往会通过去除rRNA及增加RNase R消化等处理过程而富集环状RNA,也有进一步区分Poly(A)-(+)和Poly(A)-(-)的。值得一提的是,目前传统的RNA-Seq在样品制备和建库的过程经常会排除小于200nt的RNA分子,这可能会影响小于200nt的环状RNA的分析(Salzman et al., 2013)。专门针对小RNA进行样品制备和建库分析的情况需要注意样品片段化的条件,由于环状RNA不含游离末端,因此在加接头的过程需要特别注意这一点。
图1 RNA-Seq分析中样品制备阶段对最终结果影响的因素。(来自(Szabo and Salzman, 2016))
除了RNA样品制备过程,后续的反转录和建库过程也会带来人为干扰情况。可能的人为干扰情况有RNA反转录过程中出现的不同RNA之间跳跃的情况会将两个不同RNA序列反转到同一cDNA上,因此会引入假阳性的RNA拼接分析结果。在建库过程中连接接头的一步也可能会导致两个cDNA分子连接到一起而引入假阳性的RNA拼接结果(Yu et al., 2014)。环状RNA还可能会被滚环式反转录,导致一个环状RNA被反转录为多倍的序列,也会引入假阳性的RNA拼接比例。
图2 环状RNA分析样品制备过程可能带来的人为干扰(来自(Szabo and Salzman, 2016))
测序数据分析方面:
环状RNA与所对应的线性RNA最大的差别在反向拼接位点,环状RNA的含量往往很低,总量方面环状RNA只占到mRNA量的1-3%。测序数据中环状RNA与对应的线性序列只有在反向拼接位点周围的才有差异。RNA-Seq分析中经常会出现即使同一RNA序列的不同位点mapping效率存在巨大差别的情形,原因至今不清楚(Lahens et al., 2014)。这种偏好性问题导致的环状RNA分析问题尤其需要注意。此外,位于外显子两段的序列如果存在同源性接近的序列或者测序过程引入的错误序列都可能造成假阳性的反向拼接分析结果(如下图所示的情形)。
图3 环状RNA数据分析过程可能引入的偏差(来自(Szabo and Salzman, 2016))
数据分析算法带来的偏好性可能会在转录组水平造成一些分析的“盲区”,也会对环状RNA分析结果造成影响。常用的排除假阳性结果的方法一是基于基因注释,二是基于分析U2拼接信号分析,但基因注释往往是不全面不完整的,因此可能会将真实的反向拼接排除掉。有的RNA拼接作用是U2非依赖的,因此也可能会导致真信号的丢失。很多算法通过提高有效Reads数目或比例来排除假阳性结果,但有的基因本身表达量就非常低(例如SMO基因),这一方法也可能导致真信号的丢失。一些算法引入打分策略,针对目标Reads进行打分,从而区分真阳性和假阳性的反向拼接信号。有些算法引入统计方法进行评分,可较有效的甄别反向拼接的情况。RNase R消化进行样品环状RNA富集虽然可以提高有效Reads,但在现有的算法中总难免假阳性等问题,长度长及更高质量的测序都无法弥补算法偏好性等问题。
环状RNA分析算法比较:
个别环状RNA分析算法会选择单尾(Single-end,SE)或双尾(Paired-end,PE)的数据,但绝大部分的算法会有选项可选择其中之一。双尾的数据更能提高分析的灵敏度,个别情况下也可以提高特异性。提高数据的覆盖度也可以提高分析的灵敏度。除了Segemehl算法,其余的算法均采用了Bowtie 或 STAR进行mapping分析。本文作者系统汇总了目前主要的环状RNA分析相关的算法异同点:
表1 已知的环状RNA分析算法优缺点系统汇总分析(来自(Szabo and Salzman, 2016))
校准环状RNA分析准确性的几个常用方法辨析:
针对特定的环状RNA可以通过RT-PCR,一代测序等方法进行更精确的研究,但基因组水平的检测和分析环状RNA的校准体系还没有形成,目前常采用的包括如下五种策略,作者针对这些策略的优缺点进行了讨论。
方法1,RNase R消化:利用RNsae R处理样品是验证环状RNA的最常用的技术策略。理论上RNsae R可以专一性消化线性RNA,从而大大富集环状RNA,有利于提高分析的灵敏度。但一些报道表明有的环状RNA也可以被RNsae R消化,包括DR1as,MAN1A2,NCX1 及果蝇Ank2等环状RNA分子。利用RNase R消化还可能给后续的数据分析带来不利影响,包括改变了reads的分布状况等。
方法2,去除Poly(A)-(+)RNA:环状RNA往往不含Poly(A)尾,因此通过去除Poly(A)-(+)RNA也可以起到富集环状RNA的作用,有利于提高分析的灵敏度。但该方法同样会带来定量不准确的问题,主要是目前去除Poly(A)-(+)RNA的技术体系还不够完善。具体表现为进行去除Poly(A)-(+)的RNA的操作后,Poly(A)-(+)RNA的样品中依然能检测到低丰度的环状RNA,而Poly(A)-(-)的RNA产物中也会丢失一些环状RNA,造成检测结果的不准确。经常将去除Poly(A)-(+)RNA与RNase R消化结合起来,需要注意的是在这类处理条件下需要对样品进行归一化(Normalization),也需要对结果进行统计分析。
方法3,DecoyReads:在进行RNA-seq数据分析的过程中,会出现一类无法通过参考序列或多态性拼接信息匹配的特殊Reads,这类Reads统称为Decoy Reads。在环状RNA数据分析的过程中,因为基因组重排,外显子同源性或重复序列等因素的存在,分析过程往往会混淆反向拼接的Reads还是Decoy Reads,造成不准确性。Decoy Reads可以用来作为分析所采用的数据分析方法的精确性,但由实验或分析方法造成的假阳性情况可能会被低估,在评估一些未经评估的新算法时会基于已评估的算法,这样就会造成未评估算法只能与已评估的算法保持一致,很难实现更精确的分析。此外Decoy Reads分析只适合双尾的测序数据。因此作者认为还需要开发更精确的全基因组水平鉴别Decoy Reads与反向拼接的算法。
方法4,反转录特异性:RNA样品进行反转录的过程中偶尔会出现跳跃性反转录的情况,就是从A链跳到B链上继续反转录。这种RNA链间跳跃的情况会引入假阳性的反向拼接结果。更糟糕的是,这类跳跃反转录还经常会在不同批次的实验中重复出现,仅仅依靠增加生物学重复次数并不能有效的避免这类干扰。曾有课题组试验过用AMV和MMLV分别进行环状RNA反转录实验,在所得到的13个阳性结果中,两种反转录酶只有6种可以相互印证,另一个课题组则证明其余的7个结果中有4种也是真实的环状RNA。因此,反转录条件也会大大影响环状RNA分析的结果,增加生物学重复及尝试多种反转录条件或许是不错推广的建议。
方法5,模拟数据:模拟数据(simulated data)也是一种常用的评估分析特定的算法的精确性和特异性做法,是基于已知的表达谱特征数据进行评估分析。已有一些专门的工具进行算法的模拟数据分析,比如针对人和小鼠的双尾的Illumina平台测序数据的BEERS工具等。值得一提的是,实际获得的转录组的复杂程度远高于模拟数据的情况,主要原因是目前在生化水平对转录产物的认识还比较有限。
作者详细汇总了这五种常用的校准分析算法准确性的方法的优点和局限性:
表2 常用的校准方法优势与不足分析(来自(Szabo and Salzman, 2016))
作者认为基于分离Poly(A)-(+)RNA进行环状RNA假阳性甄别的实验更可取,原因有两个:
1. 从已知的实验结果来看,进行Poly(A)-(+)RNA的过程所得到的Poly(A)-(+)RNA中只有极少量的环状RNA,但RNase R消化却可以导致一些已经被证实的环状RNA被降解,比如CDR1as。
2. 在分离后的Poly(A)-(+)RNA中分析得到的丰度较高的“环状RNA”很多被证实是由基因重复序列导致的数据分析假阳性结果。因此,综合而言,分离Poly(A)-(+)RNA和Poly(A)-(-)RNA进行环状RNA假阳性甄别是比RNase R消化更有效的方法。山人认为该建议非常值得各位环状RNA的同行们认真思考。
参考文献:
Engstrom, P.G., Steijger, T., Sipos, B., Grant, G.R., Kahles, A., Ratsch, G., Goldman, N., Hubbard, T.J., Harrow, J., Guigo, R., et al. (2013). Systematic evaluation of spliced alignment programs for RNA-seq data. Nature methods 10, 1185-1191.
Lahens, N.F., Kavakli, I.H., Zhang, R., Hayer, K., Black, M.B., Dueck, H., Pizarro, A., Kim, J., Irizarry, R., Thomas, R.S., et al. (2014). IVT-seq reveals extreme bias in RNA sequencing. Genome biology 15, R86.
Salzman, J., Chen, R.E., Olsen, M.N., Wang, P.L., and Brown, P.O. (2013). Cell-type specific features of circular RNA expression. PLoS genetics 9, e1003777.
Szabo, L., and Salzman, J. (2016). Detecting circular RNAs: bioinformatic and experimental challenges. Nat Rev Genet 17, 679-692.
Yu, C.Y., Liu, H.J., Hung, L.Y., Kuo, H.C., and Chuang, T.J. (2014). Is an observed non-co-linear RNA product spliced in trans, in cis or just in vitro? Nucleic Acids Res 42, 9410-9423.