circRNAs 定量之 CIRIquant 软件
90后的熬夜时代
1、前言
今天分享一篇中国科学院大学的 赵芳庆 教授在 2020 年 3 月份在 NC( nature communications )上发表的一篇文献:Accurate quantification of circular RNAs identifies extensive circular isoform switching events。
基于在 CIRI 软件的基础上开发新的算法开发了 CIRIquant,能够更加精确的对 circRNAs 进行定量和 RNase R 处理矫正,同时提供了一步式差异分析。
CIRIquant 网址:https://sourceforge.net/projects/ciri/
作者介绍:
2、摘要
环状 RNA(环状 RNAs)的检测和定量面临着几个重大挑战,包括高错误发现率、rRNA 去除不均匀和 RNaseR 处理效率,以及反向剪接连接的 reads 评估不足。在这里,我们提出了一种新的算法,CIRIquant,为了准确的环状 RNA 定量和差异表达分析。通过构造伪环形参考索引的用于 RNA-seq reads 的重新比对,并使用复杂的统计模型来纠正 RNase R 处理偏差,CIRIquant 可以为具有意义的环状 RNA 提供更准确的表达值,大大降低了错误发现率。我们进一步开发了一个一站式的差异表达分析 pipeline,实现了两个独立的方法,这有助于揭示可变剪接的竞争对于环状 RNA 与其线性 RNA 之间的调控关系。我们将 CIRIquant 应用于肝细胞癌的 RNA-seq 数据集,并描述了重要的线性-环状转换和环状 RNA 转录本使用的转换事件,这证明在探索肝肿瘤发生中广泛转录组的变化有良好的前景。
3、结果
1、在环状 RNA 表达的定量方面面临的挑战
作者收集了 6 个实验的 4 个物种(human,mouse, fly 和 roundworm
)63 个 RNA-seq 样本,包括了 RiboMinus 和 Ribo-Minus/RNase R 文库方法构建的数据。
作者分析了 rRNA 去除效率,不同文库处理,高表达 circRNAs 的富集造成影响和低表达 circRNAs 及不同生物学重复等因素都会对 circRNAs 的富集造成影响:
结论:
这些结果表明,环状 RNA 的定量受到其 丰度、rRNA 去除率 和 RNaseR 处理效率 的影响,这需要更有效的算法来处理这些问题。
2、CIRIquant:环状 RNA 的精确定量
CIRCexplorer2、DCC 和 find_circ 等软件依赖于特定的 RNA-seq 比对软件来检测 锚定序列 或比对 融合 reads ,然后扫描映射结果来进行环形转录本识别。这些软件都有明显的缺点,因为它们使用的 RNA-seq 比对软件不是用于用 BSJ 信号比对 reads 的,特别是对于那些跨越多个连接位点的信号。
于是作者提出了一种新的、有效的方法,从转录组数据中准确识别和量化 BSJ 中的线性和环形转录本:
首先: 使用 HISAT2 将 RNA-seq reads 与参考基因组进行比对,并应用 CIRI2 或其他环状 RNA 检测工具来识别假定的环状 RNA。
然后: 为了 准确定量
circRNAs 和 去除假阳性结果
,通过 连接 BSJ 区域的两个全长序列 ,生成一个 伪环状 RNA 参考序列 。然后,将候选的 circular reads 与这个伪参考序列 重新比对 ,以及 BSJ reads 它们是否可以线性并完全比对到 BSJ 区域来确定是不是 SJ reads。
此外: 此外,通过结合与 参考基因组 和 伪参考序列 的比对结果,我们可以通过计算每个环状 RNA 连接的百分比 通过确定在 BSJ 上 circular splice junction reads 的比率。
对于 RNaseR 处理的 RNA-seq 数据,由于在不同的研究中 RNaseR 处理的效率不均匀,circRNA 的 BSJ 表达值不能直接用于比较分析,因此,我们使用了一个 高斯混合模型 来拟合其效率分布,然后使用拟合模型作为后验分布进行 RNase R 系数校正:
对于环状 RNA 的差异表达分析,我们提出了 两种策略 来评估病例和对照样本中环状 RNA 的 差异表达(DE) 和 差异剪接(DS) 。
当由于没有生物学重复时,我们使用通常的 倍数变化 计算了环状 RNA 的 DE 和 DS 评分,利用倍数变化和方差信息,这提供了更有意义的 rankings。
对生物学重复样本进行 统计学检验 ,评估环状 RNA 表达值和连接比变化的显著性。来推断环状 rnaexpr 的真正差异。我们发现,利用基因表达数据进行 trimmed mean of logarithm fold changes(TMM)
归一化,以去除系统的批次效应。然后,应用 edgeR 中的 广义线性模型 来确定环状 RNA 在不同实验条件下是否有显著差异表达,并使用 exact rate-ratio
检验作为环状 RNA 连接比差异的显著性检验:
3、模拟数据研究
为了验证方法的可靠性,作者使用 CIRI-simulator 产生了模拟数据集。
首先产生了 100 bp 到 250 bp 的 RNA-seq 数据集,使用 CIRI2,CIRCexplorer2,DCC,find_circ 和 KNIFE 来评估灵敏度,对于除 CIRI2 外的大多数工具,检测灵敏度随着测序读取长度的增加而降低。
应用这五种方法中的每一种从模拟数据中检测环状 RNA,然后使用预测的环状 RNA 坐标作为 CIRIquant 的输入来过滤假阳性和量化环状 RNA 的表达。然后在已识别的环状 RNA 中对 预测 BSJ reads 数 和 模拟 BSJ reads 之间计算皮尔森相关性系数,结果是 CIRI2 的性能最好(PCC=0.97):
经 CIRIquant 调整 BSJ reads 后,五种方法的相关系数均有显著提高。
与 Sailfish-cir(与 CIRIquant 有类似的比对策略)比较发现,CIRIquant 有更好的表现:
此外作者拿了之前 qRT-PCR 的数据分析看到,CIRIquant 的表现明显优于所有其他工具:
4、RNase R 处理校正
在 3 个人的不同细胞系中的数据集,通过 CIRIquant 对 RNaseR 处理效率进行校正后,RiboMinus 和 RiboMinus/RNase R 样本的,校正后的 CPM 的偏差比的分布明显低于没有 RNaseR 效率校正后的水平:
在 RiboMinus/RNaseR 数据中,由于 RNaseR 富集环状 RNA,环状 RNA 的表达水平往往被高估,而修正 RNaseR 的处理效率可以尽量减少 RNaseR 处理和未处理样本之间的偏倚。使用了 20 个 qRT-PCR 数据,用 root-mean-squared error (RMSE)来检测环状 RNA 表达的偏差,经过 RNaseR 校正后,CIRIquant 显著降低了偏差:
为了进一步研究 RNaseR 处理对差异表达分析的影响,在 HeLa 细胞中进行了 TRA2B 敲低,对两个条件下进行 circRNAs 的定量(含 RiboMinus 和 RiboMinus/RNase R 不同建库),发现了较低的相关性,和 circRNA 有很多相反的表达结果:
因此,校正 RNaseR 的处理效率对于环状 RNA 的差异表达分析至关重要。
为了系统地评估 RNaseR 处理在差异表达分析中引起的潜在偏差,采用了两种不同的策略来处理 RiboMinus 和 RiboMinus/RNase R 数据集,然后为了进一步验证这种校正方法的可靠性,从 RiboMinus 数据中随机抽取一半的 reads,并使用这个序列子集来识别环状 RNA,然后对它们进行比较用相同的 RNaser 处理的样本计算 DE 评分:
最后,这些结果表明,在 CIRIquant 中的 RNaseR 校正可以 有效地过滤假阳性,产生更可靠的差异表达分析 。(这一块我已经看蒙了,哈哈)
5、线性-环形亚型开关事件的识别
junction ratio
的评估 CIRIquant 表现更出色,Sailfish-cir 和 DCC 灵敏度较低,CIRI2 轻微的评估偏大。
为了进一步证明 CIRIquant 在差异表达分析中的适用性,作者在 HeLa 细胞中敲除了三个众所周知的剪接因子(MBNL1、PTBP1 和 TRA2B),作者使用 DE score 和 (differential splicing)DS score 来评估差异表达水平和 junction ratio 的变化:
还通过实验验证 CIRIquant 对环状 RNA junction ratio 估计的准确性:
基本一致的结果表明 CIRIquant 对环状 RNA junction ratio 测定的可靠性。
差异分析出的 DS-circRNAs
和 DE-circRNAs
有着很高的一致性。还鉴定到 DS- 和 DE- 特异性的 circRNAs,不同剪接因子的敲除鉴定到的数量也不一样,表明这些剪接因子的敲除可能通过不同的机制影响环状 RNA 的生物发生。对 PTBP1 敲低的样本的 DE&DS
circRNAs 进行功能富集,富集到 DNA 修复和磷酸化过程:
CIRIquant 还可用于识别 linear-circular isoform switching (LC-switching)。在这三个敲除样本中发现了多个线性-环状亚型开关事件:
这表明在这些剪接因子被敲除后,宿主基因的典型剪接和环状 RNA 的产生存在竞争性调控。总之,作者提出了一种新的方法来研究环状 RNA 研究中的线性-环状亚型转换事件,这有助于我们了解环状 RNA 生物发生的机制,并揭示其环状 RNA 与其线性对应物之间的竞争性剪接调控机制。
6、肝细胞癌中广泛的转录组学变化
这部分讲肝细胞癌中一些 circRNAs 的一些变化和结果,这里就不讲了。感兴趣去看原文。
4、总结
通过对模拟和真实数据集的综合评估,以及 qRT-PCR 验证,与以往的方法进行了比较,我们证明了 CIRIquant 在 circRNA 上表现出 高效率 和 低的假阳性率 的检测和定量方法。
1.对于 RNase R 处理的样本,观察到随机富集效应,以及高表达环状 RNA 的比例增加,这表明没有 RNase R 处理的 RiboMinus 文库 更适合于环状 RNA 的表达水平分析。 2.在分析 RNase R 处理的样本的数据时,纠正 RNase R 带来的效应的是必不可少的。 3.在 没有生物学重复 时,DE score 通过考虑倍数变化和 p 值,为差异表达的环状 RNA 提供了可靠的排名。在 RNase R 处理的样本中,CIRIquant 可以根据 RNase R 效率的后验分布来纠正 DE 评分,并过滤掉大多数 p 值和倍数变化相对较低的环状 RNA。 4.对于 有生物学重复 的研究,CIRIquant 调整了 edgeR 中的统计模型来识别差异表达的环状 RNA。采用从基因表达水平中确定的 TMM 归一化因子,然后使用广义线性模型来估计环状 RNA 表达变化的统计学意义。
最后看一眼方法:
5、庙宇银杏
摄于-栖霞山-2020年10月31日
欢迎加入生信交流群。加我微信我也拉你进 微信群聊 老俊俊生信交流群
哦。
群二维码:
老俊俊微信:
知识星球:
所以今天你学习了吗?
欢迎小伙伴留言评论!
今天的分享就到这里了,敬请期待下一篇!
最后欢迎大家分享转发,您的点赞是对我的鼓励和肯定!
如果觉得对您帮助很大,赏杯快乐水喝喝吧!
往期回顾
◀Ribo-seq 质控软件:ribosomeProfilingQC
◀...