查看原文
其他

circRNAs 定量之 CIRIquant 软件

JunJunLab 老俊俊的生信笔记 2022-08-15


90后的熬夜时代


1、前言

今天分享一篇中国科学院大学的 赵芳庆 教授在 2020 年 3 月份在 NC( nature communications )上发表的一篇文献:Accurate quantification of circular RNAs identifies extensive circular isoform switching events

基于在 CIRI 软件的基础上开发新的算法开发了 CIRIquant,能够更加精确的对 circRNAs 进行定量和 RNase R 处理矫正,同时提供了一步式差异分析。

CIRIquant 网址:https://sourceforge.net/projects/ciri/

作者介绍:

2、摘要

环状 RNA(环状 RNAs)的检测和定量面临着几个重大挑战,包括高错误发现率、rRNA 去除不均匀和 RNaseR 处理效率,以及反向剪接连接的 reads 评估不足。在这里,我们提出了一种新的算法,CIRIquant,为了准确的环状 RNA 定量和差异表达分析。通过构造伪环形参考索引的用于 RNA-seq reads 的重新比对,并使用复杂的统计模型来纠正 RNase R 处理偏差,CIRIquant 可以为具有意义的环状 RNA 提供更准确的表达值,大大降低了错误发现率。我们进一步开发了一个一站式的差异表达分析 pipeline,实现了两个独立的方法,这有助于揭示可变剪接的竞争对于环状 RNA 与其线性 RNA 之间的调控关系。我们将 CIRIquant 应用于肝细胞癌的 RNA-seq 数据集,并描述了重要的线性-环状转换和环状 RNA 转录本使用的转换事件,这证明在探索肝肿瘤发生中广泛转录组的变化有良好的前景。

3、结果

1、在环状 RNA 表达的定量方面面临的挑战

作者收集了 6 个实验的 4 个物种(human,mouse, fly 和 roundworm)63 个 RNA-seq 样本,包括了 RiboMinusRibo-Minus/RNase R 文库方法构建的数据。

作者分析了 rRNA 去除效率,不同文库处理,高表达 circRNAs 的富集造成影响和低表达 circRNAs 及不同生物学重复等因素都会对 circRNAs 的富集造成影响:

结论:

这些结果表明,环状 RNA 的定量受到其 丰度rRNA 去除率RNaseR 处理效率 的影响,这需要更有效的算法来处理这些问题。


2、CIRIquant:环状 RNA 的精确定量

CIRCexplorer2DCCfind_circ 等软件依赖于特定的 RNA-seq 比对软件来检测 锚定序列 或比对 融合 reads ,然后扫描映射结果来进行环形转录本识别。这些软件都有明显的缺点,因为它们使用的 RNA-seq 比对软件不是用于用 BSJ 信号比对 reads 的,特别是对于那些跨越多个连接位点的信号。

于是作者提出了一种新的、有效的方法,从转录组数据中准确识别和量化 BSJ 中的线性和环形转录本:

首先: 使用 HISAT2 将 RNA-seq reads 与参考基因组进行比对,并应用 CIRI2 或其他环状 RNA 检测工具来识别假定的环状 RNA。

然后: 为了 准确定量 circRNAs 和 去除假阳性结果,通过 连接 BSJ 区域的两个全长序列 ,生成一个 伪环状 RNA 参考序列 。然后,将候选的 circular reads 与这个伪参考序列 重新比对 ,以及 BSJ reads 它们是否可以线性并完全比对到 BSJ 区域来确定是不是 SJ reads。

此外: 此外,通过结合与 参考基因组伪参考序列 的比对结果,我们可以通过计算每个环状 RNA 连接的百分比 通过确定在 BSJ 上 circular splice junction reads 的比率。

对于 RNaseR 处理的 RNA-seq 数据,由于在不同的研究中 RNaseR 处理的效率不均匀,circRNA 的 BSJ 表达值不能直接用于比较分析,因此,我们使用了一个 高斯混合模型 来拟合其效率分布,然后使用拟合模型作为后验分布进行 RNase R 系数校正:

对于环状 RNA 的差异表达分析,我们提出了 两种策略 来评估病例和对照样本中环状 RNA 的 差异表达(DE)差异剪接(DS)

当由于没有生物学重复时,我们使用通常的 倍数变化 计算了环状 RNA 的 DE 和 DS 评分,利用倍数变化和方差信息,这提供了更有意义的 rankings。

对生物学重复样本进行 统计学检验 ,评估环状 RNA 表达值和连接比变化的显著性。来推断环状 rnaexpr 的真正差异。我们发现,利用基因表达数据进行 trimmed mean of logarithm fold changes(TMM)归一化,以去除系统的批次效应。然后,应用 edgeR 中的 广义线性模型 来确定环状 RNA 在不同实验条件下是否有显著差异表达,并使用 exact rate-ratio 检验作为环状 RNA 连接比差异的显著性检验:


3、模拟数据研究

为了验证方法的可靠性,作者使用 CIRI-simulator 产生了模拟数据集。

首先产生了 100 bp 到 250 bp 的 RNA-seq 数据集,使用 CIRI2CIRCexplorer2DCCfind_circKNIFE 来评估灵敏度,对于除 CIRI2 外的大多数工具,检测灵敏度随着测序读取长度的增加而降低。

应用这五种方法中的每一种从模拟数据中检测环状 RNA,然后使用预测的环状 RNA 坐标作为 CIRIquant 的输入来过滤假阳性和量化环状 RNA 的表达。然后在已识别的环状 RNA 中对 预测 BSJ reads 数模拟 BSJ reads 之间计算皮尔森相关性系数,结果是 CIRI2 的性能最好(PCC=0.97):

经 CIRIquant 调整 BSJ reads 后,五种方法的相关系数均有显著提高。

Sailfish-cir(与 CIRIquant 有类似的比对策略)比较发现,CIRIquant 有更好的表现:

此外作者拿了之前 qRT-PCR 的数据分析看到,CIRIquant 的表现明显优于所有其他工具:


4、RNase R 处理校正

在 3 个人的不同细胞系中的数据集,通过 CIRIquant 对 RNaseR 处理效率进行校正后,RiboMinus 和 RiboMinus/RNase R 样本的,校正后的 CPM 的偏差比的分布明显低于没有 RNaseR 效率校正后的水平:

在 RiboMinus/RNaseR 数据中,由于 RNaseR 富集环状 RNA,环状 RNA 的表达水平往往被高估,而修正 RNaseR 的处理效率可以尽量减少 RNaseR 处理和未处理样本之间的偏倚。使用了 20 个 qRT-PCR 数据,用 root-mean-squared error (RMSE)来检测环状 RNA 表达的偏差,经过 RNaseR 校正后,CIRIquant 显著降低了偏差:

为了进一步研究 RNaseR 处理对差异表达分析的影响,在 HeLa 细胞中进行了 TRA2B 敲低,对两个条件下进行 circRNAs 的定量(含 RiboMinus 和 RiboMinus/RNase R 不同建库),发现了较低的相关性,和 circRNA 有很多相反的表达结果:

因此,校正 RNaseR 的处理效率对于环状 RNA 的差异表达分析至关重要。

为了系统地评估 RNaseR 处理在差异表达分析中引起的潜在偏差,采用了两种不同的策略来处理 RiboMinus 和 RiboMinus/RNase R 数据集,然后为了进一步验证这种校正方法的可靠性,从 RiboMinus 数据中随机抽取一半的 reads,并使用这个序列子集来识别环状 RNA,然后对它们进行比较用相同的 RNaser 处理的样本计算 DE 评分:

最后,这些结果表明,在 CIRIquant 中的 RNaseR 校正可以 有效地过滤假阳性,产生更可靠的差异表达分析 。(这一块我已经看蒙了,哈哈)


5、线性-环形亚型开关事件的识别

junction ratio 的评估 CIRIquant 表现更出色,Sailfish-cirDCC 灵敏度较低,CIRI2 轻微的评估偏大。

为了进一步证明 CIRIquant 在差异表达分析中的适用性,作者在 HeLa 细胞中敲除了三个众所周知的剪接因子(MBNL1PTBP1TRA2B),作者使用 DE score 和 (differential splicing)DS score 来评估差异表达水平和 junction ratio 的变化:

还通过实验验证 CIRIquant 对环状 RNA junction ratio 估计的准确性:

基本一致的结果表明 CIRIquant 对环状 RNA junction ratio 测定的可靠性。

差异分析出的 DS-circRNAsDE-circRNAs 有着很高的一致性。还鉴定到 DS- 和 DE- 特异性的 circRNAs,不同剪接因子的敲除鉴定到的数量也不一样,表明这些剪接因子的敲除可能通过不同的机制影响环状 RNA 的生物发生。对 PTBP1 敲低的样本的 DE&DS circRNAs 进行功能富集,富集到 DNA 修复和磷酸化过程:

CIRIquant 还可用于识别 linear-circular isoform switching (LC-switching)。在这三个敲除样本中发现了多个线性-环状亚型开关事件:

这表明在这些剪接因子被敲除后,宿主基因的典型剪接和环状 RNA 的产生存在竞争性调控。总之,作者提出了一种新的方法来研究环状 RNA 研究中的线性-环状亚型转换事件,这有助于我们了解环状 RNA 生物发生的机制,并揭示其环状 RNA 与其线性对应物之间的竞争性剪接调控机制。


6、肝细胞癌中广泛的转录组学变化

这部分讲肝细胞癌中一些 circRNAs 的一些变化和结果,这里就不讲了。感兴趣去看原文。

4、总结

通过对模拟和真实数据集的综合评估,以及 qRT-PCR 验证,与以往的方法进行了比较,我们证明了 CIRIquant 在 circRNA 上表现出 高效率低的假阳性率 的检测和定量方法。

  • 1.对于 RNase R 处理的样本,观察到随机富集效应,以及高表达环状 RNA 的比例增加,这表明没有 RNase R 处理的 RiboMinus 文库 更适合于环状 RNA 的表达水平分析。
  • 2.在分析 RNase R 处理的样本的数据时,纠正 RNase R 带来的效应的是必不可少的。
  • 3.在 没有生物学重复 时,DE score 通过考虑倍数变化和 p 值,为差异表达的环状 RNA 提供了可靠的排名。在 RNase R 处理的样本中,CIRIquant 可以根据 RNase R 效率的后验分布来纠正 DE 评分,并过滤掉大多数 p 值和倍数变化相对较低的环状 RNA。
  • 4.对于 有生物学重复 的研究,CIRIquant 调整了 edgeR 中的统计模型来识别差异表达的环状 RNA。采用从基因表达水平中确定的 TMM 归一化因子,然后使用广义线性模型来估计环状 RNA 表达变化的统计学意义。

最后看一眼方法:


5、庙宇银杏

摄于-栖霞山-2020年10月31日




欢迎加入生信交流群。加我微信我也拉你进 微信群聊 老俊俊生信交流群 哦。

群二维码:



老俊俊微信:




知识星球:



所以今天你学习了吗?

欢迎小伙伴留言评论!

今天的分享就到这里了,敬请期待下一篇!

最后欢迎大家分享转发,您的点赞是对我的鼓励肯定

如果觉得对您帮助很大,赏杯快乐水喝喝吧!




 往期回顾 




怎么在 UCSC 官网下载基因组和注释文件?

ggplot 绘制三角形相关性图

clusterProfiler 的 shiny 版

我的 Ubuntu 启动项不见了?

Ribo-seq 质控软件:ribosomeProfilingQC

barplot 还不会添加误差线?你点进来就会了!

跟着 Hindawi 学画图:漂亮的火山图

跟着 Microbiome 学画图:堆积柱形图的多层注释

跟着 Science 学画图:多层柱形图

CIRCexplorer3 使用介绍

◀...

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存