鉴定差异翻译效率基因之 deltaTE 上篇
鉴定差异翻译效率基因之 deltaTE 上篇
1、介绍
deltaTE 在 2019 年发表在 CURRENT PROTOCOLS 上面,介绍了使用 deltaTE (ΔTE) 的方法来鉴定差异翻译效率的基因。
文章标题:
deltaTE: Detection of Translationally Regulated Genes by Integrative Analysis of Ribo-seq and RNA-seq Data[1]
摘要:
背景: 核糖体图谱分析(Ribosome profiling)能够在全基因组范围定量转录本上的核糖体占有率,结合匹配的 RNA-seq 测序数据,可以计算出基因的翻译效率(translation efficiency:TE),进而揭示翻译调控。除此之外,基因表达调控层面很难在整体范围内进行评估,而且在人类疾病的背景下通常没有理解的很透彻。
难题: 目前计算 TE 差异的统计方法的精度较低,不能适应复杂的实验设计或混杂因素,并且不将基因归类为缓冲的(buffered)、强化的(intensified)或完全由翻译调控的(exclusively translationally)基因。
解决方法: 本文概述了一种方法,即 { referred to as deltaTE (ΔTE), standing for change in TE } ,用来识别翻译调控的基因,解决了以前方法的缺点。
结果: 在广泛的基准测试分析中,ΔTE 优于所有测试的方法。此外,将 ΔTE 应用于来自人类原代细胞的数据,可以检测更多的翻译调控基因,为致病过程中的翻译调控提供更清晰的理解。在本文中,我们将从原始数据开始,进行数据准备、标准化、分析和可视化。
Introduction
下一代测序方法已经成为生命科学中的常用工具,使研究人员能够理解细胞过程的分子机制,形成表型差异,并最终改变疾病易感性。显然,要全面了解基因调控需要挖掘基因表达的每一层面,而表达谱的研究通常聚焦于 RNA 分子的丰度。
RNA 测序(RNA-SEQ)是量化 RNA 分子片段以评估基因转录水平的方法。为了实现这一点,测序读数被映射到基因组并计数以量化每个基因的表达。不同条件之间的这些计数的显着变化能够识别正在进行转录调控的基因。但是,单独的 RNA-SEQ 不会捕获完整的过程全貌。虽然转录过程会产生广泛的转录产物,但基因的最终表达是精确的,并且其命运在基因表达调节的下游阶段确定,例如翻译调控,蛋白质稳定性,蛋白质降解等。
核糖体图谱(Ribo-seq)提供了一种定量方法来研究翻译调控,一种影响蛋白质水平的转录后过程。通过捕获受核糖体保护的 RNA 片段(RPFs)来在转录组范围对翻译水平进行定量。某个基因在不同条件下 RPFs 数量的变化可以代表编码蛋白质翻译的变化。然而,要想可靠地识别翻译中的差异,由于转录本的 mRNA 丰度会直接影响核糖体占有率,因此使基因调控变得复杂起来。
每个转录本上的核糖体数量可以通过整合 g RNA-seq 和 Ribo-seq 测序数据来计算翻译效率,即 coding sequence (CDS)上的 RPFs count 数与 mRNA 上的 count 数的比率。TE 本质上是每个基因的核糖体的数量,归一化了转录的丰度。不同条件间 TE 变化的基因被认为受到了翻译调控(differential translation efficiency genes :DTEGs)。具体地说,如果 RPFs 数量的变化不能用 mRNA 读数计数的变化来解释,那么一个基因就被归类为 DTEG,如果其 mRNA 计数有显著变化和 RPFs 也发生一致变化的基因则是在转录上被调控,但不是在翻译上受调控(differentially transcribed gene :DTG)。相反,与 mRNA 计数变化无关,但它的 RPFs 有显著变化的基因被认为是 DTEGs。
一个基因可以被转录和/或翻译调控,导致几种不同的调控特征,例如,如果一个基因不是 DTG,而是 DTEG,那么它肯定在翻译水平上被调控。相反,如果一个基因同时是 DTG 和 DTEG,它就会根据调控的方向被归类为翻译强化或缓冲。
目前有许多通过结合 Ribo-seq 和 RNA-seq 数据来检测 dteg 的方法,最早的基于 TE 差异的报告(Ingolia et al., 2009)。然而,这种方法没有考虑到差异,低表达的 RPFs 或 mRNA 计数,或批效应,严重影响检测的准确性。随后开发了其他几种通过模拟 TE 变化来检测 dteg 的方法:Ribodiff (Zhong et al., 2017)、Xtail (Xiao, Zou, Liu, & Yang, 2016)、Riborex (Li, Wang, Uren, Penalva, & Smith, 2017)和 Anota2Seq (Oertlin et al., 2019)。所有这些方法的核心都是利用现有的差异表达程序,DEseq2 (Love, Huber, & Anders, 2014)或 EdgeR (Robinson, McCarthy, & Smyth, 2010)),或应用类似的统计假设来建立数据模型。不幸的是,这些方法大多忽略了底层工具的基本功能,极大地降低了它们的有效性。例如,除 Anota2Seq 外,这些方法都不允许进行复杂的实验设计(即有两个以上的条件)或使用其他替代的统计检验(针对跨时间段进行比较的似然比检验)。至关重要的是,他们没有考虑到下一代测序数据集中广泛存在的批次效应。尽管存在批量校正测序数据的独立工具(Leeket al., 2010),差异表达工具需要原始读取计数来准确建模样本到样本的变异。
这篇文章概述了通过在 DESeq2 的统计模型中引入一个交互项( interaction term)来检测 DTEGs,该方法我们称之为 ΔTE。我们证明了相互作用的倍数变化相当于 TE 中的变化,与所有现有的方法相比,它可以更准确地检测 DTEG。当从两种条件下结合 RNA-seq 和 Ribo-seq 数据时,相互作用项可用于模拟条件(未处理/处理)和测序方法(Ribo-SEQ / RNA-SEQ)。这允许可以识别出在不同测序方法之间不一致的条件之间的显著性差异。为了做到这一点,我们设计了具有三个分量的广义线性模型:条件(c)、排序类型(s)和一个包含两个(c:s)的交互项。结果是 ΔTE 倍数变化和与此倍数变化的显著变化相关的错误发现率(FDR),它量化了条件之间的翻译调节程度。
工作流程包括一个脚本:DTEG.R,可以一步运行。
该脚本实现了两个过程:
a、检测 DTEGs b、将基因分类。
2、总结
这篇文章大概就是在 DESeq2 差异分析的基础上,引入了 ΔTE 的概念,使用交互项( interaction term)来降低 RNA-seq 和 Ribo-seq 两个不同测序方法带来的批次差异,方差等外界因素,此外对差异翻译分析出的基因进行一个分类:增强型、缓冲型和绝对型。
作者提供了一步分析的 R 脚本代码和分步运行的代码,还有从原始数据到计数过程的方法。
githup 网址:
SGDDNB/translational_regulation: > https://github.com/SGDDNB/translational_regulation
3、作者建议
1、Ribo-seq 在实验的设计阶段需要谨慎、仔细的设计好 2、对于转录调控分析、翻译效率分析,每个组或每个条件下最好设计至少 3 个生物学重复 3、对于不同条件的样本测序,最好是在 1 条相同的 lane 上测序或者将样本随机分布在不同的 lane 上进行测序,避免批次效应的产生 4、推荐最好一起制备对照样本和实验组样本 5、RNA-seq 和 Ribo-seq 样本的测序深度应该足够深,推荐至少 20 million 的 reads,单端 50bp 的就足够了
4、测序原始数据处理 pipeline
步骤顺序 | 流程 |
---|---|
1 | 质控(fastqc) |
2 | 去接头(cutadapt/trim_galore) |
3 | 去除 rRNA、tRNA 污染序列(bowtie/bowtie2 比对) |
4 | 比对至参考基因组上(bowtie/STAR/Hisat2 等) |
5 | 质控 Ribo-seq(ribotish 等) |
6 | 定量计数(HT-seq/featureCounts) |
问过作者了,此外这个包也是不支持没有生物学重复的样品的分析哦!
参考资料
deltaTE: Detection of Translationally Regulated Genes by Integrative Analysis of Ribo-seq and RNA-seq Data: https://currentprotocols.onlinelibrary.wiley.com/doi/full/10.1002/cpmb.108
欢迎小伙伴留言评论!
今天的分享就到这里了,敬请期待下一篇!
最后欢迎大家分享转发,您的点赞是对我的鼓励和肯定!
如果觉得对您帮助很大,打赏一下吧!