RNA Velocity and Beyond 系列1—Introduction
分享是一种态度
引言
最近面完了大部分学校,趁着春节痛痛快快的摸鱼了好久,休息够了,也恰逢看了之前一直存着要看的几篇文章就想着稍微记录一下,供大家参考,才疏学浅,有任何问题请随意评论hhh
这个系列大概会涉及到的一些文章如下
La Manno, Gioele, et al. "RNA velocity of single cells."*Nature, *560.7719 (2018): 494-498.
开篇之作,引入了 RNA velocity 的概念,但是在参数估计等方面有值得改进的地方Bergen, Volker, et al. "Generalizing RNA velocity to transient cell states through dynamical modeling."*Nature biotechnology, *38.12 (2020): 1408-1414.
Fabian 组的文章,在参数估计上有了比较大的改进,核心的改进有丢掉了 general constant 的假设,利用 EM 来估计 gene specific 的parameter,从而使得估计更加准确Li, Tiejun, et al. "On the Mathematics of RNA Velocity I: Theoretical Analysis."bioRxiv(2020).
李铁军老师的文章,系统的梳理 RNA velocity 背后的理论基础,包括确定性模型(ODE),随机模型(化学主方程),连续化等拓展,并且之后其实还有分析不同模型产生的结果的文章,但 in preparation,还未能读到。Qiu X, Zhang Y, Yang D, et al. Mapping vector field of single cells[J]. Biorxiv, 2021
非常精彩的文章,结合 metabolic labeling 的数据(可以标记新生成的 RNA)与 RNA velocity,从而对于 RNA velocity 有更真实意义上的刻画,并且将离散的 velocity 推广在cell state space 的 Vector Field,并且有一系列的分析(还没读完hhh)
本文主要是起 introduction 的作用,简述一下核心的思想。
Introduction
个人理解 single cell 技术最重要的优势:单细胞水平的分辨率 + 高通量带来的大样本
首先单细胞水平的分辨率使得 single cell 技术可以直接得到单细胞的表达谱,不需要像 bulk 时代那样需要取一堆细胞然后才能测得平均表达谱,因此在研究细胞分化上有天然的优势。并且可以对发育早期的少量细胞进行测序,得到异质性的结果。
高通量技术带来的大样本,使得可以更完整的刻画 cell state,并且对于各种需要进行统计推断的方法提供巨大的优势。
但是之前大多数 single cell 技术都是静态的刻画 cell state(即都是snapshot),没有能够引入细胞随时间的变化,living cell imaging tracking 的技术虽然能提供时间信息,但是能够覆盖到gene 数量是非常少的(通常也就不到10)。
而发育分化过程中 cell state 是动态变化的,因此怎么能够理解 cell state transition,怎么将这些 snapshot 拼成 video 就是一个很有意思且很重要的问题。
RNA velocity
18年 “RNA velocity of single cells” 首先引入 RNA velocity 这个概念,充分利用现有的数据来得到全新的概念。可以说是非常精彩了(Ps. 申请 EMBL-EBI 的时候要列最喜欢的一篇文章,我就列了这个这篇)。
核心的思想就是,利用 splicing 这个生物过程来引入时间这个要素,从而推断出 cell state 的 velocity(速率)。
具体是什么意思呢,首先从一个例子说起,当我们看到下图这些跑步中的中间状态的时候,我们脑海中是可以串联起这四个动作的。
我们可以从其中一个 snapshot 知道图中小人的运动状态,并且预测运动的方向。本质原因是因为我们对跑步这个过程有一个动力学的认识。
那么我们回到细胞内的转录,我们只需要通过中心法则中依赖于时间的生物过程,并对这个过程进行动力学刻画即可以得到这些 snapshot 的未来方向,那么应该使用什么生物过程呢?首先需要满足两个条件,1. 依赖于时间,2. 现有的数据中应该可以直接得到
答案就是 splicing!首先 splicing 肯定依赖于时间,其次现有的测序 reads 天然的可以 mapping 到 intro 和 exon, 从而得到 unspliced 和 spliced 的RNA。
Gene 在转录成 mRNA 的过程中会经过 splicing,而 splicing 的动力学我们是通过 ODE 来 model 的,因此我们便可以通过 unspliced mRNA (u)和 spliced RNA(s) ,以及动力模型( ODE model) 来计算 cell state 的 velocity 。我们可以得到
上述便是 RNA velocity 的 key idea,至于随机模型,那就是考虑到真实值是离散的,所以利用化学主方程(Master equation)来研究,并且分析。
Beyond RNA velocity
私以为上述几篇文章中可以称的上 beyond 的也就是 "Mapping vector field of single cells" [dynamo(https://dynamo-release.readthedocs.io/en/latest/)],结合 metabolic labeling (能够标记新生成的 mRNA),引入真实的时间,从而从两个时间尺度来刻画 velocity
包括三种model
1. model I 单纯的 RNA velocity; 2. model II 单纯的 labeling RNA velocity; 3. model III RNA velocity + labeling velocity。并且在离散的 velocity 基础上得到 vector field。
预告:这个 RNA velocity and beyond 系列之后大概会写 Theory 部分 ,主要介绍 model detail,怎么 estimate parameter等,最后写 beyond 的部分,也就是dynamo 的内容。
GPU版scanpy (rapids)实践 | 大型单细胞数据分析利器
如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程
看完记得顺手点个“在看”哦!
长按扫码可关注