单细胞基因表达的随机数学规律
概率论和随机过程是数学体系中的一个另类,它的最早起源既不是对于数与形的探究,也不是对于物理问题的建模和分析。概率论最早起源于人们对于赌博游戏中随机规律的好奇,不过到了差不多十九世纪,人们也逐渐发现概率论和随机过程的知识可以被很好地用来刻画真实物理世界中的随机现象,其中首推布朗运动。
苏格兰植物学家罗伯特•布朗在1827年首先观察到了悬浮于水中的花粉迸出的微粒所做的无规则状运动,后人将之命名为布朗运动。后来直到1905年左右,才由爱因斯坦等推导出了第一个定量刻画布朗运动的数学规律,并被法国物理学家佩林首次在实验上证实,最终确认了分子和原子的存在。布朗运动,首先由生物学家发现,而后对物理学和数学都产生了深远的影响,这也许就是历史上最早的生物学和物理学以及数学的学科交叉。
从爱因斯坦的布朗运动理论开始,真正意义上的随机过程及其严格数学理论,在二十世纪上半叶被慢慢建立了起来。与此同时,随机过程理论也在物理学乃至化学领域里逐渐找到了用武之地。比如,物理学家朗之万所提出的牛顿定律在随机力下的修正,即朗之万方程,至今仍然是研究溶液里大分子或者胶体运动的经典模型,物理化学家克莱默就基于该模型给出了著名的化学过渡态理论的数学分析,与此相关的亚稳态理论至今仍然是随机过程数学理论研究中的热点。又比如,高分子聚合物在溶液里的构象,一直以来都是用随机过程来建模的,不仅如此,化学家们在为高分子聚合物建模的过程中,还提出了不少新的随机过程模型,其中一些模型的严格数学理论已经成为现在随机过程理论中最核心的问题,2006年和2010年都有数学家因为解决了其中的某些重要问题而获得了菲尔兹奖。再比如,物理学家德尔布吕克(1969年诺贝尔生理学和医学奖得主)第一次用随机过程里的马尔可夫跳过程模型描述了自催化化学反应系统中化学物质分子数的随机涨落,这一类模型现在被称为化学主方程模型,得到了广泛的应用。除此之外,生物学中的遗传学其实很早就开始使用较为复杂的随机模型了,诞生了像哈代-温伯格(Hardy-Weinberg)平衡和费舍尔-怀特(Fisher-Wright)模型这样的著名理论。
生物学中的中心法则,就是DNA会自我复制,也可以转录成信使RNA(mRNA),信使RNA又可以翻译成蛋白质的过程。因此最简单的中心法则随机模型(不包括DNA复制),就是把这个过程的每一步都简化成一个一步的化学反应来处理。早在二十世纪四十年代,克莱默就得出了热运动驱动下的单个基元化学反应的反应速率的表达式,同时人们也发现,这个反应的时间是随机的,近似地服从指数分布,于是最简单的一步化学反应所对应的随机模型就是等待一个指数分布的随机时间后完成该化学反应,该指数分布的平均值的倒数就被称为反应速率。于是最简单的中心法则随机模型就如图4所示,每一步化学反应上的参数就是该步化学反应的反应速率。
当然,这是个极其简化的模型,因为中心法则的每一步本质上都是由很多很多步化学反应构成的,即使在原核生物里亦是如此,那么为什么人们还可以接受这样一个简化模型呢?这就要从建模方法论的角度来探讨了。大体来说,数学模型有两类:一类是定量的统计模型,可以准确拟合和预测实验的结果,例如开普勒三大天体运动定律以及生物信息学模型等;另一类是定性的机制模型,虽然不一定能从量上给予非常准确的预测,却可以从物理化学的理论角度给出更深层次的认识,提出某种合理的机制解释。二者结合得最好的当属牛顿的万有引力定律。遗憾的是,对于生命体这样复杂的系统,极少有既在定性又在定量上都很完美的例子。因此,对于生物系统建模,需要在这二者之间寻找某种平衡。统计学家乔治•博克斯有句名言“所有的模型都是错误的,但是有些是有用的”(Every model is wrong, but some are useful)。所以,即使是如此简化的模型,其在细节上的确无法完美地刻画中心法则的过程,但是该模型整体上的一些定性结果,甚至是定量结果,却可以很好地符合实验。
我们可以在这个最简单的机制下建立随机模型,如下图所示。
图5.最简单随机模型的状态跃迁图
定义mRNA个数的平均值为,蛋白质个数的平均值为,然后根据化学主方程可以得出
2004年,瑞典生物学家约翰•鲍尔森(他本科是数学和生物的双学位)提出令该化学主方程的右端为零,即假设已达到平稳状态,并求解平稳情况下的mRNA和蛋白质个数的均值和方差,然后用变异系数的平方,也就是分子数概率分布的方差除以均值的平方,来作为刻划随机性大小的量,并以此厘清了当时互相矛盾的一些实验结果,指导实验学家如何正确的处理数据1。在这项工作之前,很多实验学家是使用方差除以均值来度量随机性的,这被称为Fano factor。现在我们知道,Fano factor可以用来刻画一个分布和泊松分布的差距(泊松分布的Fano factor永远是1),但是由于它是有量纲的,不适合作为随机性大小的度量。
除了均值和方差以外,这个模型的化学主方程还可以计算出单细胞中mRNA个数和蛋白质个数的相关系数为
2010年,哈佛大学谢晓亮实验室测量了大肠杆菌单细胞内一千多种蛋白质及其对应的mRNA的数目,并计算了相关系数,发现相关系数都非常小2。根据以上这样一个最简单模型得出的相关系数的表达式,就可以推断,该现象很可能是因为mRNA的降解速率()很大造成的,使得同一时刻测到的蛋白质和mRNA数目之间并不存在对应关系。
对于如此简单的模型,本以为我们还可以得到更多,但其实我们也只能得到其分布的均值、方差、协方差这些数字特征的表达式,其概率分布的表达式中含有超几何函数,使得具体应用起来十分困难3。单细胞内的单分子精度的实验测到的都是真正的概率分布,其信息远比若干个数字特征要多得多。因此人们就迫切希望得到其概率分布的近似简单表达式,至少在某些符合实验现象的合理假设下希望可以得到。在这件事上,随机数学模型的建立和分析就发挥了关键的作用。
不过,历史并不是沿着复杂模型加上合理假设推出简化模型这条路线来走的,而是反其道而行之,首先是根据实验观察建立了基于现象的简化模型,后来才慢慢意识到,直到最近才真正证明了这个简化模型其实就是更复杂模型在一定条件下的极限。
早在2006年,又是哈佛大学的谢晓亮实验室首次观察到了单细胞中单个蛋白质分子合成过程中的爆发现象,即在每等待一个随机的时间间隔后,该单细胞内部会在很短的时间内密集地合成若干个该蛋白质分子,然后再次进入等待状态4,5。经过精巧的实验测量,实验学家发现每次蛋白质合成的爆发事件背后所对应的mRNA分子个数,至少在细菌中近似为1。而且每个mRNA分子的生存时间相比较于相邻两个mRNA生成之间的时间间隔是很短的,因此每一次的爆发强度,其实就是每一个mRNA分子在其被降解之前所能产生的蛋白质分子数目,而相邻两次爆发之间的时间间隔,就是相邻两个mRNA分子合成的时间间隔。
有了这些准备,我们就可以建立一个只基于这些现象而且只关心蛋白质的生成与降解的随机模型,即延续最简单模型里的假设,假设每隔一个参数为的指数分布的随机时间,DNA会合成出一个mRNA分子,但这个mRNA分子的生存时间极短,可以忽略不计,且这个mRNA在其生存时间内会以一定的概率分布产生出一定量的蛋白质分子。那现在的问题就是单个mRNA分子在降解之前能产生出的蛋白质分子数目服从怎样的概率分布呢?一旦有了该分布类型,建立这个随机过程模型就算是万事俱备了。
其中。
早在上世纪九十年代,就有学者提出了具有两个不同的DNA转录状态的随机模型10,即俗称的两状态模型:
同样地,由于该模型里并没有二阶或者二阶以上的非线性化学反应,其得出的随机模型也是线性的,因此可以很容易算出平稳状态下的均值和方差,特别是Fanofactor的表达式
在2011年左右,人们发现即使是在细菌中,DNA分子也不是自由的,它们会被分成一段一段的锚定在一些大的蛋白质分子上。同时早在上世纪八十年代,人们就发现在DNA转录的过程中,处于RNA聚合酶前方的DNA链将聚集所谓正超螺旋(positive supercoiling),通俗的来讲就是DNA双螺旋结构原本是每10.5个碱基对转一圈(360度)的,而现在被转的越来越紧,每转一圈的碱基对数目越来越少,DNA形变越来越厉害了;与此相对应的,处于RNA聚合酶后方的DNA链将产生负超螺旋(negative supercoiling),即完成一圈的碱基对数目越来越多。这两种DNA形变将由于DNA被锚定在一些大分子上而无法相互抵消。因此细胞内需要有两种酶,拓朴异构酶(Topoisomerase IA)专门负责在RNA聚合酶的后方释放负超螺旋,而旋转酶(gyrase)则专门负责在RNA聚合酶的前方释放正超螺旋。然而有研究表明,拓朴异构酶的活性是很高的,而旋转酶的活性是不高的,而且旋转酶在活细胞内的分子数也并不十分多,平均到每一段被锚定的DNA片段的话只有大约一个旋转酶分子。
2014年,谢晓亮实验室发展了一套高通量的体外单分子荧光技术,可以实时地高分辨率地观测到单个分子上正在发生的转录过程。通过这一技术发现,转录过程在RNA聚合酶前段不断聚集起来的正超螺旋,会渐渐地减慢RNA聚合酶的延伸速度,并最终彻底阻止转录的起始。而旋转酶和DNA分子的结合又可以使得转录得以继续。因此,就可以合理猜测,这就是活细胞内部广泛存在的转录爆发现象的机制。
然而,事情并非如此简单。生物学是极其复杂的,体外的单分子实验技术自然是高超的,但是体外观察到的机制就一定是体内该现象产生的主要原因吗?而且棘手的是,体外如此高分辨率的实验由于实验技术所限,是无法在体内完成的,那么我们又如何来验证该机制是否在体内发挥着重要作用呢?
这个时候就需要数学模型的作用了,笔者也很荣幸地参与了此项工作。我们采用了上面所述的两状态基因开关模型。实验上虽然无法在体内完成十分高精度的单分子追踪实验,但是却可以精准地测出每一个单细胞中该mRNA分子的个数,即可以测量出平稳分布来。然而,和最简单的机制模型一样,两状态模型的平稳分布一般是没有简单的表达式的,而没有具体表达式,就无法和实验数据进行更为详细的对比和拟合。
其中。
一旦有了平稳分布的具体表达式,我们就可以直接利用实验数据来推断DNA转录处于活跃和不活跃状态的平均时间的比值了,而如果体外观测到的机制是正确的,那么这个比例就会随着旋转酶的不同浓度,以及旋转酶和DNA结合的不同强度而发生明显的变化。经过分析实验数据,我们发现,该比值强烈依赖于细胞内的旋转酶浓度和活性,且其变化的趋势和模型的预测完全相符。在很多个基因上俱是如此。综合以上的实验和数学模型分析,间接但是严格的证明,细菌里的转录爆发机制,就是来源于旋转酶分子与DNA分子的不断随机结合与解离,从而导致该DNA片段的超螺旋情况发生改变12。
上面这些单细胞中心法则的随机模型,都是没有考虑到调控和反馈的,而基因调控才是生命体实现各种功能的根本。带有调控机制的随机数学模型在过去二十年也得到了长足的发展,但是由于生物学的复杂性,略微复杂一些的模型已经很难得出显示解了,大都依赖于数值模拟,且都需要具体问题具体分析,普适性的理论并不多。
尽管如此,数学家们还是在下面两个方向上取得了进展。一个是高维化学反应系统的随机模型在多尺度下的简化以及数值模拟的加速方法,即随机过程和计算数学的结合。另一个则是具有正反馈的生物化学反应系统会出现多个稳态,求解在不同稳态之间的跃迁速率。下面我们来简单介绍一下后一个方面的工作。
多个稳态的意思就是在基因组相同的情况下,单细胞在形态上或者分布上呈现出聚集成若干类的情形。比如mRNA或者蛋白质的分布呈现明显的双峰或者多峰的情况,而这样的每个峰都被称为是单细胞的一个表型或者稳态。多稳态的产生机制大体上有两大类。一类是类似前面提到的转录爆发机制,即是由于DNA不同状态间的转移特别慢而导致的,而这一类稳态之间的跃迁速率也很简单,就是由这个DNA不同状态间的转移速率所决定。另一类产生多稳态的机制则更为常见,是由于比较强的正反馈所形成的,这样形成的稳态一般都很稳定。这一类稳态之间的跃迁,可以在随机性相对比较小的时候得到比较简单的表达式,这就需要用到在二十世纪后半叶才建立起来的随机过程里著名的大偏差理论,特别是其中弗雷德林-温策尔(Freidlin-Wentzell)型大偏差理论13,14,其核心思想是如何刻画单条轨道的“概率密度”以及如何构造类似于能量函数的拟势函数。
对于大偏差理论及其在单细胞生物学中的应用,这里就不再继续展开。其实,这样一个地貌函数的图景,告诉我们的远不止上面提到的这些,比如我们来看任何一个在此地貌函数下运动的个体,它都会先进行一个弛豫过程,到达一个距离自己最近的稳态的底部,并在此进行漫长时间的等待和局部的涨落,由于随机性的驱动,它会突然在某一个时刻,快速的越过某个势垒,从而到达另一个稳态。这样一个动力学的图像,并不仅仅可以用来刻画单个细胞的运动,还可以用来刻画健康和疾病的关系,甚至可以用于描述进化过程中的种群突变,乃至描述一个社会历史的变迁。
参考文献
1Paulsson, J., Summing up the noise in gene networks. Nature, 2004. 427(6973).
2Taniguchi, Y., et al., Quantifying E-coli Proteome and Transcriptome with SingleMolecule Sensitivity in Single Cells. Science, 2010. 329(5991).
3Shahrezaei, V. and P.S. Swain, Analytical distributions for stochastic gene expression. Proceedings of the National Academy of Sciences of the United States of America, 2008. 105(45).
4Cai, L., N. Friedman, and X.S. Xie, Stochastic protein expression in individual cells at the single molecule level. Nature, 2006. 440(7082).
5 Yu, J., et al., Probing gene expression in live cells, one protein molecule at a time. Science, 2006. 311(5767).
6Berg, O.G., A model for the statistical fluctuations of protein numbers in a microbial population. J Theor Biol, 1978. 71(4).
7 Paulsson, J. and M. Ehrenberg, Random signal fluctuations can reduce random fluctuations in regulated components of chemical regulatory networks. Physical Review Letters, 2000. 84(23).
8Jia, C., M.Q. Zhang, and H. Qian, Emergent Levy behavior in single-cell stochastic gene expression. Physical Review E, 2017. 96(4).
9 Golding, I., et al., Real-time kinetics of gene activity in individual bacteria. Cell, 2005. 123(6).
10Peccoud, J. and B. Ycart, Markovian modeling of gene-product synthesis. Theoretical Population Biology, 1995. 48(2).
11 Levens, D. and Larson, D.R.: A New Twist on Transcriptional Bursting, Cell, 158, 241-242, 2014
12Chong, S.S., et al., Mechanism of Transcriptional Bursting in Bacteria. Cell, 2014. 158(2).
13Dembo, A. and O. Zeitouni, Large deviations techniques and applications. 2nd ed. Applications of mathematics. 1998, New York: Springer. xvi, 396 p.
14Freidlin, M.I., A.D. Wentzell, and J. Szucs, Random perturbations of dynamical systems. Third Edition. ed. Grundlehren der mathematischen wissenschaften. 2012, Heidelberg: Springer. xxviii, 458 pages
15 Ge, H., H. Qian, and X.S. Xie, Stochastic phenotype transition of a single cell in an intermediate region of gene state switching. Phys Rev Lett, 2015. 114(7).
16 Zhu, X.M., et al., Calculating biological behaviors of epigenetic states in the phage lambda life cycle. Funct Integr Genomics, 2004. 4(3).
17Fang, X.N., et al., Nonequilibrium physics in biology. Reviews of Modern Physics, 2019. 91(4).
18Lu, M.Y., J. Onuchic, and E. Ben-Jacob, Construction of an effective landscape formultistate genetic switches. Physical Review Letters, 2014. 113(7).
19Ge, H. and H. Qian, Thermodynamic limit of a nonequilibrium steady state: Maxwelltype construction for a bistable biochemical system. Physical Review Letters, 2009. 103(14)3.
作者简介:葛颢,北京国际数学研究中心长聘副教授,北京大学生物医学前沿创新中心特聘研究员,博士生导师。
● 冯•诺伊曼早期生涯、洛斯阿拉莫斯时光及计算之路
● 应用数学家的初心与使命 | 专访ICM2022一小时报告人鄂维南老师● 《 几何人生》中的话剧之声● 形式系统和数学● 发明,还是发现?数学本质的哲学之辩
关于数学文化
《数学文化》为季刊,目的是将数学展示给我们的世界,在文化层面上阐释数学的思想、方法、意义,涵盖数学人物,数学历史,数学教育,数学趣谈以及数学烟云等等,杂志的对象是对数学有兴趣的读者。
扫码关注《数学文化》订阅号获取更多精彩内容!