查看原文
其他

师言数语|李铁军老师访谈之一:我如何开始做计算生物学的研究

小π工作室 北大数院人 2022-06-09

前言


在学习数学的过程中,想必大家遇到过各种各样的迷茫与困惑。为此,小π工作室开设了“师言数语”栏目。在此栏目中,我们将对数学系、概率统计系、信息与计算科学系和金融数学系的老师们进行访谈,听他们讲述自己的学术故事科研感悟。相信本栏目能帮助大家了解、选择自己的专业和方向,增进对数学知识和科研问题的理解。


为了帮助大家更多地了解计算生物这一交叉学科,本期我们的采访嘉宾是李铁军老师。李老师向我们详细讲述了他多年来的科研心得和体会,也提出了很多实用而中肯的建议。


李老师的采访稿很长,我们将其分成了三篇。本篇主要讲述了十余年来,李老师如何以计算数学的背景慢慢深入到生物问题的研究中。



最初:复杂流体中的间接了解

进入这个领域,其实说起来挺偶然的。我博士时的研究跟这个领域一点关系都没有,博士毕业之后,是和张平文老师和鄂维南老师共同合作做复杂流体(complex fluids)。这样大概有5~6年的时间,都是在做复杂流体。但是复杂流体实际上跟生物是有关系的。所谓复杂流体,就是在普通的流体里面掺杂了很多高分子;其另一个称呼是所谓“流变学”,是研究流体里的高分子影响流体本身运动的学问。


但是高分子这个东西它自然地跟生物有关系。比如说DNA就是一个非常大的一个高分子。我们知道DNA在细胞体内是高度缠结的,如果把它全部拉长,它能绕地球一周,因此它是一个极大的高分子。蛋白质也都是高分子。所以那个时候做复杂流体就接触高分子;接触高分子时自然就会读到一些和生物有关系的文献,但那个时候的接触是非常间接的,主要还是集中在高分子对流体的影响。


复杂流体中的polymer




tau-leaping方法的数值理论

后来我把自己慢慢定位成要做随机模型和算法的研究。复杂流体做了段时间之后(大概是5~6年),我意识到我想适当地扩大一下我的研究范围。那时候我从张老师那里博士毕业已经有若干年了,所以我还是希望做一点比较独立的研究。其实任何一个博士毕业之后,都会面临这样一个阶段:你不要老是跟你以前的老板做东西,你需要自己独立地去做一些东西。


所以我那时候想要做一些新的东西。既然定位是想做随机的研究,经过一番了解,我发现计算生物学领域里随机算法非常重要,这个领域里一个重要的方法叫随机模拟方法(SSA: Stochastic Simulation Algorithm)。


实际上这种方法现在是计算生物学里面最基本的一个方法,最初由D.T. Gillespie在1970年代提出的。


大概在2002年的时候,他们刚提出一种新的方法,希望把SSA方法进一步推进:他们发现SSA尽管非常好,但是做很多生物模拟的时候速度太慢,因为它在模拟的时候每一个反应都要追踪,如果这个反应非常频繁,它需要消耗非常大的计算量。当时他们希望加速这个方法。


这个新方法叫做tau-leaping方法。D.T. Gillespie是和UCSB的女教授Linda Petzold,美国工程院院士,合作做这个。我通常把它翻译成“逃匿法”因为tau表示时间,leaping就是跨越,所以tau-leaping就是时间跨越,我把它翻译成“逃匿法”,就是说你要逃得快一点。他们提出这个工作是在2002年。

D.T. Gillespie , 已于2017年离世


这个正好是对随机系统的数值模拟的方法,所以很自然引起我的注意:因为我是做随机模型,于是我就开始关注这个问题。那个时候他们这个领域还发展的不是很多,大概只有几年的时间。我当时就把他们所有相关文献全部都读了一遍,之后我形成了自己的一些看法,然后我就开始在“逃匿法”的研究领域里面写了一篇文章。那篇文章应该是06年写出来的。


这完全是一个数值分析的工作,实际上是证明了他们的“逃匿法”应该怎么样去理解,是不是有收敛性,在数学上应该怎么去做。我们所有做数值分析的人,往往拿到一个重要的数值方法,都会做这样的事情。


Linda Petzold她在工程系,是一个非常有名的计算数学家,在以前她主要是做微分代数方程的数值解,在那个领域非常有名气。


但是他们对随机的这套理论我觉得没有那么熟悉。所以我当时读了他们那工作之后,就试图基于随机的这套工具,给他们做的这些方法建立一个基本的收敛性的框架。


那篇文章做了之后,我认为还是受到了很多人的关注。有很多人在跟进我们的那个工作,我觉得还是有相当的影响力的。至少在这个领域,我想几乎所有做“逃匿法”的人大概都知道我们的这个工作。


总而言之,那个时候我接触到的就是在生物里面做计算、做分析,后来我又去试图要做一些更高阶的格式,从计算数学角度来做这样一个问题。

SSA的模拟结果



向更实际的情形推进

这个事情又做了几年,我想应该是直到2010年或2011年。我到不同的地方去做报告,就去讲这些东西。我的一个听众是Linda Petzold课题组里的曹阳,他是我在清华念书时的师兄,他是清华数学89级的,我是91级的,他是跟他们合作的“逃匿法”的主要发展者。


我好几次请他到国内来做报告,我也给他介绍我们的工作。他说生物里面数学模型本身误差就很大。为什么呢?生物里有一个现象,你需要建立一个模型去解释。但是生物体系非常不容易进行精确建模。因为你不能杀死这个细胞,你杀死细胞建立的模型那东西没有任何意义。


这和物理不一样,物理的东西都是死的,你可以非常精确的进行控制它,去了解他的运动的规律。但生物体是不行的,是活体,这给整个生物的研究带来一些困难。所以在模型建立过程中,就有很大的误差。


换句话说你现在建立模型,解释现象基本上都是定性的。要是建立了一个模型跟定量的测量值完全对上,这几乎是做不到的。即便你做到了,也不见得有人真正信服你,你就是做fitting,就是为了凑这个数据,而且数据里面噪声也很大,这么做不见得有很大意义。


我这位师兄说,既然模型的误差本身就已经很大了,你去搞一个高阶格式,算那么准,有意义吗?他当时说这个话之后,让我觉得非常frustrated,就是说感到一种挫败感。我们做了这么多数学来做这个事情,难道就是没有意义的?但是不管怎么样,这些事情在我脑子里产生一个印象,就是说做生物你不能完全只是做这些算法的东西,必须要去往更实际的层面和应用的层面去推进




与物理学家的合作

我发现我需要跟生物学家有更多的互动:我要直接进到他们建模或者数据分析的层面。这个时候我想我需要找到一个生物学家,要跟他们合作。所以我也去问当年的师兄曹阳,他说北大物理学院有一位李方廷老师,可以和他聊聊。


我们知道北大生科院这么大,还怕找不到生物学家吗?但是实际的问题是,如果你一个数学家去找生物学家,人家基本上是不理你的。


因为生物学现在停留的阶段还是非常原始的,他们主要做实验、观察现象,数学家去找生物学家聊的时候,他们会觉得:你能够帮助我什么?我观测的是生物学现象,你是个做数学的真的对我有多大帮助?你做推演、做算法,对我实验有帮助吗?


所以一个数学家如果直接去找生物学家,基本上是要碰钉子的。所以我没有去直接去找生物学家,我需要找一个间接的,就是物理学家。

关于数学家、物理学家、生物学家等的一则漫画

物理学家他们能够接触到一些生物的现象,或者说他们跟生物学家有联系,他们在建模,然后数学的人再跟这些模型结合去做方法,这样能有一个过渡,所以我就去找物理学家。物理学里面也有些人做生物的,比如欧阳颀教授,还有汤超教授,还有他们的那些学生。但我首先了解的是我师兄曹阳给我介绍的李方廷老师。他说他也做一些生物学实验,在物理学家中也许可以去找他一下。


其实物理学家对数学家的反应也是类似的,就是你能帮我们做什么?所以我在从数学逐渐走向生物的过程是不顺利的。就是基本上最开始,他们对你没有信任感。但不管怎么样,我说我以前做了些什么样的东西,可以在讨论班上介绍一下我的工作。介绍之后就先建立了一个初步的联络。然后这个时候我们就共同的进行讨论,他的讨论班我就主动去参加。这需要放下身段来,不能总想着我现在是一个数学学院的教授。如果这样合作不可能进行下去,所以我必须要去参加他们的讨论,然后慢慢知道他们在做些什么东西。这个时候他们有一些感兴趣的文章,我们从这里面共同来寻找合作的点。


和我的合作者接触了大概一年多之后,发现做物理的人相对来说对模型这些东西还是很感兴趣的,他们不像生物学家。所以我们找到了一个可以共同合作的点,这个点从数学角度来说,就是生物体系的能量景观。我发现那些物理学家或者是化学家他们非常感兴趣的“能量景观”,包括生物体系中的能量景观,恰好和我以前从鄂老师那学到的所谓“稀有事件”(Rare Event) 非常有关系。

能量景观示意图


然后我们就开始合作,写了好几篇关于这个领域的文章,文章还是有点数学和物理交叉的味道。我们做了一个叫化学反应“两尺度大偏差”的理论,这个本身是一个数学的理论。


当时他们生物的人(应该是生物物理学家而不是严格的生物学家)发现了一个非常有趣的一个生物物理的模型,那个模型里面就存在我们所感兴趣的稀有事件,但是没有一个数学的理论去描述它。


物理学家有一套办法,你如果上我的课或者上一些应用数学的课的话,你会慢慢了解到物理学家有一些非常神奇的办法,那些都不是数学家所采用的办法,他们都是不严格的。比如说这里面有一个非常有名的叫Feynmann路径积分,这是非常不严格的一个做法,类似的还有Dirac提出的所谓delta函数等等。物理的人掌握一套这样的工具去做一些问题的时候,能够很快得到一些认识;但这些认识你要去数学上处理,实际上是不好做的。


所以当时我们就对他那个东西给出了一个数学的框架。以往的数学理论不能够涵盖他的结果。后来经过我们的一些思考,发现其实也可以有一套非常好的数学理论,就是所谓化学反应的“两尺度大偏差”。


我们关于这个领域写了若干篇文章,这是和他们的一个初步的合作。做了之后,我想我们彼此的信任感增强了。这个时候我们的合作者做了一些关于单细胞的实验,关于芽殖酵母细胞周期S期检查点激活机制的实验。这些实验要去做一些数据分析,然后建模,去理解机理。因为他觉得我们是可信任的,我们有共同的研究动机,彼此说的语言也都能理解。所以他就把这些数据交给我们来分析。事实上是我们共同来分析,我这边有一个研究生,他那边有研究生,这个工作持续了很长的时间,这是关于动力学的一个故事。

芽殖酵母细胞周期示意图




生物信息学的广阔天地

在我从事计算生物学研究的过程中,我渐渐体会到数学在生物里面的应用大概可以分成两类。


一类是动力学的,可能我和张磊都更接近这个些,就是对于生物学的现象,希望通过微分方程,或者随机微分方程,用动力系统的的语言去描述;


但是还有一类非常重要,数学也可以在里面发挥重要作用的叫生物信息学。我们这边比如邓明华席瑞斌老师。他们是这方面的专家,他们一直是从事这方面的研究,就是说生物里面有大量的数据,比如测序的数据,以及现在大家非常热门的叫单细胞的转录组数据等。


现在这些技术越来越发达,大量的数据产生出来,那问题在于有了这些数据之后,我们怎么样去理解这些数据?怎么样能够给出一些对生物体系的认知?这就是生物信息学所做的事情。


因为这里面没有动力学,非常流行的是通过统计学,通过统计模型的方法去认识这些数据,而且这个领域非常大,甚至在某种意义上可以说这个领域比用动力学方法的领域还要大。

我觉得做计算数学的人,你要在生物里想要得到更大的成就,你就要进到他们内部,去做一点真的有影响力的事情。你希望你的工作能够不仅仅只是在停留在数学的层面,你需要去真的影响做生物的人,我觉得这是一个非常重要的方面。我也把我的一些学生投入进来共同做这样的问题,其中一个集中关注的问题就是现在非常热门的单细胞转录组数据分析。同样最开始进去的时候,也是通过和另外一个老师合作,是中科院上海生科院的陈洛南教授。


我在做这些研究的过程中,慢慢不断认识那些做生物物理的人,做生物信息的人,或者是介乎于生物和数学之间比较交叉的人。然后我在这里面寻找一些可能的我觉得有意义的合作者。第一,不是所有人都会愿意跟你合作;第二也不是所有人你去跟他合作都最好。你需要了解对方,你要两边都能很好地交流,而且对方确实是做的有意思的事情,你必须要确认这一点。


现在我和上海的陈洛南老师保持非常好的研究合作关系。我从他那里了解到一些有意思的、大家正在感兴趣的重要问题,包括一些生物信息学的问题。然后我就和我的一些学生共同来思考这些问题。最近我有一位博士生周沛劼,他今年博士毕业,他在单细胞转录组数据分析这方面做出了非常漂亮的工作。


我们最近和汤富酬教授的研究组共同发展了一个方法,这个方法现在正应用于小肠数据的分析,同时我们也通过他们跟北医三院的一位大夫合作进行小肠癌数据的分析。现在我们有非常密切的交流,每个星期我们的学生都在一起进行组会,讨论一些最新的进展。结合了新的计算方法、实际数据分析以及医学的应用,我觉得这个工作是一个极其漂亮的成果。



Overview

如果我们问这到底是计算数学的还是统计的事情?我觉得其实用不着去严格地去做这个区分。总的来说我觉得我接触生物是一个逐渐进入的过程。原来我是做计算数学的,然后慢慢地做复杂流体,然后跟生物有接触,然后先做动力学,先做数值方法,比较偏理论,然后逐渐的要去做模型,然后就是想要去分析生物学数据,是一个逐步前进的过程。整个的过程其实是一个摸索的过程。


特别感谢李铁军老师对我们的帮助和支持!


部分图片来自网络,如有侵权请联系删除!

北大数院人出品


策划 

采访 

排版 

审稿 

责编 

 小π工作室

 黄   桢  谢鹏志

 小π工作室

 李铁军  牛   贺   陈炜蓉

 牛   贺


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存