师言数语|李铁军老师访谈之二:生物中的数学工具、生物对数学研究的启发
前言
在学习数学的过程中,想必大家遇到过各种各样的迷茫与困惑。为此,小π工作室开设了“师言数语”栏目。在此栏目中,我们将对数学系、概率统计系、信息与计算科学系和金融数学系的老师们进行访谈,听他们讲述自己的学术故事和科研感悟。相信本栏目能帮助大家了解、选择自己的专业和方向,增进对数学知识和科研问题的理解。
为了帮助大家更多地了解计算生物这一交叉学科,本期我们的采访嘉宾是李铁军老师。李老师向我们详细讲述了他多年来的科研心得和体会,也提出了很多实用而中肯的建议。
李老师的采访稿很长,我们将其分成了三篇。本篇主要讲述了数学的工具、生物对数学研究的反作用。
数学的工具
当我听说你们要采访我之后,我自己想了一下,我觉得有一些事情是我想要传达给数学学院的本科生的。其实主要就是数学工具的事情。我们如果要去做生物,做生命科学中的数学,要用数学的方法去发展生命科学中的一些东西,我们到底应该掌握什么样的基本工具?
随机的工具
我想第一个重要的就是随机的工具。随机这个工具非常之重要,为什么我要强调这一点?因为通常我们做计算数学的人,其实在这一点上基本上是忽略了。以前的东西都是确定性的,比如说所有的数值分析或传统的偏微分方程数值解,都是针对确定性的东西来做。
但如果想做生物的里面的一些应用,你不掌握随机的语言是不可能的。为什么?因为生物的体系,它的尺度比较小,用物理学的语言叫做“介观”。在介观尺度下,所有你所观察的体系,它的“涨落”效应不可忽略,这是统计物理的一个基本认识:涨落不可忽略的时候,噪声就一定是一个非常重要的方面。
如果你完全用确定性的语言去描述,这样写出来的东西跟实际的体系的观察一定是差的太远。描述介观尺度就必须要用到随机的东西。这一点在大家做细胞生物学时非常重要,而细胞生物学现在是用数学研究生命科学里面大概是最主要的方向之一。但是也有一些做生物数学的人,他们是不用随机的工具的,比如说研究人口动力学、传染病,但这些都是相对传统的模式,就是ODE或PDE的内容。
物理学的不同尺度
统计的工具
第二就是最好还是要掌握最基本的统计方法。其实要求不过分。为什么呢?我在当学生的时候,对随机的语言我只就学过一门初等概率论的课,跟你们一样,学的就是最基本的这些。随机变量这些东西我是知道,但是一些统计的方法,更深刻的如随机微分方程,我是完全不懂。在本科的时候,甚至读研究生,读到博士我也是完全不懂。
那时曾有个朋友问我,他说我现在做生物,里面有一些数据,你不是做计算的吗?你能不能帮我算一算?我说这东西我完全不懂。那时候我还觉得我挺自豪的,为啥?因为我想正好有个理由把你这个事情推脱掉。我现在做的这些传统的东西不挺好的吗?我干嘛去做那个东西?
人有的时候就是喜欢把自己封闭起来,就取得了一种安全感。如果人完全开放就感觉没有安全感。但这其实是有问题的,有的时候你必须要让自己变得开放,必须要接受一些外来的东西,接受外面的一些冲击,这样才能让你有更好的活力。
生物中的数学工具
我是在博士毕业之后,甚至是在读博士的时候,跟鄂维南教授有很多的接触。因为张平文老师那时候和鄂维南老师合作做一些问题,我是张老师的学生,自然的就加入到队伍里面来。
鄂老师做随机分析是专家。但我想他读本科、硕士、博士的时候,肯定也没怎么接触过随机分析。只是后来他在库朗所做博士后的时候,抓住这个机会,把随机的课程全部旁听、提高了一把。鄂老师是一个非常有远见的数学家和科学家,他意识到随机的东西将来会成为一个非常重要的研究方向。因为传统的应用数学研究大家都是做确定性的东西,那些还没有怎么被开垦的东西一定是重要的。鄂老师在对研究方向的感觉这个方面是极其敏锐的,事实上我认为在这一点上鄂维南老师是我所见到的所有科学家里面最出色的。在随机的问题上他是专家,然后我去跟他学习,慢慢我就意识到随机的方法非常重要,我想我跟鄂老师在这点上有共鸣。
但处理数据就是要用统计的方法。因为统计学天然的就是有一堆数据,我怎么去处理。而数据是极其重要的,现在生物里面你做实验,测出来数据;计算机领域也是不断产生出数据。所有的科学都不断地产生数据,而且做研究的第一步一定是要先接触数据,你不可能是第一步就出来一个模型。但以前为什么我们接触的都是模型?这是因为经典的物理经过了开普勒,经过了牛顿,经过了好多物理学家发展之后,把很多物理的规律全部摸清楚了,一些基本的物理定律被建立起来了。所以我们接触的都是模型,这就变成一种范式。
但是现在生物这个领域,在计算机或者说数据这样一个背景下,你要回到没有“牛顿”时科学家所面对的一个环境。在生物里面没有“牛顿力学”这样的原理出现,甚至像“开普勒”那样的水准,也还没有达到,只是测量了很多的数据。这些数据背后所蕴含的基本的数学原理是什么?不知道。大量的人都在做收集数据的工作,生物学家所做的实验就在不断的产生数据。
开普勒(Johannes Kepler)
我觉得现在生物应该还远不能实现“从开普勒到牛顿”的这种体系化。生物机器很复杂,生命也很复杂。是什么基本原理支配着各种生物体系能够去完成各种功能?也许生物学中根本就没有像牛顿力学那样强有力的数学式的普适原理?我觉得现在看不出来。现在做的还是很碎片化的,属于收集整理的阶段。至于最后的综合,我觉得还没到那个时候。
这个时候你就不能只从模型出发;你一定是先基于这些数据分析出一个可能的模型。建立模型如同盲人摸象。同样的一个数据,在这个人的这个角度去看,提出一个模型,那个人从那个角度看,又提出一个模型。那怎么去检验?用实践来检验,你就去根据你这个模型猜测一些东西出来,然后这些内容反馈给生物学家,他们基于你这个模型去做一些探索和预言,再去验证。如果发现有道理,他们就会接受你的这个结论,这个正是真正的科学研究的过程。
现在要去做这样的事情,就需要知道怎么样去对付这些数据,就需要知道统计的一些最基本的方法。所以概率论的基本的语言和最基本的统计的方法,你是必须要知道的。如果不知道,那对不起,你可以做别的,物理可以,你要做真正的生物肯定是不够的。这是我自己的一个经验,我觉得我从计算数学逐渐摸索到计算生物学,这是我的一个重要体会。
数学家能做出怎样的生物学贡献?
这个问题就是数学对生物学能产生什么样的贡献。我想首先,数学可以提供方法。生物学里面也有很多的数据,你怎么样去分析这些数据?其次就是建模,数学是可以建模的。统计模型其实就是运用概率统计的手段,当然也可以建动力学模型,然后基于这个模型去设计一套计算的方法。
这些东西我想生物学家是做不来的。为什么呢?第一,生物学培养学生的方式,使他们上大学之后把对数学和物理的要求放在一个比较低的水平。生科的学生一般来说,不排除特例,他们的数理是不太强的。这是因为他们的教育在这方面没有要求那么高,生科学生的数学的水平远远低于数学学院,也比物理学院的数学要求低。第二,他们要花大量时间去做实验。这导致他们逐渐对数学物理的掌握失去感觉。其实任何一个东西,你必须是在不断的去运用才对它有越来越深的印象,才能用的越来越好。你不去用,即便很聪明的一个人——学生物的学生中当然肯定有很多非常聪明——但你从来不去用它,你从来不去训练它,它自然就退化了。
数学、物理、计算机
要去分析数据,就需要用这些方法,而做生物的人做不来,他必须要求别人来做。这就要靠数学家,物理学家,计算机科学家。这三类人都是很有能力的。数学、物理和计算机的学生,他们的数理功底都是非常好的。这也就是为什么做生物交叉学科,有叫生物数学,也有叫生物物理的。而很多人你接触之后发现做生物信息学、计算生物学的人,其实也有很多是来自于计算机学界。
这三类人各有优点。如果是物理学家的话,他们往往喜欢问“为什么?”。他们在建立模型的感觉上以及物理的一些理解上比数学和计算机的人要强,这也是物理学家的特长。计算机的人他们代码能力非常强,所以能够比较容易地去处理一些很大的数据,他们在计算机的离散算法、离散优化等方面,比数学的人表现得更擅长一点儿。我们做数学的人,在对模型的数学理解、对连续型问题算法的设计和深化、模型与算法的结合上面是有优势的。
数学家的优势就是推理能力。学数学的人可以对科学做出非常原创性的贡献,只要你对这里面的问题背景有比较好的了解,你可以走得非常深入。一般说来,数学家做一个问题总希望有一个模型,所以数学家去理解生物学中的数据和现象,往往从一个统计的模型或者动力学的模型出发。
如果是来自工程背景的人,他们往往取一种实用的态度:设计了一个方法,然后去用不同的数据算一算,结果很好,基本上就满意了。方法可能是很好的,但是这方法为什么好?他们不怎么管。有些时候他们有很好的想法,但这个想法有时是比较表面的,也可能本质上是错的。虽然在一些数据上算的好像还不错,但方法背后的机理不清楚,因而理解难以进入更深刻的层次。这是“不问为什么”造成的后果。
与物理学家类似,数学家往往喜欢问一个“为什么?”。到底这里面是一个什么样的模型在发挥作用,我怎么样去求解这个模型?数学有一种比较理性的精神。但物理学家在对现象的理解,以及对现象建模方面比数学家要更擅长一些。
我刚才说的就是:像生物信息学,数学家可以做得非常好。但是如果是生物学的现象,你让我建立一个物理模型,物理学家要做的更好。因为物理的学生一直都是这么训练的,他们就是做这个事情:看到世界里面各种各样的现象,它背后的物理机理是什么?在这个方面,物理学家比数学家要强。但是有了这个模型之后,怎么样去处理这个模型?或者说生物信息学有了数据,你怎么去设计一些好的方法?这些东西需要对数学有比较好的认识。数学家在这方面会更擅长。
生物对数学对刺激
小派:您觉得您做这些生物的工作,做的更多的是数学上的工作,还是科学上的工作?
李老师:其实更多的还是数学上的工作。这个问题问得很好,也是我想要传达给本科生的:我们把数学应用到生命科学中,试图以数学为工具解决一些生命科学的问题和一些现象,自然是希望能够对他们有帮助。比如你设计一个好的统计模型和计算方法,能够算得很快、很好,这当然对他们是有贡献的。
但我还要强调一点,就是我们毕竟是数学出身,我们应该同时要反过来想一想,生命科学是不是有可能产生一些东西对数学会有影响。从这里面也许能够提炼出一些好的数学概念或者定理,或者一些方法。这件事情我觉得也是永远要记在脑袋里面,我们做数学的人还是希望能够“反方向”有一个作用。
对我来说,我不敢说我真的达到那么高的高度,但是我始终在往这个方向努力。其中一个我觉得就是我当时跟生物的人合作,我们做所谓“两尺度大偏差”理论,我觉得这是往这个方向努力的一个例子。
这是我自己感觉蛮有意思的一个结果。它本来是生物学里面的一个现象,一个生物的模型。属于稀有事件的范畴,但是那个时候我们试图用以往的对稀有事件的理解去分析这个东西,发现以往的框架不能用:基于化学反应随机动力学中经典的大偏差理论,可以发现条件不适用,但是生物学现象是客观存在的,它就表现出稀有事件,所以这里面一定隐含着一个数学的定理!我当时想的就是这件事情,后来发现通过进一步拓展原来的经典理论真的能达到这个目标。
具体地说,我们的定理阐述的是要把这里面蕴含的两种类型的大偏差非平凡地结合起来,最后就可以数学上给出一个非常漂亮的刻画。我们自己把这个工作做完之后,还是比较满意的。我觉得好像是从生物里面反过来对数学提供了一些新的刺激了:在生物学的刺激下提出了一些新的有意思的数学的问题。我们这个工作做了之后,也得到一些概率学家的肯定,其中有两位都是国际数学家大会45分钟报告人,他们完全是概率论学者。在他们的工作中也引用了我们的文章。
但我想我没有达到那么高的高度,我觉得我在往这个方向努力,也做了一点小小的有意思的东西。我想所有做数学的出发去做生命科学的人,脑袋里面都要记住这个事情。你把数学往那边去用,去解决他们的问题,反过来他们是不是也对我们的数学能够有一些刺激?
特别感谢李铁军老师对我们的帮助和支持!
部分图片来自网络,如有侵权请联系删除!
北大数院人出品
策划
采访
排版
审稿
责编
小派工作室
黄 桢 谢鹏志
小派工作室
李铁军 牛 贺 陈炜蓉
牛 贺