再创丨文献精读:界定可实现生化自适应的拓扑网络
前言:概括地讲,当前合成生物学的发展有三大主流方向:首先是以基因组合成为主要手段的合成生命体研究,代表性工作如最小基因组、人工染色体等;之二是利用对工程菌物质能量代谢的改造,实现高附加值生物产品的工业级发酵,可理解为生物合成,是合成生物学有极大应用潜力的方向。第三个方面是从理解生命现象的角度出发的:研究存在的生物互作网络具有较高的难度和约束,若能利用已有的生物学基础,自主构建出由生物“节点”的相互作用“连线”组成的生物网络,这样就很大程度上将问题简单化;更进一步,生命系统是动力系统的一种,如果将生物分子的互作加以抽象,并用数学的语言书写,就能够利用计算机工具模拟研究生物分子的量(浓度)随时间(或空间)的变演情况,发现更深层次的普适性规律,进而回过头来指导对于生物系统的设计和改造。于是,与系统生物学“自上而下”地理解生命相互补,合成生物学走出了一条“自下而上”从头搭建生物网络的研究范式,并且很自然的,人类在工业化进程中发展出的动力学控制理论由此介入生物的理性设计之中。事实上,在公认的合成生物学“开山之作”[注]的两篇论文中,都能够看到动力学理论在设计中的重要分量。
那么今天,我们“再创丨Regenesis”团队便以一篇论文为例,为大家简述如何实现利用动力学理论进行对生命系统网络的剖析和生命系统再设计的指导。在这里,我们将更多地关注研究思路,不涉及过多的数理细节;此外,由于编辑团队多为生物背景,而原文涉及大量的理论内容,因此难免会存在理解的浅薄乃至不当,若读者有所查察,还望批评指正。
作者:孙智
校对:邓婷月 罗训训 孟凡康 张益豪
全文约4500字,阅读时间约为10分钟
我们解读的文章是2009年发表在Cell上的一篇长文,题目为“Defining Network Topologies that Can Achieve Biochemical Adaptation”,通讯作者为汤超教授,目前在北京大学前沿交叉学科研究院定量生物学中心任职。文章的核心内容围绕生命体的“自适应”(Adaptation)现象展开,在严格的生化回路定义条件下,通过两条途径(Bottom-up & Top-down),理性地发掘满足自适应能力的核心条件,并由此归纳了“由功能到拓扑”的自适应设计路线图,以期能够指导相关的合成生物学设计。
那么首先,何为“自适应”?
自适应是生命体内广泛存在的一种环境响应机制,可以理解为存在受环境因素控制的某种因子,在环境因素改变时,该因子会产生瞬时的响应(量的增加或减少),但在一段时间后将回归初始状态,而不管环境因素是否回位。将这种情况视为该因子对环境的变化产生了“适应”,等到下一次环境因素再次发生变动时,同样的过程将再次发生。典型的自适应如人眼对于环境光强变化的适应性,细菌定向运动中的“趋化”现象,酵母细胞的渗透压响应等等。对于自适应现象的分子生物学机理研究由来已久,其涉及的复杂生物学互作网络让我们不禁提出了这样的问题:既然自适应现象如此广泛,那么能否从一个整体的、理论的角度来解读产生自适应的原因?更进一步的说,基于互作网络的自适应是否真的存在统一的设计原理,能够被解读并加以利用?
首先,为了能够从数学上对自适应现象进行界定,且方便后续的大规模计算处理,需要给自适应现象一个定量的定义。在输入信号发生改变后,输出信号将首先发生一次瞬间的、剧烈的量变,之后慢慢趋于回归原有的位置。将这个过程中输出信号相对变化的最大值定义为自适应的“灵敏度”,最终稳定后计算的相对变化定义为“精确度”。如果信号能完全回归到初值水平,那么精确度将极高,把这种情形称为“perfect adaptation”。
自然界实现自适应的方式千变万化,涉及能够完成自适应的调控网络的拓扑结构也可能会极其复杂,不利于进行分析,因此在这里作者将调查范围约束在了一个由三节点组成的网络中,这三个节点组成了自适应功能的信号加工模块。具体的,A节点接收输入信号,C节点的变化将转化为输出信号,而B节点将承担更多的辅助功能。
之后考虑如何定义三个节点之间的相互作用以及选取合适的数学模型对其进行描述。作者将网络假想为酶促反应调控网络且ABC三种酶的总量保持恒定,节点则视为有活性的酶的相对含量,节点间的调控有三种形式:正调控驱动向活性方向的转换;负调控,驱动向失活方向的转换;无调控则无影响,而输入信号对于A的调控恒为正,用米氏方程书写相互作用的数学模型。米氏方程的优势在于简洁而熟悉,使用两个参数即可反映系统状态,特别是对于其近似处理了解透彻,比如一级、零级反应的状态,分别为线性和饱和酶促,这也能够反映到参数上,能够为后续的分析带来很大的方便。
可以想像,对于一些拓扑结构而言,在取到合适的参数时,是可以展示出自适应能力的。利用之前的数学表示,能够把这种自适应能力转化为二维图像中的一个点。在对数坐标上,定义了有功能的自适应区域,划定的边界条件也是人为选取的。但是,拓扑结构并不能代表一切,参数的选择也有很大的作用,我们关注的是如果一个拓扑结构在很大的参数变化范围内都能够实现自适应功能,这时候我们就称这一拓扑结构是鲁棒的。衡量鲁棒性需要测试足够量的参数条件,最终用Q值来衡量落在功能自适应区域中参数组的数量,以此评估拓扑的鲁棒性。
有了对功能自适应的判断标准,下面的问题就是发现满足标准的拓扑结构的共性特征。作者在这篇文章中采取了两条策略,也即系统生物学两种研究范式。第一是自上而下的方法,遍历所有的拓扑结构,再从中发掘规律。第二是自下而上的方法,从最小网络出发,逐步进行搭建,直至达到预期功能。我们最后会发现,这两种方案的结果最后是自洽的,最终会统一到两种核心结构上,携带缓冲节点的负反馈回路(NFBLB),以及携带比例节点的前馈回路(IFFLP)。
作者首先描述了自下而上的策略,对于两节点、三节点两连接的网络,均未发现有功能自适应的出现。在三节点三连接的情况下,发现了11种拓扑结构,在一定的参数条件下可实现功能自适应。这11种网络拓扑在大体上能够划归为两类,一类是负反馈环,另一类是非一致前馈环。尽管此时出现自适应的数目太少,拓扑的鲁棒性较差,但可以认为这些拓扑是能够实现自适应的最小、最简单的拓扑回路。
对于这些最小回路,我们可以对于一些特例进行一些分析,来判断其实现自适应的可能性。例如对于反馈环的一个特例,可以写出其ODE方程组。实现自适应的目标是,寻找C的精确自适应函数,使C的稳态解不依赖于输入信号的值。通过对方程中的参数进行极端近似,在满足一定条件下,能够从B的稳态条件直接推导出C的一个常数解。意味着实现了自适应。
而从自上而下的角度出发,作者枚举了所有符合要求的三节点互作网络拓扑,符合要求意味着必须有直接或间接的从A到C的信号流;对每一个拓扑随机地从参数空间里选定一万组参数,之后观测这超过一亿六千万个“参数-拓扑”网络随输入信号变化的动力学行为。统计显示只有集中在约400个拓扑结构的约10000个网络能够有功能自适应行为。就在这个400个拓扑结构里,我们又能看到几乎全部的自适应网络都具有曾在最小回路中出现的两类结构,这或许预示着这两类结构的核心地位。
之后,作者从整个系统的动力学角度入手,尝试解答拓扑结构的保守性的原因。写出系统的ODE方程组。对于每一节点的ODE都可以看做是一个以ABC为自变量的多元函数,A点又额外收到输入信号的调节。在稳态时ODE方程组的值均为0,意味着三个对应的不动点,且必然要求三个不动点是稳定的,此时,若具有简单的非线性动力学理论基础,必然能联想到对于不动点进行稳定性分析的处理流程:对系统在不动点附近进行泰勒展开,一阶项不为零,故舍弃极小的高阶项,获得在不动点附近的线性化方程组,并用矩阵的形式表示。
观察到,此时在方程中出现了ΔC,再根据不动点的性质(dC*/dt = 0),进行适当的变换,就能够导出最开始所定义的自适应精确度的一个表达式。
功能自适应的约束需要相对误差为0(也即代数余子式M13 = 0),满足系统稳定性的要求需要雅各比行列式小于0,到此,具备了进行进一步分析的依据。
后续的分析围绕着以上的约束条件展开。注意到一阶偏导数实际上对应了拓扑结构中的调控作用,于是可以从解析的条件中推断出哪些连接必须存在,哪些连接不能存在,以及它们各是怎样的调控模式,由此获得可能的拓扑结构。
例如,对于βAB·βBC = αBB·βAC = 0的情况而言,βAB·βBC代表了由A到B和由B到C的调控,等于0意味着信号无法通过这一条“间接途径”,那么为了保证有信号从A到C,第二项中的βAC必然不为零,故αBB·βAC = 0等价于αBB = 0;此时又能够分解为βAB = αBB = 0和βBC = αBB = 0两种情况。对于βAB = αBB = 0而言,可以简化此时的雅各比行列式,式中的两项对应了两条反馈线路,而满足一个为负的雅各比行列式的最可能的方式就是至少存在一个负反馈的线路。
最后,基于对拓扑结构的全面分析,作者试图解决如何在已有基础上通过合理的添加新的拓扑、调整原有作用条件以达到优化回路鲁棒性的问题。简单的,从一个最小的三节点三连线的拓扑出发,可以添加B节点的自激励调控,或者在系统中补充一条负反馈线路,使得系统的Q值不断增加,提高拓扑的鲁棒性。作者全面整理了这样的“拓扑-功能”路线图,这样的设计原则对于合成生物学对于生命体进行理性设计时有着很大的指导意义。
总结
可以看出,这是一项理论功底十分扎实的工作。作者通过数值表示法的建立,巧妙地将自适应问题划归到了边界问题;通过谨慎小心地建立约束条件,确定了实现自适应功能的合适的卡通模型;套用成熟的米氏酶促反应动力学方程,使得后续的分析过程简单又不失合理性。更为突出的一点是,作者在系统分析拓扑结构时使用了非线性动力学的分析框架,其中一些很优美的流形图都是非线性动力学中的内容,并且能够在处理过程中敏锐地抓到关键纽带,将不动点的稳定性分析与具体问题的需求(在这里是获得最小的相对变化值)相联系,这向我们展示了百年来非线性动力学研究成果在生命系统里的成功运用。模型中的各个参数能够与实验参数找到对应,这意味着实现理论与实验结合的可能性很大,使得理论成果具有了一定的实际应用价值,十分的“接地气”。
文章同时向我们展示了对于一个复杂结构进行理性分析的方法。系统生物学的理论认为生命的本质不仅存在于生物大分子及其相互作用中,更重要的,其在拓扑学理解上形成的大规模、有层次、展示出明显聚类特征的生物学互作网络,能够在生命运转过程中表现出单纯依靠“还原论”研究范式所不能理解的行为(一般意义上的“涌现性”),而这类行为也确实是生命存在所不能缺少的。诚然,系统生物学“整体论”的范式提供了一种全新的理解生命的角度,但做系统分析需要避免另一类错误,即不能不经过分析就笼统地将复杂网络简单地视作一个“黑箱”来处理甚至直接使用,因为我们不知道这样的“黑箱”是否还与生物体的底盘背景存在有怎样的互作;生命体的复杂性不容小觑,不加思考的归纳实际上是相当不负责任的。文章给我们这样的思考,即对于一个复杂的系统,也需要进行相当程度的分析和提炼,精细的刻画系统的行为。当这些基础工作执行到位后,我们才能够放心地把一个内部元件都已知并与外部绝缘的系统视为功能独立的“模块”,在更高层次使用,后续的应用和设计也能够避免走一些不必要的弯路。
文章还为我们指出,文章中的一般性结论主要是为了鲁棒性拓扑结构的获得而总结的,必然存在特殊的情况,在一些特定参数条件下,理性分析认为无法实现自适应的拓扑结构也表现出了自适应行为,这样的情况在文章的补充材料里有所总结。这也进一步提示我们,拓扑结构的存在仅仅是保证自适应功能的一个“准充分条件”,参数值的选取也会起到相当重要的作用。事实上文章中的鲁棒性也是一个相对的概念,作者并没有说鲁棒的拓扑结构就能够“随便撒一组参数,有90%的情况都能自适应”,事实上Q值的最高值也仅在1400的位置,多数都在几十几百的位置浮动;回顾Q值的定义(实现功能自适应的组的个数),这相对于每个拓扑的10000组随机参数还是有相当的差距的;而我们还没有考量10000组参数在那样一个高维参数空间条件下的代表性。这样思考的话,其实即使对于简单的网络拓扑,也存在着极大的空间供我们遐想:对于同一种网络,是否有多种参数条件能够对应多种功能的存在?用怎样的数学来刻画这种基于参数的功能切换?用怎样的实验来证明这种多功能的存在?
*编者注:“开山之作”指的是:
Gardner T S, Cantor C R, Collins J J. Construction of a genetic toggle switch in Escherichia coli[J]. Nature, 2000, 403(6767): 339-342.
Elowitz M B, Leibler S. A synthetic oscillatory network of transcriptional regulators[J]. Nature, 2000, 403(6767): 335-338.