查看原文
其他

从非完整和含噪声的数据中推理复杂网络动力学

高婷婷 集智俱乐部 2022-07-15



导语


生物、社会、信息复杂系统往往缺乏第一性原理的引导,因此从观测数据中推理底层原理是研究这些复杂系统的重要途径。实际上,数据驱动的研究范式可以追溯到开普勒从第谷的观测数据中提炼出行星运行的三大定律,继而牛顿归纳推理出万有引力定律。随着数字化和微观实验技术的蓬勃发展,很多学科领域都积累了真实复杂系统的大量观测数据。因此,我们面临一个挑战:如何从这些观测数据中推理出决定复杂系统行为的底层动态方程?


3月24日,《自然-计算科学》(Nature Computational Science) 发表了同济大学物理科学与工程学院、上海自主智能无人系统科学中心严钢教授团队研究提出的“数据驱动的复杂网络动力学自主推理新方法框架”,该方法实现了结构信息不完整和强噪声场景下的鲁棒推理,为真实复杂系统底层原理的自主发现提供了重要基础和算法支撑。论文第一作者高婷婷撰文对这项工作进行了深度解读。同时将于4月16日(周六)进行线上直播解读,欢迎扫描文中二维码预约直播。


研究领域:复杂系统,复杂网络动力学,自主推理

高婷婷 | 作者

梁金 | 审校

邓一雪 | 编辑



论文题目:

Autonomous inference of complex network dynamics from incomplete and noisy data论文链接:https://www.nature.com/articles/s43588-022-00217-0



一、如何从数据推理复杂系统动力学




动力学是系统的固有机制,挖掘系统动力学是物理学界的重要研究方向,也是理解、预测和控制系统的重要基础。随着微观实验和数字化技术的蓬勃发展,大量有关实际复杂系统的观测数据得以积累。这些数据主要包含系统的拓扑结构和节点活动序列,如脑联接图谱和神经元活动数据,智能电网系统及负载状态,人口流动轨迹数据等。如何抽象、转化观测数据以进一步理解复杂系统的底层动力学机制,即自主地推理出隐含的决定复杂系统行为的动态方程,是学界亟需解决的一个关键科学问题。


事实上,从数据抽象动力学的历史可以追溯到开普勒从第谷的观测数据推理出行星运动三定律。而近年来,随着智能化技术的发展、算力的提升,数据驱动、计算机辅助的动力学自主推理方法正快速发展。如图1所示,受遗传算法启发的符号回归(symbolic regression),可从观测的单摆运动轨迹中推断动力学[1,2];借助各类神经网络,如自编码器(auto-encoder),可以对观测数据进行学习和预测[3];通过稀疏回归(sparse regression),可以从数据挖掘包括常微分和偏微分动力学方程[4,5]。


图1. 数据驱动、计算机辅助的针对单体、少体的动力学自动推断方法


然而,尽管符号回归可以在没有先验知识的情况下,通过变量和操作算符组合、变异的二分树,自主合成动力学形式,但随着系统维度增加,其函数空间也大幅增加,难以应对复杂高维系统;借助神经网络进行学习,尽管可以应对高维系统,但缺乏可解释性,难以深入理解动力学系统的固有机制;而稀疏回归方法目前也仅能应用于动力学形式较为简单的单体系统,鲜有针对高维复杂系统的动力学推断方法。


为弥补这一空缺,在本工作中,作者提出了两步自主推理方法,结合信息不一致性和拓扑采样,可以有效地从拓扑结构和节点活动数据中推断复杂网络动力学。





二、复杂网络动力学自主推理的新框架




复杂网络动力学的推断相比较于单体或少体系统面临更大的挑战。首先在于复杂网络数据的不确定性更为多样。除了节点活动序列伴随着观测噪声,节点活动内秉的随机噪声外,节点间也存在相关噪声;受限于观测和推断技术,复杂网络拓扑结构也存在缺失边和假性边。其次,网络中各个节点可能遵循不一致的动力学,即动力学存在异质性;系统出现宏观群体行为,如同步和一致性等,可能会掩盖节点动态耦合的微观机制。如果直接采用以前的数据驱动推理方法,会受限于高维特性、数据不确定性和宏观同步现象等,因此需要开发一个强鲁棒性的复杂系统推理方法。


假设网络中各节点遵循一致的动力学机制,即由自身动力学和耦合动力学组成的常微分方程。由于几乎没有对系统的先验知识,一个自然的切入点是:预设两组极冗余的元素函数,分别对应自身和耦合动力学;将观测数据映射到元素函数上得到对应的时变函数矩阵,通过筛选得到最优的元素函数组合形式,这一组合形式将能最优地捕捉到观测数据背后隐藏的动力学机制。但由于复杂网络动力学的基础函数不仅包含常见的多项式,还包括复杂的非正交类型,如三角函数型,激活函数型等,故最优函数的可分辨性降低。在数据映射过程中,我们发现,不同的元素函数跨越多个数量级差,这将使得筛选过程中数量级较小的函数更易分配更高的系数,从而导致误判。


图2. 对应自身动力学F和耦合动力学G的元素函数库LF和LG(左)以及部分数据映射得到的时变函数向量的数量级(右)。


我们提出两步推理框架,结合全局粗粒回归和精细筛选,以克服由于庞大、复杂的元素函数空间带来的挑战。具体来说,通过第一步全局粗粒回归(Phase I),对函数矩阵进行归一化,避免由于函数间数量级差导致的误判;从冗余的函数库中发现与系统动力学最相关的多个函数,组成子函数空间。然而这些函数组成的常微分方程不具备生成能力,故在第二步进行精细筛选(Phase II),通过拓扑采样,利用信息不一致性作为推断指标,以得到更简洁的最优动力学形式,且该动力学形式具有生成能力。


图3. 复杂网络系统自主推理算法概述。将观测的网络结构和节点活动数据(a)映射为时变基本函数矩阵(b),通过全局视角的回归识别最相关的基本函数并组成模型子空间(c),然后通过局部视角的拓扑采样和信息论判据推断最优函数组合及系数(e),最终得到形式简洁且具有生成能力的系统动态方程(f)。


为验证两步推理框架的5个核心操作,即拓扑采样、修正的赤池信息准则(wAIC)、全局回归(Phase I)、精细筛选(Phase II)和归一化操作缺一不可,我们进行了消融实验:基于有缺失边和观测噪声的模拟数据,在完整推理框架中分别去除5个核心操作,其他操作保留进行推理。结果表明,只有在完整的推理框架下才可得到高精度的动力学形式,5个核心操作是应对高不确定性复杂网络系统的重要手段。


图4.拓扑采样、修正的赤池信息准则(AIC)、全局回归(Phase I)、精细筛选(Phase II)和归一化操作操作的消融实验,验证了其必要性。





三、可推断性及鲁棒性验证




为验证该算法框架的普适性,我们基于包括节点动力学如神经元动力学、基因调控动力学、耦合振子和边动力学在内的5个动力学,在人造和真实网络结构上的模拟数据进行自主推理。同时考虑了复杂系统数据存在的如假性边、缺失边、噪声等多种不确定性,验证了该算法框架的鲁棒性。与以往针对单个体或少量个体的智能推理方法,如由Brunton等人提出的Sparse Identification of Nonlinear Dynamics (SINDy)[4], Casadiego等人提出的Algorithm for Revealing Network Interactions (ARNI)[6]相比,两步推理法能在更复杂、非正交项空间中进行搜索,而且在针对数据不确定性的5个模型系统测试中均表现更优。


图5. 针对数据不确定性的鲁棒性测试(a-e),以及与SINDy和ARNI两种方法的对比(f-j)。


多项研究表明,同步现象广泛发生在各个复杂系统领域,如神经科学、系统生物学、电化学、地球科学等[7],然而系统个体间的同步会掩盖节点之间动态耦合的微观机制,难以捕捉到耦合项的具体形式。为验证两步推理方法针对同步系统的有效性,我们选择了两个典型的神经元动力系统,通过调节耦合强度,依据序参量来确定系统的同步程度;结果表明,两步推理方法能有效克服一定的同步现象,在部分同步的系统中仍保持相当精度的正确推断。值得一提的是,此前并没有方法可以对节点动力学不一致的系统进行推断。事实上,由于网络中节点性质的不一致,如耦合振子不同的固有频率,节点的重要性不同等,各个节点即使遵循相同的函数组合,函数系数也并非一致,两步推理框架可以借助拓扑采样对节点动力学的具体系数进行学习,有效地发现异质动力学的确定形式。


图6. 不同同步程度的复杂网络(a)和异质动力学(b)的可推断性验证


该推理方法也应用到真实传染病扩散系统中,基于全球航空网络结构和H1N1流感初期扩散在各地区的感染病例累计数据,推断了可以刻画传染病初期动力学机制的常微分方程。基于统计数据,包括各地区间乘客流量,各地区人口数量和每日全球平均乘客流量,修正了航空网络中节点间的连接权重。考虑初期扩散,以及各地区第一例感染病例的出现时间的对齐,确定了各个地区用于推断的时间区间。借助两步推断框架,我们得到了简洁的用于刻画初期扩散的动力学方程;且考虑到各地区在人口、国际贸易影响等方面的不同,推断了各节点的函数系数。由于无法获知真实系统的真值(ground truths),为验证该推断结果的有效性,我们在两个类似系统:SARS和COVID-19初期传播系统上进行验证,发现其同样可以有效刻画早期传播行为,验证了方法的有效性和普适性。


图7. 全球性传染病的传播动力学推理。基于全球航空网络(a)和各地区H1N1感染数据,推断出早期扩散方程,该方程演化结果与实际观测数据相吻合(b-e),同时能够迁移用于刻画SARS和COVID-19的早期扩散行为(f-i)。





四、展望




复杂系统动力学的探索还有诸多方向。比如,对于脑网络来说,假设动力学机制是确定性常微分方程并不准确。事实上,有研究表明大脑功能可能是由随机动力学机制驱动的[8],针对随机性更强的系统,应该利用随机微分方程(Langevin dynamics)描述其动力学机制;诸多观测数据并非连续的,而是离散的甚至是布尔型的,如大脑决策过程,如何从离散数据中推理动力学机制也值得研究[9]。另一方面,系统的拓扑结构也许并非静态或低维的,如果考虑时序网络和高阶网络[10],对复杂网络动力学的研究将更好捕捉结构和节点活动、功能间的关系。


参考文献:

[1] Schmidt, M. & Lipson, H. Distilling free-form natural laws from experimental data. Science 324, 81–85 (2009)

[2] Udrescu, S.-M. & Tegmark, M. AI Feynman: a physics-inspired method for symbolic regression. Sci. Adv. 6, eaay2631 (2020).

[3] Iten, R., Metger, T., Wilming, H., Del Rio, L. & Renner, R. Discovering physical concepts with neural networks. Phys. Rev. Lett. 124, 010508 (2020).

[4] Brunton, S. L., Proctor, J. L. & Kutz, J. N. Discovering governing equations from data by sparse identification of nonlinear dynamical systems. Proc. Natl Acad. Sci. USA 113, 3932–3937 (2016).

[5] Rudy, S. H., Brunton, S. L., Proctor, J. L. & Kutz, J. N. Data-driven discovery of partial differential equations. Sci. Adv. 3, e1602614 (2017).

[6] Casadiego, J., Nitzan, M., Hallerberg, S. & Timme, M. Model-free inference

of direct network interactions from nonlinear collective dynamics.

Nat. Commun. 8, 2192 (2017).

[7] Tang, Y., Qian, F., Gao, H., & Kurths, J. Synchronization in complex networks and its application–a survey of recent advances and challenges. Annu. Rev. Control, 38, 184-198 (2014).

[8] Deco, G., Rolls, E. T. & Romo, R. Stochastic dynamics as a principle of brain function. Prog. Neurobiol. 88, 1–16 (2009).

[9] Genkin, M., Hughes, O., & Engel, T. A. Learning non-stationary Langevin dynamics from stochastic observations of latent trajectories. Nature Commun. 12, 1-9 (2021).

[10] Lambiotte, R., Rosvall, M. & Scholtes, I. From networks to optimal higher-order models of complex systems. Nat. Phys. 15, 313–320 (2019).



论文一作线上直播解读


直播信息:

时间:2022.4.16 19:00-20:30


主讲人:高婷婷,2018级同济大学物理科学与工程学院凝聚态物理直博生,2018年师从严钢教授,主要研究为复杂网络动力学推断;开发了结合全局粗粒回归和精细筛选的两步推理方法,在多种复杂系统动力学实现了动力学推断,相关工作发表在Nature Computational Science上。


简介:生物、社会、信息复杂系统往往缺乏第一性原理的引导,因此从观测数据中推理底层原理是研究这些复杂系统的重要途径。如何从这些观测数据中推理出决定复杂系统行为的底层动态方程?为回答这一问题,同济大学物理科学与工程学院、上海自主智能无人系统科学中心严钢教授团队研究提出的“数据驱动的复杂网络动力学自主推理新方法框架”;并将由本工作第一作者高婷婷进行深度解读,并分享复杂网络动力学推理的广阔前景。


扫码预约直播



网络科学集智课堂第三期:

从数学建模到多学科应用


从现实社会的关系网到虚拟的互联网,从线下到线上,我们的生活始终没有脱离复杂网络。真实的复杂网络从其诞生开始就不断地演化着。网络节点不断地增加,节点之间的连接不断地增长。然而,复杂网络的形成机制是什么?具有什么样的演化规律?它们的演化机制对网络的功能和动力学行为有什么影响?为了回答这些问题,科学家们对复杂网络的探索从未停止。

网络科学是一个蓬勃发展的崭新交叉学科,可以看做复杂系统的骨架,核心是研究各种大型复杂网络之间的共性和处理它们的普适方法,其研究对于发展复杂系统的基本理论及构建产生了极大的推动作用。

网络科学的第三个十年,已经过去了几年。从国内外网络科学研究的发展趋势来看,各种各样的更复杂的网络模型和结构以及高阶相互作用动力学引起了人们的极大兴趣。为了回应这种迫切需求, 我们网络科学第三期课程将围绕复杂网络的数学建模与应用进行多角度的介绍。

集智学园特邀陈关荣、樊瑛、周进、李翔、张江、闫小勇、刘宗华、石川、虞文武、赵海兴、史定华加入打造第三期课程,欢迎你的加入。


详情请点击:
从数学建模到多学科应用——网络科学·集智课堂全新升级


推荐阅读



点击“阅读原文”,预约直播

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存