导语
随着深度学习崛起和图结构数据井喷,从复杂系统角度揭开人工智能黑箱、利用人工智能辅助复杂系统建模都成为可能。集智俱乐部组织了系列闭门读书会,在7月5日的第一场讨论中,张江直播分享了复杂系统建模的深度学习技术综述。本文是对直播内容的整理,录播视频已上线,地址见文末。7月12日(周日)晚将进行读书会第二场,讨论两篇利用图网络技术实现复杂系统自动建模的经典文章。系列读书会目前开放报名中,详情见文末。从上世纪50年代以来,「想要创造拥有和人一样智能的机器」,一直都是学术界和工业界争相追逐的课题,“人工智能”这个领域也随着人们对于“什么是智能”这个问题的思考之下,曲折向上发展。随着算力的提升,人工智能的研究对象,逐渐由单个个体,发展到了系统,尤其是对复杂系统的研究。而在另一边的复杂科学领域,对复杂系统进行建模,一直以来都是一个非常重要的科学问题,关乎人们对这个世界的理解和认知。于是,用人工智能的技术,来对复杂系统进行建模,应势而生。过去,人们为了研究复杂系统,往往是通过经验,人工构建模型。包括生命游戏、Boid模型,SIR病毒传播模型,偏好依附网络增长模型、匹配生长模型、人工股市模型等等。这些人工模型有其独特的优点。首先,模型往往非常简洁,比如 Boid 模型,通过简单的三条规则就能模拟出鸟群看似复杂的行为;其次,人工模型通常会依据科学家的经验,非常具有洞察性,使得它更能够抓住事物的本质,如小世界模型,无标度模型都描述了网络的本质特征;另外,简洁的模型也非常便于理论分析,也不需要很强的算力就能执行。但人工模型有其很强的局限性。首先它太过简单,以至于很难解释更多的复杂现象,也很难与真实数据去做拟合,预测的精度也会较低。比如人工股票市场,虽然它构建了一套机制,使得整个系统能够与真实股票涨落趋势非常接近,但实际上,这套机制与真实市场中的个体行为是完全无关的,所以不能用来做真实预测。其次,人工模型的构建与否建模者的个人经验非常相关,它没有统一的建模规则,非常依赖建模者的能力和启发性思考。 「如何对复杂系统进行自动建模」,这是一个迫切的需求。
随着大数据的积累和人工智能,特别是深度学习技术的发展,使得我们可以通过数据驱动的方式,利用深度学习算法来自动构建复杂系统的模型。其基本流程如图所示:
图1:利用深度学习算法来自动构建复杂系统模型的基本流程我们根据获取到的复杂系统的观测数据,利用 AI 系统,自动去构建出一个我们想要的模型,从而捕获到复杂系统内部的规则。这样,我们就能够对真实的复杂系统做出预测,甚至是控制。 其实这个发展趋势最近几年已经在迅猛发展了。最近,Chaos期刊推出了用于复杂系统的机器学习特刊,从这些文章中可见整个领域的发展趋势。图2:Chaos上最新的有关机器学习与复杂系统特刊 接下来,我将对「人工智能自动建模」这个领域进行综述。在这里大体按照发展顺序,将这一领域划分成了五个阶段。复杂系统的行为数据大多表现为时间序列,而RNN是时间序列预测的主要工具,因此用RNN来自动建模是一个主力方向。使用RNN进行建模,其记忆机制可以捕捉到复杂系统的长程关联。基于 RNN 的方法有非常多,这里我们提一个跟复杂系统相关的工作。在这个工作中,用 RNN 的一种变种模型“库计算”(reservoir computing),具有强大的预测能力,甚至可以预测混沌模型:图神经网络,简称图网络,是近年发展起来的一种模型。在这类模型中,它基于一个给定的图结构,这被称为基于关系的偏置先验(inductive bias),学习一种网络节点到连边,连边到节点的映射过程。由于模型将图结构充分利用,能够把握非常异质化的网络起来,因此准确度可以大大高。 图网络特别适合对复杂系统进行自动建模,更多关于图网络的基础信息,可以在图神经网络、网络科学、系统科学综合交叉入门一文详细学习,这里不再展开叙述。Relational inductive biases, deep learning, and graph networksPeter W. Battaglia,Jessica B. Hamrick,Victor Bapst.et al.(2018)
在时间序列自动学习方面,下面这篇文章是很好的典范。图网络不仅很好地学习了动力学,预测出了“机器蛇”的运动行为,而且还能够在学好的动力学上做控制,即给定目标位置,让“机器蛇”模型演化中间的运动状态。Graph networks as learnable physics engines for inference and control Alvaro Sanchez-Gonzalez, Nicolas Heess, Jost Tobias Springenberg.et al.(2018) 下面这篇文章是彩云天气算法工程师的工作,将图网络应用于雾霾预测,并结合气象领域知识,构建城市间的相互作用网络模型,对预测雾霾有非常好的效果PM2.5-GNN: A Domain Knowledge Enhanced Graph Neural Network For PM2.5 ForecastingShuo Wang,Yanran Li,Jiang Zhang.et al.arXiv(2020)
2018年的 ICLR 会议上,一篇题为 Neural Ordinary Differential Equation 的文章引发了大量的关注。在短短 2 年不到的时间里,已经在 Google Scholar 上获得了 500+ 引用:Neural Ordinary Differential EquationsRicky T. Q. Chen,Yulia Rubanova,Jesse Bettencourt.et al.arXiv(2018)
尽管有很多人批判这篇文章创新性欠佳,但是它的巧妙之处就在于在关键的时间点,对多方面发展起来的技术进行融汇贯通。 首先,尽管不是这篇文章首发,但它明确指出可以将ResNet拓展为一种微分方程的形式。于是,ResNet变成了无穷深的网络,而神经网络的训练问题也变为了微分方程的求解问题。 其次,该文章提出了基于伴随方程的训练求解方法。我们终于可以摆脱自动梯度反传方法的束缚了。尽管人们发现这种方法除了可以节省内存外,并没有在精度上很大提升。 最后,该文章融合了另一项很火的技术,就是“归一化流”(Normalizing Flows)。这种技术可以通过训练一个可逆的映射,从而简化概率函数的训练求解。而NeuralODE则可以将其提升为一种漂亮的续的形式。 Normalizing Flows for Probabilistic Modeling and InferenceGeorge Papamakarios,Eric Nalisnick,Danilo Jimenez Rezende.et al.arXiv(2019)
NeuralODE可以在时间序列拟合和预测好的效果:下面这篇文章是2020年 AAAI 的获奖论文,它将 NeuralODE 与图网络巧妙地结合到一起,来进行各种复杂网络上各种动力学的预测,在很小的数据量下取得了非常好的结果:Neural Dynamics on Complex NetworksChengxi Zang,Fei WangarXiv(2020)
我们为什么要自动学习个体的相互作用结构呢?那是因为,复杂系统中的连边往往代表的是一种因果联系,因此图结构的学习也就是因果关系的发现。 其次,当我们从时间序列中提取出这种图结构,可以让我们更清楚地看到系统各个部分之间是如何相互作用的,从而提高这种系统的可解释性。 最后,我们还可以用丰富的网络科学技术手段来分析获得的这种图结构,从而帮助我们对系统进行更深入的理解。 那么,这种图结构如何获得呢?实际上,注意力权重就是一种图结构。利用 NLP 中的 Transformer 模型预测时间序列,其实就相当于学习出了词与词之间的网络关系:Deep Transformer Models for Time Series Forecasting: The Influenza Prevalence CaseNeo Wu,Bradley Green,Xue Ben.et al.ariv(2020) GMAN: A Graph Multi-Attention Network for Traffic PredictionChuanpan Zheng, Xiaoliang Fan, Cheng Wang.et l.(2019)
然而,这种注意力往往具备多个Head,而且有方向有权重,生成的网络还会时常变化,不方便我们分析。因此,图卷积网络的提出人 Thomas Kipf 首次提出了一种显示图结构的网络学习方法(NRI):Neural Relational Inference for Interacting SystemsThomas Kipf, Ethan Fetaya, Kuan-Chieh Wang.et al.arXiv(2018)
NRI模型复杂度高,只能用于小规模网络,我们(张江老师科研组)在NRI的基础上,提出了一种更轻便、效率更高、可用于大规模网络的网络重构方法(GGN):A general deep learning framework for network reconstruction and dynamics learningZhang Zhang, Yi Zhao, Jing Liu.et al.(2019)我们还可以将图结构学习的方法用于因果发现。例如,下面这篇文章就结合了图结构学习和普通的RNN网络,拓展了格兰杰因果检验(Granger Causality)的方法,取得了良好的效果。Neural Granger Causality for Nonlinear Time SeriesAlex Tank,Ian Covert,Nicholas Foti.et al.(2018)
另外,利用自注意力机制,我们也可以用于提炼动态的图结构。例如,下面这篇文章就将Transformer用到了各种具有动态交互图的复杂系统之中。Towards Automated Statistical Physics : Data-driven Modeling of Complex Systems with Deep LearningSeungwoong Ha,Hawoong Jeong(2020)
该模型能够通过分析学习得到的注意力,而获得每个 Agent 的互相作用半径。
著名图灵奖获得者,Bayes网提出者 Judea Pearl 对于因果推理的执着令人印象深刻。他在其著作《Why》中出了因果的三重阶梯:我们发现,尽管我们可以从数据中直接挖掘因果关系,但是按照 Pearl 的标准来看,前面讨论的所有模型都属于因果阶梯的第一层,也就是根据数据被动地获得知识。因此,我们重构出来的连边也极有可能是一种相关关系,而不是因果关系。 要想继续爬升,我们必须让算法走出实验室,来对真实世界进行干预,甚至进行反事实推理。那么,人工智能算法如何突破这些限制呢? 好在,我们完全可以给这类算法构建出一个虚拟的实验室,从而让算法干预虚拟世界中的物体,从而帮助自己提升对系统的理解。 例如,下面这篇最新的文章就是利用了这样一种思想,让算法通过选择干预哪一个物体才能更好地提升预测,从而成功攀爬到了因果阶梯的第二层:Towards Curiosity-Driven Learning of Physical DynamicsMichael John Lingelbach,Damian Mrowca,Nick Haber.et al.甚至有文章声称,可以利用深度学习方法攀爬第三层阶梯,尽管是否符合真正的反事实推理还需要进一步确认:Deep Structural Causal Models for Tractable Counterfactual InferenceNick Pawlowski, Daniel C. Castro, Ben GlckerarXiv(2020)
最后,当我们学习到了基本模型之后,还可以对系统实施控制。下面这篇文章就以模拟的智能交通系统为平台,讨论了自动学习以对系统动态控制。Flow: A Modular Learning Framework for Autonomy in TrafficCathy Wu,Aboudy Kreidieh,Kanaad Parvate.et al.arXiv(29)总结来看,复杂系统的自动建模已经取得了丰硕的成绩。相比于传统的人工模型,自动建模的优势在于: 当然相比于经典模型,它还处于刚起步的阶段,现在尚没有对如下问题进行充分讨论:
另外,这套方法虽然在准确度、通用性等方面取得了良好的进展,但是要想用于真实世界还有很长的路要走。 最后,之所以人工智能可以取得如此丰富的成绩,归根结底就在于可微分计算技术的大量应用。而未来在工程应用方面的一种可结合方向就是可微分的仿真平台。 例如,DeepMind就开发出了可微分的流体仿真平台,它可以通过训练而加速模拟速度,还可以自动对系统进行数据驱动式的建模。这也许是一个非常值得投资长期钻研的方向。Learning to Simulate Complex Physics with Graph NetworksAlvaro Sanchez-Gonzalez,Jonathan Godwin,Tobias Pfaff.et al.(2020)
我们相信,在深度学习技术的赋能之下,复杂系统研究的发展一定会再次升级。同时,二者的结合可能也会帮助我们解开这个世界更深层次的奥秘。
苇草智酷简介——
苇草智酷(全称:北京苇草智酷科技文化有限公司)是由长期从事互联网前沿思想、人文、科技和投资领域的专家所组成一个的思想者社群组织,其前身是已运营 5 年的互联网思想者社区—网络智酷。
苇草智酷秉承“让天下思想者连接起来”、“让思想流动起来”、“让思想直立行走”的主旨和愿景,在泛互联网思想领域中,立足全球视野,感知时代脉搏,聚焦思想前沿。
苇草智酷好文推荐:
张江:从复杂科学视角,追问生命是什么 | 【生命是什么?研讨会】
张江:从规模理论,看城市的生长、创新与奇点