查看原文
其他

前沿解读:人类流动的建模及其应用

张洪 集智俱乐部 2019-09-14

从人口普查数据而来的佛罗里达州通勤流

图源:论文原文


导语

个体和群体的流动是否都具有各自的规律?在Physics Reports最近的一篇综述文章,总结了个体流动、群体流动的各种模型,并对其在流行病传播、自动驾驶等领域的应用进行了阐释和展望。以下是对这篇综述的解读。


摘要:

如何对人类流动进行建模?


近年来,由于人类活动相关的地理定位数据激增,科学家开始能够定量研究个体和群体流动模式,并发展出模型从而捕捉和复制人类流动轨迹中的时空结构和规律。人类流动研究对于交通预测、城市规划和流行病模型等应用领域尤为重要。在本文中,作者回顾了主要的个体和群体流动性模型。



一、个体流动模型:

随机游走模型

 

 一般而言,随机游走被定义为由接连的离散随机步骤形成的路径。最简单的随机游走模型涉及在离散时间点的空间位移(spatial displacement)ΔXi。


如果=0对应于时间=0时个体的初始位置,那么N步后个体的位置是随机变量(公式1.1):


其中每个位移ΔXi是从概率分布f(Δx)中抽取的随机变量,并且假定每一次抽取在统计上相互独立。概率分布f(Δx)可以用来确定概率密度函数(PDF),P(x,t)表示在时间t处在位置x上的过程,代表了随机游走的性质和相关的空间和时间量度。随机游走的最基本形式是一维空间中的离散对称随机游走,其中以相等的概率ΔXi=±1。在这种情况下,经过时间t=N(其中N是步行者采取的步数)之后,随机变量的一阶和二阶矩分别是= 0和= N。


离散随机游走模型主要包括布朗运动和Lévy飞行。分析个体流动性模型时非常有趣的特征值是均方位移平方根 (square root of the mean squared displacement, RMSD) 随着时间的缩放,。它描述了随着时间的推移,个体移动的速度。MSD的缩放可以用来对随机游走的扩散运动(diffusive motion)类型进行分类。


对于任何空间维度,普通的布朗运动中MSD随时间呈现线性缩放。因此,平均而言,我们预计在时间t之后,个体和原点的距离与流逝时间的平方根成正比。


基于这种对于普通扩散的定义,如果随机游走的位移增长速率低于,那它被定义为亚扩散(sub-diffusive)。相反,如果位移增长速度快于,那么随机游走被归类为超扩散(super-diffusive)。 


1.1. 布朗运动 


布朗运动是一类随机游走,最初用于描述悬浮在流体中粒子的运动【1】。在数学上,一维布朗运动是在实数域中的随机游走,具有独立和正态分布的增量。其中在时间t之后观察到距离原点的位移幅度为X的概率为是服从高斯分布,其均值为零,方差与t成比例。布朗运动可以被定义为离散对称随机游走的极限情况。


让我们假设粒子可以采取步长,同时以相等的概率向左或向右移动,并且在时间t之后,粒子已经完成了N = tk个步数。对于一个给定的k,粒子在时刻t的位移(公式1.2):



当k取极值k→∞时布朗运动发生,这是中心极限定理(CLT)的结果。实际上当k很大的时候,的极值趋近于X(t),其PDF是(公式1.3):


其中和是随机游走位移的均值和方差。对于这种情况,一阶矩为零且,所以MSD是t,RMSD总是随着时间t的平方根缩放,,对应于上述的普通扩散情况。


1.2 Lévy飞行(Lévy Flight)


与布朗运动不同,不能使用中心极限定理来推导Lévy飞行。一个Lévy飞行由一系列小位移组成,偶尔出现一个非常大的位移。它被正式定义为独立同分布随机变量的总和,其中单个跳转的PDF由于长尾分布的形式具有发散的二阶矩(公式1.4):

其中,0<β<2。如果将步长为,k步之后的位移定义为,则将随机变量定义为重新定标的个独立随机变量的总和,这些随机变量的分布如公式(1.4)所示,那么(公式1.5):



重新调整的变量满足中心极限定理,即Lévy-Khintchine定理,该定理表明的PDF在N→∞时是所谓的α稳定(Lévy)分布。这些分布在实数域中没有真正的封闭形式;相反,特征函数可以在傅立叶空间中完成(Fourier space)。同时,对于这个特定的例子,尾部会显示与公式(1.4)相同的幂律行为。


通过(公式1.5)将变量从更改为,我们获得(公式1.6):




均方位移等于二阶矩(公式1.7):




因此,Lévy飞行的RMSD呈现超扩散属性:。


1.3 连续时间随机游走模型


到目前为止讨论的随机游走模型在时间上是离散的。在每个时间间隔中,跳转的发生是由相应的跳跃长度分布决定。连续时间随机游走(CTRW)也是一种随机游走,其中在时间间隔dt中进行的跳跃次数也是一个随机变量,跳跃之间流逝的时间(等待时间ΔT)也是一个随机变量。


如果跳跃长度的PDF是f(Δx)而等待时间的是φ(Δt),并且这些是独立的,则CTRW包括成对的随机和独立事件,其中ΔX和ΔT从联合PDF中抽取,P(Δx,Δt)=f(Δx)φ(Δt),其中表示在时间Δt之后出现长度Δx跳跃的概率。根据这个模型,经过N步,总计位移和总时间由下式给出(公式1.8):





这个过程的PDF,P(x,t)可以通过傅立叶—拉普拉斯变换得到(公式1.9):





其中和分别是φ(Δt)和f(Δx)的拉普拉斯和傅立叶变换。采取逆变换,我们得到了(公式1.10):



可以根据分布φ(Δt)和f(Δx)的渐近行为(asymptotic behavior)来分析P(x,t)的表达式。其中四种不同的模型取决于φ(Δt)和f(Δx)是否具有肥尾分布。


普通扩散:如果φ(Δt)的期望值和f(Δx)的方差都是有限的,即和,然后根据公式1.9和1.10,渐近地(公式1.11):



其中D是扩散常数。因此,具有定义良好的跳跃长度和等待时间分布的CTRW,渐近上(随着时间推移)相当于布朗运动。


Lévy飞行:如果,并且φ(Δt)具有有限方差,则该模型就是Lévy飞行。


该过程的PDF由下式给出(公式1.12):



其中是缩放(限制)函数。因此,如果跳跃长度的分布服从幂律以及等待时间的分布被良好地定义,,连续时间随机游走将遵循超扩散路径,相当于Lévy飞行。


分数布朗运动:相反,如果具有有限方差的跳跃长度与幂律分布的等待时间相结合,PDF是(公式1.13):



H是非高斯的限制函数。在这种情况下,等待时间的分布的效果是减慢随机游走。这里,,因此随机游走对于α<1是亚扩散的,而对于1<α<2是超扩散的。


模糊过程(ambivalent processes):当f(Δx)和φ(Δt)都是肥尾分布时,发生第四种变形。在这种情况下,,因此,扩散行为的性质完全由α和β指定。对于β<2α,CTRW是超扩散的;对于β>2α,它是亚扩散的。如果β=2α,则随机游走收敛于普通的扩散/布朗运动,尽管各自的分布有发散的矩。


图1提供了这些情况的示意图。总体而言,模糊过程模型最常用于描述个体的流动。对各种数据源(卫星定位系统GPS,手机设备记录CDR等)的分析发现,跳跃长度和等待时间的分布都显示了幂律行为。从经验数据估计的参数范围分别如下:0.42≤α≤0.8和0.31≤β≤0.75。





图1:文中定义的连续时间随机游走模型的不同(渐近)类型的示意图,作为等待时间和跳跃长度指数的函数0 <α<1并且0 <β<2。Lévy飞行,分数布朗运动以及普通扩散是广义模糊过程的极限情况。

图片来源:【2】


1.4 对于随机游走模型的

修订和发展


 个人行为存在自由意志以及任意性,导致流动模式具有一定的随机性。因此,最简化的个体流动性模型使用随机游走和布朗运动的概念和方法。但是,其他一些研究强调,个体运动轨迹远非随机的,而是具有高度的规律性和可预测性,我们可以利用这些规律来预测个人未来的去向并构建逼真的生成模型预测个体流动性。其中包括:(1) 由于人们在日常生活中倾向于频繁地回到一个或者某些地点,最新的研究提出偏好回程模型(preferential return)【3】;(2) 因为一个地点如果在前期先被发现,那么访问这个地点的频率会越来越高,从而形成了累积优势,因此近因效应模型(recency)【4】将地点的频率以及时间先后分别考虑在内。(3)基于社交网络的模型(social-based models)【5】,强调将个体社会网络成员的流动模式以及个体过去的流动历史纳入模型中,能够显著提高预测个体未来流动模式的准确性。与此同时,大量研究也通过个体流动的模式生成人们的社交网络。



二、群体流动模型

 

通过估计任意两个地点之间每单位时间内的平均旅客数量。群体流动性模型可以再现出发地—目的地矩阵(OD矩阵,Origin-Destination Matrices)(比如说城市每天的通勤数据)。OD矩阵可以通过交通调查、交通量或个人的地理定位等信息交流技术数据进行实证估算。

 

群体流动模型中主要存在两种思想流派。第一类是引力模型,其基本假设是两个地点之间的旅行次数是他们之间物理距离的递减函数;第二类是干预机会模型,假定干预机会的数量,也就是两个地点之间潜在目的地的数量,决定了两者之间的流动性。除了为人类流动建模提供数学框架,这些模型已成功应用于估算其他空间流量,包括货运量和基于城市间的通话记录估算社会互动。



2.1 引力模型


George K. Zipf于1946年提出了一个计算流动数量的公式【6】,该公式受牛顿引力定律影响。在他的工作中,Zipf强调了距离对于人类迁移模式的重要性,两个区域i和j之间的迁移流量的幅度Tij可以近似为(公式2.1):

其中分别是各地的人口数量,是i和j之间的距离。


这个模型的基本假设是离开区域i的流动次数与其人口成比例,区域j的吸引力与Pj成比例。最后,就流动的距离而言,存在成本效应。这些假设可以用下列公式概括(公式2.2):



其中K是常数,质量和与离开i或j吸引的行程数量相关,,称为“摩擦系数”是距离的递减函数。与模型的原始版本一样,人口流动量通常是地区人口的函数(不一定是线性的);文献中使用的常用函数形式是或【7】。然而,与原始版本不同,其他变量,例如人均GDP,可能会影响到质量【8、9】距离函数通常用幂律或指数形式建模,虽然可以考虑更复杂的函数,例如两者的组合(公式2.3):


实际上,函数的最佳形式可以根据行程的目的,地点的空间粒度以及交通的方式有所改变。

 

引力模型在交通规划领域、地理研究和空间经济学中得以广泛应用。它也被用于流行病传播模式的建模。但是引力模型只是流动模型的粗略简化,在许多情况下,它远远没有捕捉实际的状况。此外,因为该模型需要估计许多自由参数,所以它对数据的波动或不完整非常敏感。


2.2 有约束的引力模型


引力模型中明显的一些局限性可以通过某种约束来解决。例如,可以将源自位置i的人数固定为已知量,然后使用引力模型来估计到达目的地的人数,构成所谓的单约束引力模型(公式2.4):



在这个公式中,比例常数取决于出发点的位置及它与其他地方的距离。人们可以更进一步将到达目的地j的人口总数固定,形成双重约束引力模型。对于OD矩阵中的每一对,其流动数量由下列公式计算(公式2.5):

因此,现在有两种比例常数(公式2.6),



通常使用迭代比例拟合程序(Iterative Proportional Fitting Procedure)来校准。

 

单约束,双约束或非约束模型的使用取决于可用信息量和所追求的分析目标。如果目标是通过不同的地理区域间接的社会经济变量来近似流动的流量和运输需求,那么人们应该采用非约束模型。另一方面,如果流出或流入的数量是已经被经验测量的数据,而且目标是估计OD矩阵Tij的元素,那么人们应该使用约束模型。


2.3 干预机会模型 


Stouffer于1940年提出了干预机会模型的框架【10】,与社会科学的传统上认为距离是人类流动的核心因素不同,他认为距离和流动性没有直接关系。相反,在人口流动中发挥关键作用的是干预机会的数量或者原点和目的地之间的累积机会数量,也就是说在达成流动目标的过程中出发地与目的地之间可能获得的机会数量。


数学上来说,从原点位置i到第j个位置的流动数量根据行程成本排名可以表达为(公式2.7):



是源自位置i的行程总数,第二项表示其中一次行程会在位置j结束的概率。分母是一个归一化因子,确保概率总和为1。这个概率取决于,即按行程成本排名的从起始位置i到第j个位置的累计机会数量(n是所考虑区域中的位置总数)。通常,人口,或总到达人数,假定与位置j中的“真实机会”的数量成比例。参数L的值可以看作是接受一个机会目的地的恒定概率。在引力模型的情况下,可以通过调整L的值获得尽可能接近观测数据的模拟流动数量。


引力和干预机会模型在二十世纪下半叶被进行了多次比较,结果显示两种模型通常表现相当【11、12、13】。事实上,人们可以将干预机会模型作为引力模型的一个特殊变体,摩擦系数被两个地点之间机会数量的函数所取代,【14、15】。实际上,一些研究人员提出了混合引力机会模型,同时兼顾了位置之间的距离和机会数量的影响【16、17】。


2.4 辐射模型


辐射模型假设一个旅行者选择目的地包括两个步骤【18】。首先,他会为每个位置的每个机会分配一个适应度,由z表示,并且从某种分布p(z)中选择z的值,它代表旅行者的机会质量。第二,旅行者根据他们与出发地的距离对所有机会进行排名,并选择高于旅行者的适应度阈值的最适合的机会,适应度阈值是从适应度分布p(z)中提取的另一个随机数值(见图2)。因此,从位置i到位置j的平均旅行者数量采用以下形式表达(公式2.8):



起源于位置i到达目的地的行程数量是从一个行程始发于i并且在位置j结束的概率分布中进行采样。这个概率不仅取决于原点和目的地的机会数量和,还取决于以位置i为中心以rij为半径的圆圈的机会数量sij(不包括出发和目的地)。这个条件概率需要归一化,以便一个行程从感兴趣区域出发并且在该区域结束的概率等于1。




图2. 辐射模型示意图。(a)两对县之间的通勤流量,一个在犹他州(UT),另一个在阿拉巴马州(AL),它们的原点(m,蓝色)和目的地(n,绿色)的人口相似,并且有着相当的距离r(见左下表)。右上方呈现了实际观察到的,以及分别由引力模型和辐射模型所预测的流动人数。辐射模型的定义:(b) 个人(例如,住在纽约州萨拉托加县)申请所有县的工作,并收集潜在的就业机会。每个县就业机会数量的选择与常住人口成比例。每个县提供的吸引力由随机变量z来表示,该变量具有分布p(z),每个县的数字代表该地区的最佳的工作机会。对于每个县而言,如果最佳工作机会比家乡县的最佳工作机会更好(更低),每个县都标有绿色(红色)。(c)个人接受比他家乡更好福利的并且距离家乡最接近的工作。

资料来源:【18】。


对流动性的完整描述必须考虑到各种交通工具和转换期间的多模结构。近年来,在多层或多重网络的背景下,已经开发出用于这种分析的良好框架【19、20】。流动和交通运输网络中不同的层次可以对应于不同的运输模式(公路,地铁,航空公司),而层之间的连接构成这些模式之间的切换。



三、应用举例:

流行病传播

 


人类流动和交通运输系统研究中最重要的应用之一就是流行病蔓延。虽然流行病学作为一门学科有几百年的传统,但直到最近才有可能更为准确地模拟疾病的全球传播模式。在许多疾病的传播过程中,被感染地区的第一例病人往往都是通过航空运输系统出现。因此世界机场网络(WAN)被认为是疾病传播最可能的途径【21】(见图3)。




图3:在(a)中,从香港开始的流行病最短(最可能)的疾病传播途径。在(b)中,通过模拟得到流行病的香港传播的时间演变。代表和疾病起源的距离。在(c)中,模拟流行病到达时间和的函数关系。在(d)和(e)中,用2009年H1N1流感和2003年SARS爆发的数据进行了相同的分析。

资料来源:图片来自于【21】。

 

用于预测流行病传播的现实模型中,复合人口框架(metapopulations)(首先在生态学背景下引入)得到较为广泛的应用【22、23、24】。在这个模型中,感兴趣的人群被划分为子群体,其中子群体内部的接触是通过完全混合的平均场方法建模,而子群体之间的接触和潜在的感染则是通过(测量的)流动网络发生。最早的这种模型之一就是全球流行病和流动模型或GLEaM【25】。


GLEaM是一个全球模拟平台,以模拟全球范围内人口的流动为基础,从而计算流行病或者病毒的传播情况。人口流动在两个层级上被模拟:远程空中运输,主要通过世界机场网络来校准;而短程的流动性要么从人口普查的通勤数据或使用引力定律来估计。较新版本的此类模型会考虑人类行为的影响,例如人们在意识到存在危险疾病时限制接触和旅行的倾向【26】,以及人口的异质性(年龄,性别,社会经济指标)以及它对旅行模式的影响【27】。



四、未来展望:人类流动模型

帮助迎接自动驾驶时代来临



在这篇综述中,作者介绍和讨论了人类流动领域的相关模型和应用。对于人类流动的理解和建模对于社会的许多领域都是至关重要的。在不久的将来,人类流动研究中的一个有趣的前沿方向可能会涉及从传统车辆转变成为自动驾驶车辆。自动驾驶汽车的扩散将会带来私人和公共交通的变革,同时也会对社会、经济和环境产生广泛影响。这些转变究竟会如何发生?为了应对这些新技术,人类流动习惯会如何变化?如何管理这些车辆?我们又将如何设计交通路线以优化燃料和时间消耗,从而减少交通拥堵和污染?对于这些重要问题的答案,将会来自对个体和集体层面的人类流动行为更为全面的理解。


参考文献


[1]A. Einstein, Über die von der molekularkinetischen Theorie der Wärme geforderte Bewegung von in ruhenden Flüssigkeiten suspendierten Teilchen (On the movement of small particles suspended in a stationary liquid demanded by the molecular-kinetic theory of heat), Annal. Phys. 17 (1905) 549–560.

[2]D. Brockmann, L. Hufnagel, T. Geisel, The scaling laws of human travel, Nature 439 (7075) (2006) 462–465。

[3]C. Song, T. Koren, P. Wang, A.-L. Barabási, Modelling the scaling properties of human mobility, Nat. Phys. 6 (10) (2010) 818–823.

[4]H. Barbosa, F.B. de Lima-Neto, A. Evsukoff, R. Menezes, The effect of recency to human mobility, EPJ Data Sci. 4 (1) (2015) 1–14.

[5]M. De Domenico, A. Lima, M. Musolesi, Interdependence and predictability of human mobility and social interactions, Pervasive Mob. Comput. 9 (6) (2013) 798–807.

[6]G.K. Zipf, The P1 P2/D hypothesis: On the intercity movement of persons, Amer. Sociol. Rev. 11 (6) (1946) 677–686.

[7]J. de Dios Ortúzar, L. Willumsen, Modeling Transport, John Wiley and Sons Ltd, New York, 2011.

[8]P. McCullagh, J.A. Nelder, Generalized Linear Models, in: Monograph on Statistics and Applied Probability, Vol. 37, Chapman and Hall, London, UK,1989.

[9]X. Li, H. Tian, D. Lai, Z. Zhang, Validation of the gravity model in predicting the global spread of influenza, Int. J. Environ. Res. Publ. Health 8 (2011)3134–3143.

[10]S.A. Stouffer, Intervening opportunities: A theory relating mobility and distance, Amer. Sociol. Rev. 5 (6) (1940) 845–867.

[11]D.K. Witheford, Comparison of Trip Distribution by Opportunity Model and Gravity Model, Pittsburgh Area Transportation Study, 1961.

[12]C.E. Pyers, Evaluation of intervening opportunities trip distribution models, Highway Res. Record 114 (114) (1966) 71–88.

[13]H.C. Lawson, J.A. Dearinger, A comparison of four work trip distribution models, Proc. Amer. Soc. Civil Eng. 93 (1967) 1–25.

[14]F. Zhao, L.-F. Chow, M.-T. Li, A. Gan, S.D.L., Refinement of FSUTMS trip distribution methodology, in: Technical Memorandum 3, Florida InternationalUniversity, 2001.

[15]R. Eash, Development of a doubly constrained intervening opportunities model for trip distribution, Chicago Area Transportation Study (84) (1984).

[16]M.J. Wills, A flexible gravity-opportunities model for trip distribution, Transp. Res. 20B (1986) 89–111.

[17]M.B. Gonçalves, I. Ulyssea-Neto, The development of a new gravity-opportunity model for trip distribution, Environ. Plan. A 25 (1993) 817–826.

[18]F. Simini, M.C. González, A. Maritan, A.-L. Barabási, A universal model for mobility and migration patterns, Nature 484 (7392) (2012) 96–100.

[19]S. Boccaletti, G. Bianconi, R. Criado, C.I. Del Genio, J. Gómez-Gardenes, M. Romance, I. Sendina-Nadal, Z. Wang, M. Zanin, The structure and dynamics of multilayer networks, Phys. Rep. 544 (2014) 1–122.

[20]M. Kivelä, A. Arenas, M. Barthelemy, J.P. Gleeson, Y. Moreno, M.A. Porter, Multilayer networks, J. Complex Netw. 2 (2014) 203.

[21]D. Brockmann, D. Helbing, The hidden geometry of complex, network-driven contagion phenomena, Science 342 (2013) 1337–1342.

[22]L.A. Rvachev, I.M. Longini, A mathematical model for the global spread of influenza, Math. Biosci. 75 (1) (1985) 3–22.

[23]L. Sattenspiel, K. Dietz, A structured epidemic model incorporating geographic mobility among regions, Math. Biosci. 128 (1995) 71–91.

[24]V. Colizza, A. Vespignani, Invasion threshold in Heterogeneous Metapopulation Networks, Phys. Rev. Lett. 99 (2007) 148701.

[25]D. Balcan, H. Hu, B. Goncalves, P. Bajardi, C. Poletto, J.J. Ramasco, D. Paolotti, N. Perra, M. Tizzoni, V. Colizza, et al., Seasonal transmission potential and activity peaks of the new influenza A (H1N1): A Monte Carlo likelihood analysis based on human mobility, BMC Med. 7 (1) (2009) 1.

[26]S. Meloni, N. Perra, A. Arenas, S. Gómez, Y. Moreno, A. Vespignani, Modeling human mobility responses to the large-scale spreading of infectious diseases, Sci. Rep. 1 (2011) 62.

[27]A. Apolloni, C. Poletto, J.J. Ramasco, P. Jensen, V. Colizza, Metapopulation epidemic models with heterogeneous mixing and travel behaviour, Theoret. Biol. Med. Modell. 11 (2014) 3.



作者:张洪

编辑:李沛欣

论文地址:

www.sciencedirect.com/science/article/pii/s037015731830022x

论文题目:Human mobility: Models and applications




线上直播预告


2018北京师范大学复杂系统夏令营名师讲座


(点击图片查看直播详情)


集智AI学园将对夏令营讲座独家全程直播!


更多互动交流,请扫码入群


推荐阅读


Nature通讯近三年复杂性科学论文综述

小世界网络、偏好依附机制、跨学科研究

最小车队问题与“乌托邦”交通系统 | 张江

社会传染动力学:阈值模型及其扩展

加入集智,一起复杂!集智俱乐部团队招新啦!




集智QQ群|292641157
商务合作及投稿转载|swarma@swarma.org

◆ ◆ ◆

搜索公众号:集智俱乐部


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存