编委佳作 |基于幂律的美国新冠肺炎病例绘图方法(全文翻译)
前言
2020年1月以来,新型冠状病毒在世界范围内迅速传播。对于新型冠状病毒在不同时空尺度上的传播机制,许多科学家都做了研究。
GSIS(Geo-Spatial Information Science,地球空间信息科学学报)编委,瑞典耶夫勒大学江斌教授对照人口分布分析了2020年1月至6月美国新冠肺炎病例的时空分布。相关成果以A power-law-based approach to mapping COVID-19 cases in the United States为题,发表在GSIS上。
研究发现,随着时间推移,与人口分布相似,新冠肺炎病例分布呈现出一个具有截止值的幂律规律。幂律分布意味着:在大部分的州县,病例数量较少;少数人口稠密的州和县,病例数量很多。
为了进一步区分人口分布和新冠肺炎病例分布之间的模式,该研究用ht指数来分析推导出它们的固有层次或空间异质性。实验发现,新冠肺炎病例的ht指数与人口分布的ht指数非常接近,在“州”一级上值为5,“县”一级上值为7。
将新冠肺炎病例的ht指数与人口分布的ht指数进行对比表明:新冠病毒大流行在很大程度上是由人群分布决定的,感染情况和人群分布之间的R平方值高达0.82。
该研究成果被瑞典 Gävle大学在网站主页进行了新闻报道:
https://hig.se/Ext/En/University-of-Gavle/Arkiv/Externa-nyheter/2021-04-19-Professor-We-have-discovered-the-secret-behind-the-spread-of-COVID-19-in-the-United-States.html
该论文也成为Coordinates的封面文章:
Coorinates本期链接:http://mycoordinates.org/pdf/feb21.pdf
成果还收录在由萧世伦和隋殿志编著,由Springer出版的专著中:
Reprinted in Shaw S. L. and Sui D. (2021, editors), Mapping COVID-19 in Space and Time: Understanding the spatial and temporal dynamics of a global pandemic, Springer: Berlin
专著链接:
https://www.springer.com/gp/book/9783030728076#aboutAuthors
扫描下方二维码可阅读该论文全文
扫码查看原文
Bin Jiang & Chris de Rijke (2021):A power-law-based approach to mapping COVID-19 cases in the United States, Geo-spatial Information Science,
DOI:10.1080/10095020.2020.1871306.
前沿观点
“已有的研究使用传统的地理信息系统和制图方法研究新冠肺炎病例的空间分布,如热点分析和时间序列分析。这些方法大多基于高斯统计……其中一个常见问题是产生的空间模式对人类的主观设置很敏感。
而本文采用基于帕累托统计的幂律方法来研究美国新冠肺炎病例的时空分布。
Many previous studies have already examined the spatial distribution of COVID-19 cases using conventional geographic information systems (GIS) and mapping methods such as hotspot and time series analyses (ESRI 2020).
These methods are developed essentially under Gaussian statistics (Jiang 2015) with the assumption that data vary around a characteristic mean.
A common problem of these methods is that the resulting spatial patterns are sensitive to human subjective decisions like parameter settings.
In contrast, we adopt a power-law-based approach under Paretian statistics for examining spatial and temporal distribution of COVID-19 cases in the United States.
“从图2中可以清楚地看出,幂律分布具有不同的指数。不同的幂律指数表明不同程度的异质性或层次性;指数越高,数据越不均匀。
在这方面,ht指数是比幂指数更好的指标,因为它更好地反映了内在的层次。
It is clear from Figure 2 that the power-law distributions have different exponents.
The different power-law exponents indicate the different degree of heterogeneity or hierarchy;
that is, the higher the exponents, the more heterogeneous the data.
In this connection, the ht-index is a better indicator than the power exponent as it better reflects the inherent hierarchy.
“当一个复杂系统变得成熟或发达时,幂律是一种理想主义状态(Jiang and Yin 2014)。
在理想化状态之前,系统可能会表现出与幂律的一些偏差,从而出现对数正态分布或指数截止幂律分布。
在这方面,最好使用ht指数来描述系统的动态过程或演化。
a power law is an idealist status, when a complex system becomes mature or well-developed (Jiang and Yin 2014). Before the idealized status, the system is likely to show some deviation from a power law, thus a less-power-law distribution such as lognormal or a power law with an exponential cutoff.
In this regard, it is better to use the ht-index to characterize the dynamic process or evolution of the system.
*********************以下为全文翻译*********************
1 引言
2020年1月以来,新型冠状病毒在世界范围内迅速传播。在撰写本文时,全球已有超过3420万人被感染,超过100万人死亡,这种情况仍在持续。
目前,许多科学家(如地理学家、制图员和流行病学家)致力于研究新型冠状病毒在不同时空尺度上的传播机制。
已有的研究使用传统的地理信息系统和制图方法研究新冠肺炎病例的空间分布,如热点分析和时间序列分析。这些方法大多基于高斯统计,假设数据围绕一个特征平均值变化(例如,1.75米作为人类身高的特征平均值)。
这些方法的一个常见问题是产生的空间模式对人类的主观设置很敏感。例如参数设置中,“类别总数”和“类间隔”的值都要人为主观设置。
而本文采用基于帕累托统计的幂律方法来研究美国新冠肺炎病例的时空分布。
具体地,本文研究了美国所有新冠肺炎病例在多个尺度上的时空分布:
在空间上有州和县两个尺度;
在时间上有每月、每周、每天三个尺度。
研究发现,虽然“感染病例”和“死亡病例”有一些波动,但整体而言,“人口分布”、“感染病例”和“死亡病例”都呈现出幂律分布(y=kx^(-a)+m; a是幂律指数,k、m为常数)。幂律分布表明,这三个研究变量都具有内在的层次性或空间异质性。
为了推导出这个层次结构,我们在州、县的尺度上使用了头/尾断点法计算这三个研究变量的ht指标,用以指示层次级别。通过计算层次级别,为各州和县相对于其人口的流行病发展提供了新的见解。例如,新冠病毒在很大程度上是由人口分布决定的,“感染病例”和“人口分布”之间的R平方值高达0.82。
基于幂律的方法使我们能够发现传统方法无法发现的时空模式。同时该方法也对幂律的相关研究具有深远的影响。也就是说从动态的角度来看,当一个复杂系统经过充分发展时,通常会呈现出幂律分布规律。在发展不够成熟的阶段时,可能会表现出其他较低等级的幂律分布,如对数正态分布和指数分布。
举例来说,一棵树作为一个复杂的生物系统,它的树干、树枝和树叶都表现出幂律分布:因为树叶比树枝多得多,树枝比树干多得多。然而,在种子萌发阶段,树不太可能呈现出幂律分布规律。我们将在结论之前进一步讨论这一含义。
本文其余部分的结构如下:
第2节介绍了数据来源,数据最初是由约翰·霍普金斯大学所收集。通过一个简单的示例介绍了头尾断裂法。幂律检测作为是最稳健的统计测试,是建立在最大似然法的基础之上。
第3节介绍了我们结果和讨论,我们将研究结果制作成了动画地图,网址为:
“http://lifegis.hig.se/COVID19/”
第4节强调了前文简要提到的一些概念。
第5节对本次研究进行总结,并指出了未来研究方向。
2 数据来源与方法
2020年1月至6月,美国已有300多万人感染新冠肺炎,20.8万人死亡。约翰霍普金斯大学(2020)收集了这些数据,并将其发布在GitHub网站上。我们将这一数据与州、县两级的人口数量进行比较。
一般来说,“感染病例”和“死亡病例”与当地“人口数量”高度相关。类似于美国人口分布 “感染病例”和“死亡病例”高度集中在少数人口较为稠密的州和县。
在这项研究中,我们将新冠肺炎病例与人口基本分布进行比较,以便从多时空尺度上对新冠肺炎大流行的时空模式提出新的见解。像所有国家一样,美国的人口分布并不均匀,在少数城市、州、县人口高度集中,呈现出所谓的固有等级或空间异质性。
Zipf定律指出,在城市层面,人口空间分布通常以幂律分布为特征。
(Zipf, G. K. 1949. Human Behavior and the Principles of Least Effort. Cambridge, MA: Addison Wesley.)
就人口数量而言,第一大城市是第二大城市的两倍,是第三大城市的三倍,以此类推。在县一级,20%的县容纳了80%的人口(所谓的“80/20原则”,这一规律归功于意大利经济学家维尔弗雷多·帕累托)。
Zipf定律和“80/20原则” (或一般的幂定律)的背后是内在的层次性或空间异质性,这一特性可以通过头/尾断点分层法来说明。
头/尾断点分层法是一个递归函数,可用于计算具有重尾分布数据的固有层次。衍生的层次或类别可以用ht指数来反映空间异质性。
与传统的分类方法不同,传统的分类方法是主观确定类别总数或类别间隔,而头尾断裂采用群体思维的智慧,通过这种方法,类别总数或类别间隔都是客观上由数据确定的;换句话说,数据即一切。头/尾断点分层法是一个递归函数,部分数据集被设定为“头的头的头”等,所有的尾和最后一个头构成了派生类或固有的层次级别。
为了进一步说明递归函数,让我们用10个数字的简单例子来说明(1,1/2,1/ 3,……1/10)。
这10个数字的平均值为0.29,这可以将这10个数字分为两组:大于平均值(1,1/2,1/3)的称为“头部”,小于平均值(1/4,1/5,1/6,……1/10)叫做“尾部”。
对于“头部”(1,1/2,1/3)来说,平均值为0.61,这进一步将三者分为两组:大于平均值的数称为“头部”(1),小于平均值的数(1/2,1/3)称为“尾部”。迭代了两次,因此ht指数为3,表明该数据集中存在三个内在层次。
图1.用10个数字举例的头部/尾部断裂分类说明
(注:10个数字[1,1/2,1/3,··· ,1/10]分为三类:[1/4,1/5,··· ,1/10],[1/2,1/3]和[1],有三个固有的层次结构)
在本文研究中,我们使用稳健的最大似然法研究幂律分布。在不同时空尺度上,我们计算出美国新冠肺炎病例的ht指数,并将其与人口进行比较。这一比较为新冠肺炎流行性分布的时空模式提供了新的发现。
在讨论结果之前,我们想明确指出幂律的指数a是数据异质性的良好指标:指数越高,说明数据分布越不均匀。比如y=x^(-2)和y=x^(-3),指数为3的数据集比指数为2的数据集更加异构。在我们的整个研究中,我们将表明ht指数是比幂律指数更好的一个表征数据异质性的指标。
3 结果与讨论
美国人口分布在州和县两级上都类似于幂律分布,如图2所示。但严格来说,它们是具有指数截止值的幂律。这和“感染病例”和“死亡病例”的规律是一致的。
在3月或4月初之前,“感染病例”和“死亡病例”都呈现出不太强烈的幂律分布,而在4月之后,分布呈现明显的具有截止值的幂律分布。
举例来说,表1用数据说明了县一级的“死亡病例”是如何呈现出幂律分布或具有截止值的幂律分布。
图2.感染(蓝色)、死亡(红色)和人口(灰色)的幂律
(注:在州一级(a,b),由于面积单位大,带截断的幂律不那么引人注目,而在县一级(c,d),由于面积单位小,带截断的幂律非常引人注目。人口层次结构在(e)州和(f)县两级进行了映射,表明人口较少的州远远多于人口充足的州,或者人口较少的县远远多于人口充足的县。有趣的是,小得多的概念在州和县两级分别出现了四次和六次,因此ht指数分别为5和7,这表明了固有的层次结构。所有五个级别都显示在面板(e)中,而只有为了清晰起见,面板(f)中显示了前四个级别。)
LR值可以用于确定数据是呈现为幂律或具有截止值的幂律,还是其他诸如对数正态分布、指数分布等其他的分布方式。
一般来说,LR值为正,数据倾向于幂律拟合,LR值为负则倾向于其他拟合方式。另外如果LR值的数据波动相对较小,说明该值是可信的。
因此有另一个参数p值,该值被定义为LR在统计学上的可信度;如果p < 0.1,那么LR是可信的。在州一级,由于p值过高,LR没有统计意义,因此我们不能确定是哪一种分布模式。这可能是由于样本量小(n = 51)引起的。
在具有大样本的县级(n = 3262),大多数情况下对数正态分布的拟合程度比幂律分布更好。然而带截止值的幂律分布的可能性甚至大于对数正态分布。因此带截止值的幂律分布其他分布模式可能性更大。
表1.适度幂律或具有截止值的幂律与其他方案的对比
(注:LR =似然比,PL =幂律,p = p值)
图2中的对数图表明,“感染病例”和“死亡病例”的总体空间分布在很大程度上是由“人口”决定的。
也就是说,人口稠密的州、县往往有更多的感染或死亡病例。这一结论不出意料,因为人口越多,感染或死亡的可能性就越大。
基于给定人口的幂律分布,应用头/尾断点法,我们分别在州和县两级计算出ht指数为5和7。人口自动分为5类和7类,如图2(e,f)所示。
州和县两级的这两种人口模式很好地反映了新冠肺炎病例的模式。西海岸和东海岸的州和县的新冠肺炎病例数往往高于内陆,这将在后文中进行论证。
州和县两级的这两种人口模式构成了基本模式,新冠肺炎病例情况可以与之进行对比,以便从时空模式的角度对这一流行病形成新的见解。
从图2中可以清楚地看出,幂律分布具有不同的指数。不同的幂律指数表明不同程度的异质性或层次性;指数越高,数据越不均匀。在这方面,ht指数是比幂指数更好的指标,因为它更好地反映了内在的层次。
图3.COVID-19病例与人群之间的关系
(注:州(a)和县(b)的人口ht指数分别为5和7,尽管有一些轻微波动,但感染和死亡的ht指数从轻度变为野生状态。在州(c)和县(d)的水平上,感染与人口之间的相关性以及死亡与人口之间的相关性。)
如图3(a,b)所示,“感染病例”和“死亡病例”的ht指数均随着人群的ht指数的增加而增加。人口的ht指数保持不变(州一级为5,县一级为7)不足为奇,这表明县一级的人口比州一级的人口更具异质性(图3(a,b))。而这是因为大面积州的人口比小面积县的人口更趋于同质化。
根据这一逻辑,城市小区域单位的人口比县的大区域单位的人口更趋向于异质性。这与事实,与纽曼的研究结论都相一致。
有趣的是,“感染病例”和“死亡病例”在开始时ht指数非常低(0或1),然后迅速增加到5和7,虽然在病毒扩散的过程中有一些波动。这意味着封锁政策或社交距离措施在遏制和抗击病毒传播方面肯定是有效的;否则,情况将比现在的情况更糟糕。
结果显示,新冠肺炎病例在很大程度上是由人口基本分布决定的,这体现在“感染病例”与“人口”之间以及“死亡病例”与“人口”之间的相关系数不断增加(图3(c,d))。
换句话说,图2(e,f)中显示的两种模式很大程度上反映了“感染病例”和“死亡病例”的模式;也就是说,人口稠密的州和县往往有更多的新冠肺炎病例。
如上所述,州和国家两级的“感染病例”和“死亡病例”的ht指数一直接近于“人口”的ht指数,“感染病例”与“人口”之间以及“死亡病例”与“人口数量”之间的相关性也随着时间的推移而增加(图3)。
另一方面,这三个变量(“人口”“感染病例”和“死亡病例”)的层次分布提供了一个关于大流行的更复杂和有趣的事实(图4)。
通过检查单个州和县的三个变量(“人口”“感染病例”和“死亡病例”)的ht指数,我们可以看到相对于总人口而言,大流行如何不同地影响单个州和县。
例如,较大的红色圆圈表示纽约及其附近各州受到的冲击最大,而较大的灰色圆圈表示加利福尼亚州和得克萨斯州受到的影响要小得多(图4(d))。
重要的是从动态的角度评估这一最新情况是如何演变的。比如1月和2月的情况很温和;只有五个州的感染率相对较高,其中华盛顿州的感染率最高。这种情况在3月份尤为明显,感染率突然飚增,出现了六个红色圆圈较大的州,表明“死亡病例”的层次水平大于“人口”和“感染病例”的层次水平,这是一个危险的信号。从3月到4月、5月到6月情况变得更糟,只有少数例外。
这些是从国家层面发现的一些结论。类似的规律,在县级尺度上也有印证,读者可以参考图4注释中提到的动画地图。
图4.与人群相比,COVID-19病例的层次结构
(注:每个州都有三个圆圈:灰色代表人口,蓝色代表感染,红色代表死亡。面板(a)-(f)分别显示了1月,2月,3月,4月,5月和6月的州级状态。有关县级请参阅以下动画地图:http://lifegis.hig.se/COVID19/。)
4 启示
许多自然和社会现象的分布在很大范围内遵循幂律,这已经在各种科学领域得到广泛研究,如物理学、生物学、经济学、地理学、人口学和社会科学等。
围绕幂律及其变体函数(如对数正态分布和指数分布),越来越多的研究工作专注于研究是真实世界里数据的分布模式。本文的第一作者提出过一个观点:
当一个复杂系统变得成熟或发展良好时,
幂律是一种理想主义状态。
在发展为理想化状态之前,系统很可能表现出对幂律的某种偏离,从而出现对数正态或具有截止值的指数幂律分布。
因此,最好使用ht指数来表征系统的动态过程或演化。本研究证明,从动态的角度来看,ht指数是一个很好的指标,它显然比幂律指数更好地反映了复杂系统的内在层次性或异质性。
5 结论
在本文中,我们发现美国的新冠肺炎病例随着时间的推移已经从一个异质性较低的州发展到一个异质性较高的州,或者相当于从一个非常平坦的层级发展到一个非常陡峭的层级,持续接近“人口分布”的状况。因此,
新冠肺炎在时空模式在很大程度上是由人口模式决定的,即人口稠密的州或县往往会有更多的人受到影响或死亡。
虽然这个发现看起来很明显,但是在这个总体趋势上的偏离程度有助于我们看到局部尺度上的新冠肺炎模式的特殊性。
一方面,尽管实施了城市封锁和保持社会距离等措施,但新冠肺炎病例的空间分布持续接近幂律截止值,这表明新冠肺炎病例的分布存在巨大的空间异质性。
另一方面,观察到新冠肺炎病例的ht指数没有超过人口的ht指数,这意味着封锁和社会距离措施确实有一些影响;否则,局势将变得比现在更加糟糕。
基于幂律的方法使我们能够揭示这些有趣的新冠肺炎病例时空模式,从而开辟了一种绘制地理现象的新方法。我们未来也将继续朝着这个方向研究。
Bin Jiang,Chris de Rijke
作者简介
Bin Jiang
瑞典耶夫勒大学工程与可持续发展学院(GIScience部门)的计算地理学教授。
研究兴趣集中在城市结构和动力学的地理空间分析(例如拓扑分析)以及建筑物、街道和城市或一般地理空间大数据的缩放层次结构上的应用。
在克里斯托弗·亚历山大(Christopher Alexander)的工作启发下,他开发了一个美丽的数学模型-美丽测量仪,该模型不仅可以解释结构为何美丽,而且还可以解释结构的美丽程度。
Chris de Rijke
瑞典耶夫勒大学工程与可持续发展学院(GIScience部门)的研究助理。
拥有地球科学和经济学的学士和硕士学位,最近又获得了GIS的硕士学位。
他一直在研究生活结构和拓扑分析,这些研究使用大数据(例如OpenStreetMap数据,夜间图像和社交媒体数据)在自然城市和自然街道的新颖概念的支持下进行。
致谢
我们要感谢审稿专家的宝贵意见,并感谢亚伦·克劳塞特(Aaron Clauset)博士的深入讨论。
扫码查看原文
Bin Jiang & Chris de Rijke (2021):A power-law-based approach to mapping COVID-19 cases in the United States, Geo-spatial Information Science,
DOI:10.1080/10095020.2020.1871306.
翻译:金榕榕 王威 | 编辑:王晓醉 | 审核:张淑娟