查看原文
其他

经济地理与新冠状病毒疫情的关系系列之“人口篇”

刘德寰 刘德寰 2022-12-15

德寰:北京大学新媒体研究院教授


在上篇文章中,我们探讨了影响疫情分析的一个关键要素:纬度(强相关)。之所以将这个地理变量纳入分析主要是因为历史上的大流感和03年的萨斯多发于温带区域,但是从现在的病毒传播研究成果看,病毒传播本质上与纬度(气温)本身没有明显的关系,可能的解释因素可能是人口分布、经济发展水平导致的社会流动、检测能力等,也可能是热带通风状态好,病毒不易存留等真实因素,因此纬度很有可能是一个表象,不是原因。


因此,本篇我们探讨另外一个与病毒传播有密切关系的因素:人口。所有与人口相关的统计变量大家会直观想到人口密度,因为病毒传播与社交距离有密切关系,因此人们会直观想象人口密度可以解释疫情分布结果。当然与之相类似的变量还包括城市人口占比100万以上人口的城市在所在国人口中的比例,因此我们将这三个变量单独分析,找寻可能解释疫情分布的形成逻辑。当然疫情分布的影响因素绝对不可能是单一变量(我们最后会统一建模,分析各种因素的替代与整合关系),但每一个单独影响因素会有利于细化我们的分析的模型与思路。

一、人口密度与疫情分布的关系

谈到人口密度与疫情分布的关系,我们的脑海里想到的是人头攒动的大都市:纽约、巴黎、伦敦、莫斯科、伊斯坦布尔、北京、上海、武汉、墨西哥城、雅加达、马尼拉、香港等,所有这些地方给我们的感受都是人口稠密和疫情形势严峻。

但是,如果放置到统计分析中,以国家为核心分析单位进行分析时,我们发现人口密度这个变量在大多数情况下会由于国土面积大,而直接将疫情分布的规律淡化,比如加拿大,人口密度仅为3.71人/平方公里,而疫情形势严峻,每十万人确诊病例数达到73,反过来的案例更多,比如孟加拉和马尔代夫,人口密度分别为1143人/平方公里、1466人/平方公里,每十万人确诊病例数却只有0.75和4.77。正是由于分析单位以国家为主体,使得人口密度与疫情分布的关系的分析难度加大。通过模型分析也呈现出这个特点。

表一:人口密度与疫情严重程度的关系的回归分析(208个国家或者地区)

(点击图片查看大图)

*因变量:每十万人确诊病例数的自然对数,

R平方(解释力):0.062,R:0.249


通过简单的一元一次回归,我们得到的基本结论是:

以国家为单位进行分析时,单纯用人口密度进行分析,解释力有限,相关程度属于中等水平,有关但是关联程度不强。

那么这个变量真的没有意义吗?不是,在人口密度较高地区,比如欧洲发达地区、太平洋和加勒比岛国等地都有较强的解释力,但是对国土面积大,人口主要集中在大城市的国家,大量的土地不适合或者居住人口极少的国家,如俄罗斯、加拿大、瑞典、沙特阿拉伯等国的解释力较弱,同时对南亚、东南亚、非洲等热带国家(人多,确诊人数较少)解释力也较弱。

二、城市人口占比与疫情分布的关系

既然疫情分布用人口密度进行分析时遇到各种问题,我们引入人口聚集的总体性指标城市人口占比来解释疫情分布规律就显得极为重要。

表二:城市人口占比与疫情严重程度的关系的回归分析(194个国家或者地区)

(点击图片查看大图)

*因变量:每十万人确诊病例数的自然对数,

R平方(解释力):0.348,R:0.590


通过简单的一元一次回归,我们得到的基本结论是:

以国家为单位进行分析时,单纯用城市人口占比进行分析,解释力较强,相关程度属于强相关。在完整模型建构时,这个变量会是重要的影响因素之一。

但是,每个影响因素都有自身的弱点,城市人口占比这个变量虽然在对各个国家的疫情分析时有较强的解释力,但是对国家内部的疫情分析却很难得到充足的解释能力,比如:美国前十大城市的疫情分布差异和韩国八大城市的疫情分布差异都说明了这个指标的缺陷。美国属于疫情严重且较平均的国家,但是十大城市中,纽约和匹兹堡之间相差18倍,而像韩国这种疫情分布差异极大的国家,大邱和光州之间相差更是146倍之多。

表三:美国前十大城市疫情严重程度表

(点击图片查看大图)


表四:韩国八大城市疫情严重程度表

(点击图片查看大图)


三、100万以上人口的城市在所在国人口中的比例与疫情分布的关系


既然城市人口占比这个变量解释疫情分布时有较大缺陷,我们引入100万以上的城市人口在所在国人口中的比例这个变量来进行简单的双变量分析,得到的结论是:

以国家为单位进行分析时,单纯用100万以上的城市人口在所在国人口中的比例这个变量进行分析,解释力也较强,相关程度也属于强相关。

说明这个变量对于理解某些国家具有较强的解释力,比如中心城市疫情十分严重,其他地区情况相对一般的国家,比如:俄罗斯与莫斯科、马来西亚与吉隆坡、印尼与雅加达、土耳其与伊斯坦布尔、菲律宾与马尼拉、爱尔兰与都柏林、西班牙与马德里、意大利与米兰、英国与伦敦、加拿大与魁北克、墨西哥与墨西哥城、比利时与布鲁塞尔、乌兹别克斯坦与塔什干市、哈萨克斯坦与阿拉木图市、波兰与华沙、乌克兰与基辅、芬兰与赫尔辛基、喀麦隆与雅温得、泰国与曼谷、巴基斯坦与拉合尔、阿根廷与布宜诺斯艾利斯、保加利亚与索菲亚、巴西与圣保罗、哥伦比亚与圣菲波哥大、智利与圣地亚哥、巴拿马与巴拿马城、瑞典与斯德哥尔摩等等。

但是这个变量的弱点也非常强,人口较少的国家无法纳入分析,同时最大城市人口没有达到100万,但是聚集性也非常强的城市无法纳入分析,比如:斯洛伐克与布拉迪斯拉发、玻利维亚与拉巴斯等。

因此,这是一个在分析疫情细节时极其重要的因素,但是全球总体分析由于缺失值多,会忽略人口少的城市聚集影响的疫情分布。

表五:100万以上的城市人口占比与疫情严重程度的关系的回归分析(118个国家或者地区)

(点击图片查看大图)

*因变量:每十万人确诊病例数的自然对数,

R平方(解释力):0.192,R:0.438


那么将以上三个变量合成在一起分析会不会效果好一些,结论:没有特别的改善和新发现(由于多重共线性等原因),我们会在所有因素聚合在一起之后的分析中再探讨。

本篇开始,有些数据得到北京大学新媒体研究院的博士、硕士和一些非北大学生的志愿者的支持,他们收集了大量的各国疫情的细致资料,在未来的分析中会逐渐展现出来,他们总共有17人。特此感谢!


♥推荐阅读:


经济地理与新冠状病毒疫情的关系系列之“纬度篇”


疫情“二次爆发”与“佛系抗疫”


世界各地疫情严重程度超乎想象,全球进入疫情控制艰难时期 ——全球疫情细致盘点


当前,全球有14个“疫区”国家 ——全球疫情细致盘点(中)


全球疫情发病率最高的国家:不是中国 ——全球疫情细致盘点(上)


全球疫情最严重地区速递2020年2月29日


全球范围内,疫情会扩大到何种程度?—— 被忽视的疫情统计数字之九


当前,中国疫情的基本判断——被忽视的疫情统计数字之八


笼统说疫情“12连降”这种说法的危害性——被忽视的疫情统计数字之七


“病毒检测”和“临床诊断”:武汉新冠肺炎病例暴涨的背后——被忽视的疫情统计数字之六


中国哪些城市的疫情在逆势增长?为什么湖北的城市需要全国支援?—— 被忽视的疫情统计数字之五


“疫情”详解:湖北、北京、上海,返程“开工”—— 被忽视的疫情统计数字之四


69%城市疫情增长率下降,南方旅游城市不可掉以轻心——被忽视的疫情统计数字之三


武汉之外,确诊增长率超50%-100%的城市—— 被忽视的疫情统计数字之二


武汉之外,还有哪些城市疫情严重?——被忽视的疫情统计数字



刘德寰

谈洞察、谈调查的学者

谈数据、谈营销的专家

谈天谈地谈人的凡人


微信号:liudehuanpku


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存