查看原文
其他

全球疫情的统计趋势(整合篇)

刘德寰 刘德寰 2022-12-15

德寰:北京大学新媒体研究院教授


编者按:


由于疫情越来越呈现出长期性,所以,笔者关于疫情的研究会继续,分析也会继续,但是在没有特别意外发现的情况下,本公共号不会再持续更新关于疫情的文章。谢谢大家的支持!多雅正!

本文核心结论:


1.如果在新冠病毒跟温度确实没有医学意义上的关联的前提下,现在世界的疫情数字没有完全反映世界范围内的疫情分布状态,即:经济不发达地区的疫情数字,由于检测、医疗水平和医疗覆盖等因素的影响,被较严重的低估,实际的感染数字会多于现在已经公布的数字。  2.经济不发达地区的新冠感染没有得到有效控制,甚至很多国家没有完全掌握疫情的真实状态,尤其是检测率极低的区域需要特别关注,比如非洲、拉美、南亚。这就决定了疫情在全球的传播还处于发展阶段。
3.整个东亚地区疫情控制最好,得益于这个地区国家的防疫措施(虽然内部有差异,但是总体上均较有效控制了疫情的快速蔓延);而全球范围内,有些区域由于病毒检测率已经达到全体人口的较高比例(冰岛最高达到14.8%),有望成为疫情严重区域中最先恢复经济的地方,北欧和西欧的大多数国家属于此类;北美、中欧、东欧、南欧疫情还会有所增加,但是增长率明显减缓(人数上还在逐渐下降的高位平台区),疫情情况会徘徊下降;西亚是亚洲检出率最高的地区,与欧美国家相似;东南亚、大洋洲跟东亚情况类似,原因值得分析;南亚、中亚、拉美、非洲疫情在发展中。


正文:


最近前三篇主要分析的对疫情有背景性影响的几个基础的变量,同时也对大家猜想的一些假设进行了基础性的分析,我一直坚持用统计分析中最简单的双变量分析(交互、一元一次回归)来展现疫情的分布趋势。为什么要先用这么简单的模型进行展示,而不是用整合性、更具解释力、更全面的多元模型呢?主要有以下几个原因(之所以要说这个问题是因为公共号留言中有些朋友质疑一元分析不能得出结论):

第一,单变量影响有利于理解影响疫情分布的全面性,实际上在不同时间点,疫情分布呈现的发展态势有差异,仔细描述单一影响有利于理解疫情的发展状态。

第二,对于变量的理解需要多层次,一种变量是长时间的意义,是一直存续的影响(背景性),比如人口分布、所属纬度,与疫情的早期的统计分布具有明显的关系,原因可能很多,最具意义的是流行病传播的聚集性跟此有一定的关系,随着世界各国采取了多样的防控措施,背景性的变量影响逐渐减弱。

第三,有些变量是短期具有巨大意义的变量,长时间防控后会逐渐减弱,比如旅游支出与收入,这个变量我们会在本篇涉猎。

第四,与疫情相关的基础设施变量必然跟疫情的发现、追踪、治疗有十分密切的关系,比如每千人病床数量、每千人医生数量、人均医疗占GDP的比例、人均医疗费用、每百万人检测人数等,但是这些变量不是独立的,背后是国家(地区)的发展水平,这些变量都会独立地影响疫情的统计态势,但是整合到多变量分析时,往往由于人均GDP的整体影响造成的多重共线性而失去统计意义(不是现实意义),这些变量我们也会在本篇涉猎整理。(整合性分析会随着变量交互导致有些变量展示出相反关系,整体是正影响,因此独立分析单一因素极具意义)

第五,影响其他变量的综合性因素(变量)分析起来展示的统计意义是世界的结构性问题,比如人均GDP,这个变量影响跟医疗相关的所有变量,影响人均旅游支出,影响人均旅游收入,影响另外的综合性因素比如国家(地区)营商环境排名,也影响社会不平等因素比如基尼系数等等,所以一旦在研究模型中带入这个变量会冲击其他变量的影响关系及其模式,同时又不能忽视这个变量,所以单一独立变量的影响是疫情分布分析的必需的展示。

第六,更重要的意义在于:除了人口密度、人均GDP、所属区域(含纬度)这些基础变量外,其他所有变量都不完整,无法展示全球疫情全景,相反一旦展示全景,更多的国家(地区)的疫情特点会被弱化,所以没有哪个综合模型更好,我们分类展示出来供公共卫生专业人士思索。因此,本研究给出的是变量分析思路,不是结论本身,实际上结论都会具有时间性的。

一、各种单一影响变量的统计展示

单一变量的影响是所有分析模型的基础,从数据展示出来的统计规律看,主要包括几类结论:

1.所在国的医疗资源越完善,检测出的感染率越高,包括人均医疗支出、内科医生(每千人2018)、医院床位(每千人2015)均体现了这个特点,不过随着时间的推移,这些变量的影响有一定的下降趋势;

2.经济发展状况也对检测出的感染率产生大的影响,即:所在国经济发展水平越高、营商环境越好,检测出的感染率越高,包括前文已经分析过的人均GDP(现价美元)和基尼 (GINI) 系数(2018)两个变量之外,营商环境便利度排名变量也呈现出类似的特点。

3、前面已经梳理过的人口变量的影响有增强的趋势,说明疫情跟人口聚集有较密切的关系,包括:城市人口比例、人口超过100万的城市中的人口占总人口比例和人口密度。

4.表面上国家的旅游收入和支出与疫情的情况没有特别明显的线性关系,不过在二次项的回归中呈现了相关,需要在今后的分析中予以重视。

5.人均检测量越大,所在国的感染率越高。

表一:各种单一影响变量在不同时间点对每十万感染率的影响(数值是R平方)

(点击图片查看清晰图表)


二、综合模型的尝试建构


由于笔者不愿意只追求解释力(R平方),所以对整合模型可能带来的很多变量意义性的缺失心存疑虑,同时也有很多国家(地区)资料不全而不能带入方程,因此,整合模型带来的信息更多地展现了地域的差异,涉及的原因性变量多变得无意义,所以此部分不做结论性分析,只是给公共卫生领域的朋友一些建模思路的参考和展示(有关此模型的方法分析会独立地在方法类讨论时涉猎)。

表二:当日每十万人感染率影响因素的回归模型

(点击图片查看清晰图表)


三、检测带来的令人担忧的数字


首先介绍两个变量指标:

检测感染率=确诊人数/检测人数*100%

检测率=检测人数/所在地总人口*100%

前面的分析已经发现一个疫情分布特点:所在地新冠病毒检测率越高,每十万人确诊病例越多,因此令人担忧的事实是:很多国家(地区)疫情显示的不严重很大的可能是检测量不足或者不及时,真实的疫情可能比公布的数据要严重很多。

1.从全球检测情况看,因为各种原因去医院检测是否感染新冠病毒时,大约8.31%的人被确诊,因此检测感染率过高就值得特别关注。如果检测感染率过高,同时,检测率远远低于全球平均值(1.5891%),这些国家(地区)的疫情很有可能被低估(红色字体)。(见表三)

2.从地域看,仅就检测情况角度,非洲、拉美、南亚疫情的真实情况可能没有被全面检测,尤其是中非、西非、北非地区。(见表四)

3.从经济发展程度看,全球低收入国家的检测率过低令人极其担忧。(见表五)

表三:检测感染率过高的国家统计表

(点击图片查看清晰图表)


表四:全球各地区检测感染率与检测率的关系

(点击图片查看清晰图表)


表五:全球不同收入国家的检测感染率与检测率的关系

(疫情基础分析完)

2020年5月13日


♥推荐阅读:


不是富国豪横,而是穷国无奈 ——经济地理与新冠状病毒疫情的关系系列之“经济篇”


经济地理与新冠状病毒疫情的关系系列之“人口篇”


经济地理与新冠状病毒疫情的关系系列之“纬度篇”


疫情“二次爆发”与“佛系抗疫”


世界各地疫情严重程度超乎想象,全球进入疫情控制艰难时期 ——全球疫情细致盘点


当前,全球有14个“疫区”国家 ——全球疫情细致盘点(中)


全球疫情发病率最高的国家:不是中国 ——全球疫情细致盘点(上)


全球疫情最严重地区速递2020年2月29日


全球范围内,疫情会扩大到何种程度?—— 被忽视的疫情统计数字之九


当前,中国疫情的基本判断——被忽视的疫情统计数字之八


笼统说疫情“12连降”这种说法的危害性——被忽视的疫情统计数字之七


“病毒检测”和“临床诊断”:武汉新冠肺炎病例暴涨的背后——被忽视的疫情统计数字之六


中国哪些城市的疫情在逆势增长?为什么湖北的城市需要全国支援?—— 被忽视的疫情统计数字之五


“疫情”详解:湖北、北京、上海,返程“开工”—— 被忽视的疫情统计数字之四


69%城市疫情增长率下降,南方旅游城市不可掉以轻心——被忽视的疫情统计数字之三


武汉之外,确诊增长率超50%-100%的城市—— 被忽视的疫情统计数字之二


武汉之外,还有哪些城市疫情严重?——被忽视的疫情统计数字



刘德寰

谈洞察、谈调查的学者

谈数据、谈营销的专家

谈天谈地谈人的凡人


微信号:liudehuanpku

 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存