成果速递丨TNSE:突发性流行病扩散的信息-物理社会时空特征
论文题目: Exploring the effect of social media and spatial characteristics during the COVID-19 pandemic in China 论文地址: https://ieeexplore.ieee.org/document/9930665/
引言
这场全球公共卫生危机,在给社会治理、生活和经济等诸多方面带来了深刻影响的同时,也推动了大量研究人员对COVID-19疫情及其带来的影响进行研究。研究主要集中于以下两个方面:第一个方面是,在医学层面[3]对新型冠状病毒进行研究,了解其致病机制,并结合临床制定治疗方案和预防措施,为临床治疗和基层防御提供指导;第二个方面是,结合其他学科知识,对疫情本身或其背后的现象进行分析,并对疫情发展进行预测。虽然研究的方向和方法不尽相同,但都旨在帮助人们进一步了解COVID-19,为防治COVID-19提供新思路。
本文基于时空和疾病相关信息对COVID-19进行研究,以确定COVID-19的发展是否与这两种因素相关,对于帮助我们了解影响COVID-19 传播的因素,摸清 COVID-19 的传播过程具有重大意义。尽管,以往关于COVID-19的研究中,不乏对人口流动和与COVID-19相关信息的探索,但之前的研究并没有系统的针对疾病数据与时空数据进行具体的相关性进行分析,也缺乏对信息和疾病两种动力学过程耦合后的效果的研究。因此,具体分析各因素与疾病之间的关系,并且进一步了解 COVID-19 及其相关信息传播过程中的耦合动力学是本文的主要目标之一。除了分析疾病与各因素的相关性,发现疾病与各因素之间的内在联系,本文的另一个目标是,对疾病发展进行预测。这一工作对于传染病防治及制定后续疫情防控策略都具有重要的意义和价值。因此,基于近年来越来越多被提及的学科交叉思想,本文使用计算机科学中的机器学习(Machine Learning)方法,利用历史数据来训练“模型”,并使用新产生的数据来让“模型”进行判断或计算,以预测疾病的发展。在选择特征时,本文以文中进行的相关性分析为依据,设计了不同的特征组合,旨在得到较为准确的预测结果。通过这些预测结果,可以更加直观的了解疫情可能的发展趋势,以在最大程度上保证人民群众的生命安全。以此为参考有计划的组织复工复产,也可以将经济损失也降到最低。
方法
1. COVID-19及其相关因素的相关性分析:
(1)数据可视化
在图2A和图2B中,分别显示了各个省份累计确诊人数以及与COVID-19有关的信息总量在地理上的分布情况,图中颜色越深说明累计确诊人数或信息量越大。首先,可以直观的看出 COVID-19 的确诊患者更多的分布在地理位置上靠近湖北的省份。累计确诊人数最多的十个城市分别为湖北、广东、河南、浙江、湖南、安徽、江西、山东、江苏和重庆。与湖北相邻的六个省份中,有五个的累计确诊人数排在全国前十,分别为安徽、江西、湖南、重庆和河南,说明了在空间上确诊病例的分布呈向湖北集中的趋势。COVID-19相关信息总量最多的十个省份为北京、广东、上海、山东、浙江、江苏、四川、河南、湖北和福建。共有六个省份(湖北、广东、河南、浙江、山东和江苏)不仅是累计感染人数排在全国前十,与 COVID-19 相关的信息总量也排在全国前十。由于COVID-19在湖北爆发,因此湖北的累计确诊人数在全国各省排在第一位,占全国总累计确诊人数的82.8%。然而,通过图2B可以看出,相较于湖北省,北京、上海和广州等发达省份产出的 COVID-19 相关信息的总量才是最大的。这说明,处于发达地区的人,会更多地在线上对 COVID-19 进行讨论。在图2C(D)中,展示了全国的当日确诊人数(信息量)和累计确诊人数(信息量)。总体来看,疾病在1月和2月快速传播,从3月开始确诊人数的增加开始趋于平缓,且大部分的病例来自湖北省(在图2C中由黑色虚线展示)。在2月13号确诊人数达到了峰值,这是由于中国大陆的确诊标准在这一天发生了变化,扩大了确诊病例的范围。然而,COVID-19相关信息量在整个研究期间不断增加,其中北京和广东的信息量占主导地位。虽然 COVID-19 相关信息的峰值要比 COVID-19 的峰值晚很多,大约出现在3月6号,但是 COVID-19 和COVID-19 相关信息之间表现出相似的发展趋势。这一趋势也是符合生活常识的,当一个新的传染病开始在人群中传播,人们在初期并不会很在意这一疾病,这是因为人们缺乏对该疾病的认识。当人们注意到该传染病的强传播性和高致死率,就会开始关注该传染病,并且在线上或线下对该疾病进行讨论,与该疾病相关的信息开始在人群中传播开来。这种疾病与信息爆发之间的时间滞后现象,Zhan等[4]在之前的研究中也有发现过,这篇文章对 H7N9 和登革热的疾病和信息传播进行了研究。
(2)相关性分析
2. 城市流行病确诊人数预测
(1)基于疾病数据预测
(2)基于目标城市及其邻近城市历史疾病数据预测
(3)基于疾病和信息数据预测
结论
参考文献
[1] 中国疾病预防控制中心[EB/OL].http://www.chinacdc.cn/,2019.
[2] Betsch C, Korn L, Sprengholz P, et al. Social and behavioral consequences of mask policies during the COVID-19 pandemic [J]. Proceedings of the National Academy of Sciences, 2020, 117(36): 21851-21853.
[3] Vargab B, Sujoy B. Immunoinformatics-aided identification of T cell and B cell epitopes in the surface glycoprotein of 2019-nCoV [J]. Journal of medical virology, 2020, 92(5):495-500.
[4] Zhan X X, Liu C, Zhou G, et al. Coupling dynamics of epidemic spreading and information diffusion on complex networks [J]. Applied Mathematics and Computation, 2018, 332: 437-448.
[5] Xiu-Xiu Zhan, Kaiyue Zhang, Lun Ge, Junming Huang, Zinan Zhang, Lu Wei, Gui-Quan Sun, Chuang Liu, Zi-Ke Zhang. Exploring the effect of social media and spatial characteristics during the COVID-19 pandemic in China. IEEE Transactions on Network Science and Engineering. Early Access, DOI : https://doi.org/10.1109/TNSE.2022.3217419.
论文下载网址:
https://doi.org/10.1109/TNSE.2022.3217419.