管理名家在线讲堂回顾 | 新冠疫情研究中的定量分析
为了帮助同学们更好地了解不同行业、明确职业规划,管理学院本硕博教育中心精心策划了“管理名家在线讲堂”系列主题分享,通过云课堂的形式邀请企业嘉宾为同学们带来满满干货。6月24日,我们很荣幸请到了因为和“网红”抗疫医生——复旦大学附属华山医院张文宏医生,合作新发传染病预测和防控模型而上了热搜的胡建强教授,和大家分享近几个月来在新冠研究方面的一些心得和体会,特别是如何把模型和定量分析的方法运用到这一研究中。
胡教授首先为我们介绍了世界范围内对于新冠研究的一些数据。截至两周前,关于新冠病毒的研究有42700篇学术论文、3100个临床试验、420个数据库以及270项专利。所有的这些研究都主要围绕着三个主题:如何控制控制疫情、特效药的研制和疫苗开发。这些数据表明,为了应对这次新冠疫情,世界各国都投入了大量的人力物力进行研究。
接着,胡教授给我们分享了他开始新冠研究的历程:1月23日踏上了去美国的旅程,当日凌晨武汉宣布封城。1月23日当天国内确诊830例,死亡25例,治愈34例;1月29日,胡老师返程回上海,此时国内确诊病例已接近一万例,疫情发展速度十分迅猛,武汉各大医院已出现了严重的医疗挤兑。返程过程中明显感受到大家意识到问题的严重性;2-4月份几乎没有出家门。说到这里,胡教授给大家分享了两个例子:1665-1666伦敦大瘟疫期间,牛顿提出了万有引力理论;1357-1351欧洲黑死病,薄伽丘完成了《十日谈》的著作,这些改变人类历史进程的著作都是在瘟疫时期完成的。
同时胡老师也花了很多时间关心疫情,并开始了有关疫情的研究工作。每天早上第一件事就是关注疫情的报道,最关心的是数据。胡老师给我介绍了一些研究中比较重要的数据,例如:重点城市及省份(州)人口、感染人数、死亡率、死亡人数、死亡率以及不同时间点数据的对比。报道期间,大家对于数据的准确性产生了较大质疑,而数据的准确性也是研究过程中很重要的一点。在具体的研究中,我们往往可以通过一些直觉判断数据大概的准确性。以下是截至2020-6-19全球及一些主要国家的新冠死亡人数数据:
除了瑞典采取了消极抗疫导致死亡率明显高于其他国家以及俄国的死亡率较低以外,世界其他疫情国家的死亡率基本趋向5%左右,这与大数定律的结论是一致的,所以报道数据具有一定的可信性。
在疫情爆发的初期(2月初),大家都普遍关心疫情的走向会如何发展,各国学者都热衷于预测未来的确诊人数。2月3日日本媒体对中国疫情的预测认为重庆的确诊病例将达到15万以上,而截至6月24日,重庆实际累计确诊人物为582例,实际值和预测值之间有很大的差距。而根据UW/IHME3月30日的纽约州死亡人数预测,将会有8016-22255人死于新冠。实际上截至6月24日,纽约州的新冠死亡人数已达31232人。疫情初期,一些香港学者做出的预测结果更是触目惊心,与后来的实际值之间差距巨大。这不禁让我们思考:预测靠谱吗?这是一个难以简单回答的问题,但是在利用模型进行预测时,我们要清楚预测的目的是什么,预测基础是什么,结论是做什么用的。
讲座的第二部分,胡教授介绍了他是如何研究中国和美国的疫情关联到底是什么的。疫情初期,美国政客就将新冠病毒发源地指向中国,并拒绝中国游客入境。回顾整个时间线我们看到,美国第一例确诊病人1月21日来自武汉;2月2日,美国禁止来自中国的人员进入美国,此时,中国确诊17334例,死亡362例,美国确诊11例,死亡0例;而到了2月29日,中国确诊77968例,死亡2873例,美国确诊30例,死亡1例;到了3月31日,中国确诊81518例,死亡3305例,美国确诊150000+例,死亡2800+例。在整个三月份,中国新增确诊并没有大幅增加,而美国确诊病例人数却突然爆发,直观上来看,美国疫情人数爆发和中国并无太大关联。控制疫情主要有两个手段:一是控制外来病例,包括停航和关闭边境等,二是控制内部传染,包括居家隔离、控制社交距离、戴口罩等。
胡教授和我们分享的第一个和新冠有关的研究成果是“疫情传播网络与人口流动密切相关”。该研究主要基于航空流量,以网络视角对全球22国的新冠疫情做了扩散分析。具体来看,针对疫情的传统研究一般是研究在一个点上,病毒在自然情况下怎样传染,然后加上一些限制(社交距离、戴口罩等)后,再研究一定程度切断传染源后病毒传播情况。更进一步是从一个点扩展到两个点比如武汉-上海的研究。但以上模型无法研究中美两国之间的疫情联系,因为美国在2月初就已经限制中国航班入境切断了联系。于是胡教授的研究框架聚焦于思考整个世界的流量网络结构,内部存在很多点分别代表中国、美国、欧洲等,将全球各国作为一个整体,研究中国和美国之间可能存在的传播路径及关联性。
在数据的选取方面,研究根据COVID-19疫情发生时间和累计确诊感染人数的规模,选取了六大洲的22个国家。截至2020年4月24日,这些国家占全球感染总量的86.7%。具体选用的数据包括:
◆ WHO疫情日报;约翰·霍普金斯大学COVID-19全球疫情数据。
◆ 22个国家间每日航班数据:包含出发国、目的地国、日期、航班数量以及最大载客量的信息。
◆ 牛津大学COVID-19政府反应追踪器和GardaWorld危机24小时全球门户的跨国人口流动限制和国家内部人口流动控制的政策数据。
获得的一部分研究结果在下图中可以看到,在中国(CHN)限制了流动性之后,世界其他国家的疫情后续爆发和中国并无显著联系,而美国和欧洲的病例与其他国家的感染密切相关。
全球22国的新冠疫情扩散地图和网络图
对于后续的研究,胡教授介绍了正在进行中的新冠网络预测模型及多阶段全面防控策略研究,该研究的目标是根据疫情各个时期的不同特点,评估各个防控策略对疫情的影响,进而得出有效的多阶段全面防控策略。具体的实现路径是基于内部防控的经典SEIR模型,将其拓展成为网络化的SEIR模型,并建立仿真模拟系统,评估和预测各个防控策略下的疫情变化趋势。该模型首次提出了网络化的SEIR模型框架,能够有效评估和预测对外防控策略对于疫情的影响,并根据疫情的形势变化(防外&防内),智能评估各个防控措施的松紧程度对于疫情的影响,有助于兼顾防疫和恢复经济。
另一个后续研究是基于人员流动的美国新冠疫情网络分析。该模型运用两层分析模型,研究了美国州内人口活跃度、跨州人口流动与各州新冠疫情之间的关系和跨州的有效传播与传出州、传入州特点(收入、人口特征、地理位置等)之间的关系,得出了一些耐人寻味的研究结果:两州失业率差距越大,越容易从低失业率到高失业率州的传播;2016年大选共和党胜选州更容易被传入;人均GDP更低的州更易于传出;人均ICU数量更少的州更容易被传入。
最后,胡教授谈了谈他对于研究理念的一些想法。回到新冠的研究上来,从目前的数据上来看,相比于美国每年因心脏病、中风、流感和车祸等事故死亡的人数来看,美国因新冠死亡的人数并不显得突出,这也是美国没有采取严肃措施进行抗疫的其中一个原因。但是我们需要注意的是,西班牙流感的第二波疫情造成的病亡人数反而更加严重。而随着美国第一波疫情的反弹,北京疫情的小范围爆发,这些都让我们愈加意识到,对待新冠疫情不能掉以轻心。
关于新冠疫情的研究,还有许多值得思考的问题:例如怎样实现经济发展和疫情控制的权衡;各国文化和伦理的差异对于疫情的影响等等。胡老师提出,作为一个学者,研究问题要从多角度分析。
本次讲座的目的,一方面是为了激发大家对研究的兴趣,另一方面,胡教授希望教给大家如何寻找研究问题:既可以基于前人的成果,也可以从生活和兴趣中寻找研究课题。关于如何做高质量的研究,胡教授特别讨论了理论和应用的关系:5G的基础是基于2008年土耳其学者Erdal的一篇文章,当初作者写的时候并不知道有什么应用价值,只是一个纯粹的理论研究。而后期华为的科学家阅读到了这篇文章并将其应用到5G的研发当中。因特网的最初发展也是一群科学家没事干想出来的,但后续实现了很高的应用价值。从一系列的例子中我们可以发现,基础的理论研究在最初可能无法说出它的意义,但后期可能会显现出它的伟大作用。一流的学者在进行研究的时候未必要纠结它的现实意义。
最后,胡教授和大家分享了他为什么要从事研究工作。一是出于对新鲜事物的好奇,二是为了理想和献身精神,同时作为一名高校老师,you get paid for doing what you like to do,所以是最好的职业。
2019 MF 王宇航