基于多源信息融合的新冠暴发建模
冯·诺依曼:
四个参数就能拟合出一头大象
新冠暴发以来,很多学者开展了传播动力学建模、预测研究。这些工作通常采用SIR、SEIR等仓室传播模型,然后通过拟合每日的确诊数来得到模型参数。
这让我们想到计算机之父约翰·冯·诺依曼曾经说过的一句话:用四个参数我可以拟合出一头大象,而用五个参数我可以让它的鼻子摆动。在2010年发表的论文Drawing an elephant with four complex parameters中,Mayer等人给出了方程和对应的曲线,见图1。
这一例子说明,只用单一约束来拟合具有多个参数的传染病动力学模型时,过高的自由度会产生无穷多种参数组合,让模型的精确性大大降低。
图1 单一数据拟合结果。(a)4个参数拟合出一头大象(b) 5个参数拟合出摆动鼻子的大象
最重要但未被关注的问题:
数据的不确定性
在对新冠传播建模的过程中,最大的难点在于数据中存在的不确定性。
感染数≠确诊数
感染人数和确诊人数存在很大的差异。
1.时间错位:感染后,需要经过潜伏期、诊断期和病例报告的延迟才会被上报为确诊病例。
2.无症状感染:除了被流行病学调查追踪到的部分密切接触者,其余无症状感染者不会反映在确诊数上。
感染者≠传播者
模型中需要区分感染者是否已被隔离,被集中隔离后进一步传播的风险很低。
被忽视的“疑似病例”
全国疑似病例数一度高达28942例。然而,大部分工作中都忽略了该数字,将所有疑似病例当作未感染人群看待。
罕见提及的“密切接触者追踪”
疾控中心等机构投入了大量的人力物力进行密切接触者追踪,减少感染者的传染窗口。然而在大量文献中很少将这一重要的因素纳入传播模型中,忽视了广大一线流行病学调查人员对控制疫情的作用。
画大象:过大自由度的单源数据拟合
大部分工作中,通常将传染病动力学模型与确诊数这单一的数据拟合。当模型所受的约束过少,而参数较多时,建模的自由度过大,结果的不确定性就很高,就像在拟合大象。
多源数据融合:
现实世界不可测数据的最优估计
现实世界中的数据总是存在不确定性以及不可观测性,例如我们永远无法知道任何一个日期究竟有多少人感染了新冠病毒。此外,科学家们由于自身政治、文化、利益、预设立场甚至意识形态等因素影响,可能在传染病模型建模中引入更多的偏差。
多源数据融合技术由美国海陆空三军联合实验室JDL提出,通过对来自多个来源的数据进行融合,降低单源数据的不确定性。
来
自中科院计算所、北医三院、中国地质大学(武汉)等多个单位的研究人员将该技术应用于新冠疫情个体仿真模型,将新冠暴发以来国内外数十个机构的各类数据同时作为约束代入模型中,包括:病例数、感染率范围、疫情初期潜在感染人数范围、防控措施日期及强度、无症状感染占比和病毒浓度时变曲线等。
这些数据或作为输入信息或作为输出约束,同时作用于个体仿真模型中,最后输出结果。这一模型中,一个个体的状态转移如下图所示(图2),输出的结果为每天处于各类状态的人群的数量。
图2 基于个体的仿真模型中,任意一个个体可能的状态转移。我们在仿真过程中模拟了全国10亿个易感者,每个人都有各自的感染日期、潜伏期、就诊日期、隔离日期等属性。
建模结果:
对数坐标VS.线性坐标
由于传染病具有指数增长的特性,我们使用对数坐标给出了建模结果,并在图中标注出了用于模型的输入或输出约束的部分数据源(图3)。可以看到,2020年1月23日对武汉颁布旅行禁令时,感染总数大约已有3.5万人,之后每日新增感染数开始下降。
图3 新冠在中国的传播模拟结果。指数增长的感染数、确诊数、病死数等在对数坐标下为斜率相同的直线,在时间上有数天到一个月左右的时延,代表了潜伏期、诊断延迟、病程发展等的时间。
通常在各报道中常见的是线性坐标,可以方便看出病例数绝对值的变化,为此,列出线性坐标系下的详细结果供感兴趣的读者参考(更多结果详见发表文章补充文件)
图4 建模结果中的累计确诊数VS.报道的累计确诊和现存疑似数,假设试剂盒充足。在2020年2月,受到试剂盒短缺的影响,大量感染者被划归为“疑似病例”,因此图中仿真出来的累计确诊数曲线位于卫健委报道的“累计确诊数”和“累计确诊数+现存疑似病例数”之间。
图5 建模结果中的累计病死数VS.报道的累计病死数。2020年2月12日0时-24时,湖北省将135例临床诊断病例的病亡数纳入确诊死亡数中;4月17日上午,武汉市新冠肺炎疫情防控指挥部发布通报,确诊病例的死亡病例核增1290例。
苏格拉底:
我不只是雅典的公民,
我也是世界的公民
为了让更多的人能够方便使用和了解新冠仿真模型,研究团队开发上线了交互式的建模网站,网站地址:http://innovation.hitocas.com/predict/,更多详细信息可查看论文全文及附件。
扫描二维码
访问建模网站
图6 新冠仿真模型交互式仿真网站入口
扫描二维码 | 阅读原文
原文链接:https://www.cell.com/the-innovation/fulltext/S2666-6758(20)30033-3
本文内容来自 Cell Press 合作期刊 The Innovation 第二期发表的Commentary文章“Modeling the COVID-19 Outbreak in China through Multi-source Information Fusion” (投稿:20200706;接收:20200804;在线刊出:20200806;
DOI:https://doi.org/10.1016/j.xinn.2020.100033)
论文收录情况
论文目前已被PMC和WHO COVID-19数据库收录。
图7 论文的PMC检索记录
图8 论文在世界卫生组织COVID-19文献库检索记录
◆ 作者简介 ◆
吴琳:
中国科学院计算技术研究所专项技术研究中心助理研究员,国际信息融合学会会员,长期从事多源数据融合领域理论的研究及在海空态势和海陆交通领域的应用,包括多目标跟踪、不确定性推理。个人主页为:
https://www.researchgate.net/profile/Lin_Wu26
王飞:
中国科学院计算技术研究所专项技术研究中心助理研究员,中国指控学会会员,长期从事可追溯数据融合系统的研究及在海洋态势、城市治理等方面的应用,包括上下文融合、时空序列挖掘、隐私安全保护等,承研国家自然科学基金、国防方向基金等超过10项,在IEEE Network、IEEE IoT Journal、IEEE Transactions on Vehicular Technology、Fusion、IJCNN、ICANN、ICPR等国内外高水平期刊和会议上发表学术论文20余篇,申请国防/国家专利5项。
徐勇军:
中国科学院计算技术研究所,研究员,博士生导师,专项中心主任,厦门数据智能研究院院长,主要研究信号大数据处理、人工智能系统,先后发表学术论文80余篇、国家发明专利40余项等,获中科院“卢嘉锡”青年人才奖、关键技术人才奖等。
扫描二维码 | 访问期刊官网
The Innovation 是由一百多位青年科学家发起成立的综合性英文期刊,与Cell Press合作出版,期刊内容覆盖所有自然科学。2020年5月21日首刊出版(点击查看),2020年8月28日第二期出版(点击查看)。
期刊官网1:
http://www.the-innovation.org/
期刊官网2:
https://www.cell.com/the-innovation/home
期刊投稿:
https://www.editorialmanager.com/the-innovation/default.aspx
·END·
■■ ■ ■