查看原文
其他

深度解读疫情传播模型—释义与争议

袁帅 吴诗雅 荷兰心理统计联盟 2023-02-03



疫情在全球肆虐的同时,前所未有的,统计和预测模型成为了各大电视和网络媒体的主角。总是与主流媒体背道而驰的数学家,统计学家和公共卫生专家成为了世界各大主流媒体的座上宾,与嘉宾主持侃侃而谈;而世界各地因为疫情而焦虑痛苦的人们也开始打量起这些陌生而“奇妙”的数字与符号,希望从中获知疫情将走向何方的蛛丝马迹。更重要的是,疫情的统计和预测模型在政府决策中发挥了极其重要的作用——正是通过这些模型对于疫情发展、疫情防治措施的推演,决策者们得以对于疫情有一个全面充分的了解,从而在必要时候壮士断腕,做出暂停社会活动、停摆社会经济的决策。最典型的例子来源于英国:在最初提出“集体免疫”策略刚刚过几天,伦敦帝国理工的Neil Ferguson 研究组就通过模型推演指出这种决策将必然导致英国医疗系统过载——最终这一依据模型做出建议被采纳,英国也发布一系列严格管制措施,走上了与其他欧美国家类似的防控之路。另一个值得一提的例子来自于牛津Sunetra Gupta研究组,他们组所建立的模型预测在最坏的情况下,英国已经有接近50%的人感染了新冠病毒。这个可谓是弹眼落睛的结论甫一发布,就收到了来自全世界巨大的关注,测试抗体病毒的努力也随之在英法开展。毫不夸张地说,疫情传播的预测模型至少在这段时间成为了世界舞台上富有决定性作用的科学武器。


然而,发挥着举足轻重作用的疫情模型并不常常能获得相对一致的结论。就大家熟知的例子而言,最初对于武汉疫情真实感染率(而非受测试感染率)的预测在不同模型中有着截然不同的估计,从数千到数万甚至数十万人,不一而足。无独有偶,各模型之间对于全球在首轮新冠疫情中死亡总人数的预测也可谓是大相径庭。究竟什么导致了这些差别?哪一个模型更为可信?这种数据建模方法在多大程度上能够准确预测疫情目前的状态和未来走势?今天我们将仔细解读上述两个最新、最受媒体关注的模型——我们将抛弃沉闷的数学,而是将重点放在建模的思路和更重要的,建模的假设之上;相对之下我们更关注模型本身,因而不会过多涉及模型的预测结果及对这一预测结果的解读和讨论。之后,我们将讨论对于这些模型各自的批评和争议——这或许正是目前的主流所缺少的,仅仅关心“搞一个大新闻”而忽略批判性的重要意义。最后,我们将集中讨论统计和预测模型在疫情防止中的优势和劣势,并提供解读模型的相关建议。很遗憾,我们并不就读于传染病或者公共卫生专业,对于这些模型也并没有亲身研究的经验;因此本文内容仅为抛砖引玉,欢迎大家指正批评



   预测模型1Neil Ferguson 研究组的建模   


文章地址:

https://www.imperial.ac.uk/media/imperial-college/medicine/sph/ide/gida-fellowships/Imperial-College-COVID19-NPI-modelling-16-03-2020.pdf



模型概述


这一建模采用的方法是所谓的个体行为模拟法(individual-based simulation model),或者更为社科研究者所知的代理人建模法(agent-based model)。它的思路非常直观,采用虚拟的数据点代表个人;一如现实生活中的个体参与社会活动、与他人交互,模型中的数据点也会在数据模拟过程中以各自的频率和概率和其他数据点交互。下图是一个采用这种思路构建的(极度简化的)模型的一个可视化示例,其中红色代表被感染者,而白色代表感染者, 当白色和红色交互的时候有一定几率未被感染者会“感染”上病毒,从而变成红色。对于有条件科学上网、同时希望更多了解这一建模方法的同学,我们强烈推荐油管上3Blue1Brown的视频“Simulating an epidemic”,该视频包含极其丰富的模型和演示。当然,正如所有采用个体行为模拟法建模的研究者都试图最大情况模拟真实情境,Ferguson等人真正的模型也比过度简化版要复杂的多,其中还包含虚拟的家庭,学校,工作场所和社区(不同场所数据点和其他数据点交互的频率和概率均有所不同);而这些设施在“人群”中的分布及“人群”中自身的人口指标都来自于过往的人口普查数据。由于个体行为模拟法所具备的巨大自由度和灵活性,新冠病毒本身的特点——包括潜伏期,病毒基础传染率(R0),人群中无症状感染者比例等等——也能够体现在模型中。与此同时,模型也额外考量了一些不确定性——例如个体被感染的概率就用一个gamma分布来模拟。



他们的建模重点考虑了5种不同的非药物干预措施影响对于疫情发展——特别是总感染人数、总入院人数、需要重症监护(ICU)的人数这些和医疗体系荷载息息相关的指标变化——的影响。这五种措施包括(1) 有症状患者在家中自行隔离7天(英国早期的政策);(2) 如果家中有患病者,家中其他成员的主动自行隔离;(3) 和70岁以上年长者保持距离;(4) 整个社会强制保持距离;(5)关闭大中小学。这些干预可以单独实施,也可以多个措施同时实施;有的是可自行实施而不需要政府的强制施行(1,2,3),有的是必须由政府主导实施的(4,5)。在研究干预策略时,假设除了第3项政策以外政策有效期为3个月,因为该政策被认为可以保留更长的时间。这些干预措施将不同程度影响上述模型中数据点在不同“场所”和其他数据点交互的频率和概率,从而影响最终疫情发展的趋势和医疗系统所需要面对的压力。


根据他们的模型,在没有任何强制控制措施或自发干预措施的情况下,假设基本传染数被估计为2.4,将有81%的英国和美国人口感染新冠病毒,英国将可能总共有51万人死亡而美国的死亡人数将达到220万人。对于卫生系统而言,重症监护床的供不应求最早出现在4月的第二周,最终需求会是两国各自最大供应量的30倍以上。不需要政府强制施行控制的最大程度干预措施是1,2和3的组合;然而,模型预计采用这样一种干预组合虽然能够在疫情高峰阶段降低三分之二的医疗系统负担,同时在总体上降低二分之一的死亡人数,然而这些努力仍然可谓是杯水车薪——在疫情高峰期需要的ICU病床数量仍然是英国和美国医疗系统可供应总量的八倍之巨。如果希望把基础感染率降低到1以下(因此保障病毒不再传播),根据这一模型的估算,需要实施2,4,5或者1,2,4的政策(当然最佳状况是实施1,2,4,5的政策组合)。换句话说,根据他们的模型推算,政府的强制干预措施在防控过程中不可避免。然而,另外一个极其值得考量的问题是,根据模型估算,一旦这些政策取消,缺乏免疫的人群将迎来下一个疫情高峰


评论和批判


针对Ferguson等人建模的批判首先来自研究方法上——他们并没有开源模型构建的代码,因而使得其他研究者很难获得模型的技术细节。关于建模的批判来自于所搭建的个体行为模型和真实生活存在的差异——例如研究者并没有考虑在人口集中地区的通勤者及这些通勤者可能带来的大量感染风险,他们也没有完全考虑到出现超级感染者和多人集会所带来的风险。另外,这一模型也并没有充分考虑到实施早期隔离、集中收治轻症患者等措施;而这些措施正是中国疫情防治过程中可以总结出来最为珍贵的经验之一。



   预测模型2:Sunetra Gupta研究组的建模    



文章地址:

https://www.medrxiv.org/content/10.1101/2020.03.24.20042291v1.full.pdf+html






模型概述


Gupta研究组的这篇文章因为其令人震惊的结论受到了世界各大媒体的关注——他们在文章中预测英国最多有50%的人口已经感染了新冠病毒,因而其已经相当接近所谓的“群体免疫”。这样的结论不出意外地激发了极其广泛的关注和讨论,很多旅居海外的华人更是因此怀疑自己之前出现的感冒症状实际上是因为新冠病毒,而已经恢复的自己已经拥有了对抗病毒的免疫力。为了更好地了解和评价这一模型,我们先来看看模型本身。


这项研究所采用的思路是结合流行病学中非常常用的疑似-感染-恢复模型(SIR模型)以及新冠病毒的感染致死率来估计疫情的发展趋势。这样做最主要的原因也或许是最大的优势就是相比于感染人数巨大的不确定性——在很多国家新冠病毒的核酸测试剂并不够用而新冠病毒又存在大量所谓“无症状感染者”——新冠病毒的致死人数是相对可靠的数据。因而,采用各个国家(特别是意大利和英国)所汇报的新冠病毒的死亡人数的时间序列,可以通过建模的方法倒推感染的人数。在这个模型中,最为关键的因素正是人群中易发展成重症(因而有更高概率死亡)的所谓高危人群比例(文章中的用ρ来表示),在本研究中作为一个需要估计的变量。除了传统的微分方程(SIR模型),为了纳入不确定性,研究还采纳贝叶斯估计的方法来进行系数估计。此外,作者考虑到了感染和死亡的滞后效应,感染和治疗的周期和基础感染率(R0)等等传染病建模过程中非常重要的指标和参数。



评论和批判


Gupta研究组的这篇文章在大众媒体收到众多关注的同时,在学术界也激发了大量的批评声音。从统计方法的角度,虽然作者采用了贝叶斯估计,但是作者在贝叶斯估计中所设置的先验分布平均值和实际状况可能相去甚远。对于人群中重症比例作者所采纳的值是0.01和0.001(也即所有感染者中有百分之一和千分之一的人口最终死亡),但是这一数值远远低于实际生活中各国的数据。无论是中国约为4%的死亡率,德国约为1%的死亡率,还是意大利和西班牙10%左右的死亡率都已经远远高于文中作者所设置的先验参数,更何况并不是所有重症病人最终都会面临死亡。这是一个相当严重的错误估计,将很遗憾地导致模型最终估计的感染人数大大高于可能的实际感染人数。当然,纠正这一数值只需要采用更高的重症比率,然而带来的负性作用却是由于重症率的估计在各国有很大的出入,模型不可避免地最终估算一个很大的结果区间,可能很难起到影响政策的作用。





预测模型的局限性

及其他定量分析手段



各色预测模型成为了疫情分析中的主角——世界各地的公共卫生研究者和数据科学家们正夜以继日地从各地报告的成吨数据中寻找线索,以预测疫情未来的发展,使得人们得以对未来做好更充分的准备。伴随媒体的报道和公众的讨论,这些模型也开始成为日常生活的一份子,特别是其得出的结果屡屡为大家带来焦虑,痛苦或是喜悦。对于绝大部分这些模型的接收者,很遗憾他们并不会深究模型本身的潜在局限——一方面,模型中所蕴含的数学知识总是令人头疼;另一方面,人们对于来自于知名学府的高科技著作有天然的信任。然而,如果有即使是些微的时间和兴趣,至少有一点是可以尝试考虑的——考察研究中所蕴含假设和参数设置的合理性。而这,往往也是模型的局限所在。对于我们讨论的第一个模型而言,论文中并没有讨论通勤者和集会的影响——因而其潜在假设是这些事件并不会大规模发生,与现实生活有明显出入;如果加入这些因素的考量,那模型所估计的感染和死亡人数还有大幅上升。对于第二个模型,正如上文所讨论的,由于参数设置的不合理性,因文章而起的可能已达“群体免疫”结论甚至可以说是荒谬的。本文中所进行的讨论如果能够对于大家在理解和评价大众媒体中出现的各色模型的过程中有所帮助,甚至只是引起大家对此的关注和“戒心”,我们的目的就达到了。毕竟,统计和建模并不是完全客观的存在,会因为研究者的立场和先验知识而呈现出截然不同的结果,而这一过程甚至是更难被发现和觉察的

https://www.medrxiv.org/content/10.1101/2020.03.24.20042291v1.full.pdf+html



作为一个新作频出的领域,截至本文成稿之前,又有一些改良的、纳入更多数据的模型被发表。最引入关注的是Ferguson研究组基于第二个模型思路(即通过死亡人数倒退感染率)改良的研究版本。限于精力,本文将无法对这一新论文做完整解读,有兴趣的读者可以通过点击左下角的“阅读全文”获取这篇文章。根据这篇论文的最新估计,截至3月30日,欧洲十一个国家的感染率在1.88%到11.43%之间,也因此侧面反映出Gupta研究组早先的报告是大大高估了感染率。


最后,我们必须指出,通过定量的方法来估计感染率和死亡率当然不止建模这一种方式。我们认为,受限于各种因素,估计感染率最靠谱的方式是通过在人群中随机采样的方式测试感染率;以此收获的感染率数据更符合现实。据我们所知,这样的方法实现了至少两次:在我们所在的北布拉邦特省,防疫研究机构对几所医院中自愿报名的个体进行防疫检验(样本量大约为2000人),最终确定疫情在本省已有蔓延趋势(大约10%的个体已经感染新冠病毒);在冰岛,一家叫做decode的公司测试了大量(约1万人,而冰岛总人口仅为36万人左右)没有明显症状的志愿者,发现只有不到1%的病人感染了病毒,而无症状感染者的比例大约在50%。而另一方面,估计(患者)死亡率的方式则是在大量开展测试的国家和地区(例如韩国,德国和武汉以外的中国其他地区)获得死亡率的数据,以排除因为测试数量不够和医疗自愿挤兑而导致的对于真实死亡率的高估。



阅读原文:https://www.imperial.ac.uk/media/imperial-college/medicine/sph/ide/gida-fellowships/Imperial-College-COVID19-Europe-estimates-and-NPI-impact-30-03-2020.pdf



作者简介


袁帅,艺名不帅哥,博士就读于世界不著名蒂尔堡大学,混搭社会心理学和数据科学研究,申花队铁杆粉丝。

吴诗雅,就读于荷兰中心乌特勒支大学,贝叶斯社科博士兼美食家,严谨和爱做出美味。


本期到此结束,我们下期再见~



往期精选:

重磅|20万字英文学术写作句库笔记正式发布

Cuijpers教授元分析入门免费公开课完整版(中英字幕)

洞见:职业健康心理学家Wilmar Schaufeli——17万引用次数的背后

统计分析常见误区系列之— —控制变量

R语言元分析专题第二章:RStudio和基础

R语言元分析专题第三章:数据导入和预处理

Play with R 第18期:类别数据的分析

Play with R 第19期:分层线性模型/多水平




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存