查看原文
其他

[授权转载] 数据迷思3:“超额死亡”背后的真相(原作者:曹天元)

拍老师 拍帮主 2022-09-15
 前言
各位晚上好,话说最近针对“超额死亡”这个话题,大伙儿讨论得比较激烈。关于这个问题,著名科普作家曹天元老师写过一系列非常有水平,同时又比较深入浅出的好文章。咱特意征得曹老师同意,转发到公众号这边来,希望对大家有点帮助。
特别声明:
  • 曹老师的“数据迷思”系列已经写到了第三集,咱们公众号这边并非按照曹老师自己发文的先后顺序来转载,而是根据当下关注热点,选择先转发的第三集;

  • 以格式有微调;

  • 各位方便的话,不妨移步知乎,直接到曹老师的专栏捧场,传送门:

zhihu.com/column/c_1509219556766216193




第一部分:

很多人在估算疫情造成的损失时,喜欢用“超额死亡”这个概念。诚然,在众多数据当中,它应该算是最不容易作假,统计口径也最容易达成一致的指标。简单来说,我们根据过去的情况,估计出一个国家“原本”每年应该死多少人,然后考察一下,“实际”上究竟死了多少,最后算一算多出来的数字,就是所谓的“超额死亡”。清晰明了,没有任何模糊的余地。
然而,正如我之前说的,实际上“超额死亡”只是一个片面的指标,它不能告诉我们关于疫情的全部真相。实际上,在这个数字背后,还隐藏着一些很有意思的秘密。今天就让我们来探讨一下。
首先,请大家想一想,实际上“超额”是个很奇怪的概念。因为人总是要死的,没有长生不老的神仙。所以从根本上来说,世界上并不会“多死”任何一个人,无非就是“提前”或者“延后”的区别比方说,如果一个人本来可以活到20年后,却在今年死了。那么,虽然今年“多死”了一个,但相对应的,20年后必然就会“少死”一个。换句话说,“超额”必然对应着未来同等数量的“缺额”。
想通了这个概念之后,我们就会明白:所谓的“超额”必然指的是“在某段时间之内”的超额。比方我们可以说三个月内的超额死亡,今年内的超额死亡,5年之内的超额死亡,等等。但如果不结合时间段,单单把数字拿出来说,那就没有任何意义了。极端一点的话,我们可以把时间拉长到200年,很明显,所有人100%都会在这段时间里去世。因此如果你把这个当作前提,那不管发生任何事情,都不可能造成任何的“超额”死亡。
所以我们发现,其实单看“超额死亡”这个数字本身,并没有太大的意义。怎样才叫“超额死亡”呢?是不是只要死亡时间提前了任何一点点,都应该算到这个数字里面?如果说一个人本来还能活20年,现在因为新冠提前死了,那当然可以理解。但如果本来一个人只能活到明天,却因为新冠“提前”了一天死亡,这也能算吗?
如果可以算的话,那我现在提出一个假说。我宣称:世界上每个人都因为新冠至少“缩短了”一秒钟的寿命。因此,任何人的死亡,都应该被看做新冠导致的提前死亡,或者说“超额死亡”。这样一来,全世界每年死亡将近6千万人,是不是可以全部看做被新冠“杀死”的?
这个假说似乎不可能被证伪,当然,也不可能被证实。但就算它是真的,你肯定也会觉得这压根没什么有意义。很明显,是否“超额”,这本身并不重要,具体“超了多少时间”,才是我们真正关心的。同样是100个超额死亡,每个人提前死亡1天,和每个人提前死亡10年,显然其意义完全不同。
明白了这一点,我们就不需要去拼命纠结具体的人数,更不用为了“究竟会死多少人”而每天争吵不休。其实真正值得研究的,应该是另一个问题,就是所有人加在一起,会因为新冠损失多少“总体寿命”?事实上,这也正是现代流行病学的趋势。具体“病死”了多少人,或者“超额死亡”了多少人,已经不再是衡量疫情的主要考察目标,因为这个数字的意义是很有限和很片面的。我们真正应该关心的,叫做“寿命损失年”(Years of Life Lost,简称YLL),它代表了在疫情当中,所有人加在一起“总共”损失了多少寿命。除此之外,还有“伤残调整寿命年”(DALY)的概念,代表了人群总共损失了多少“健康”的年份。不过为了简单起见,本文中我们暂且只讨论YLL。
拍老师的画外音:咱自己关于DALY和YLL的粗浅介绍请见——《病死率不到1%的新冠,危害到底有多大?另外之前还搬运过Luxenius老师一篇涉及到DALY和YLL概念的文章,请见——《"Die of COVID" VS "Die with COVID"


第二部分:

假设有一个国家,本来每年死亡1万人,数字非常稳定。然后有一年,因为某种病毒,突然死了2万人,也就是“多死”了1万。那么到此为止,我们关于这个病毒能说什么呢?其实你仔细想想,就会意识到:这里的信息仍然是不充分的。因为我们不仅仅关心死了多少人,更重要的是,我们想知道,他们究竟“提前死亡”了多久!
前面已经说过,既然没有人会长生不老,那么,第一年的“超额”死亡,必然就会对应着将来某些时刻的“缺额”死亡,而且最终,两者的数量肯定是相等的。仔细想想就能明白,这里的关键,就在于超额的“高峰”和缺额的“低谷”之间,两者会“相隔”多久。
比方说,假设我们开了天眼,发现这个病毒的杀伤力其实很有限,它只影响那些已经“死到临头”的人。具体来说,它只杀死那些本来阳寿已经不足一年的人,而对其他人不产生任何影响。如果是这样,那人口死亡曲线会是什么样的走势?
这很容易回答,显然,病毒的作用就是让本来应该明年去世的人提前了一年死亡而已。所以今年的死亡人数会翻倍,但反过来,明年就会“无人死亡”。因为这些人已经提前到今年去世了嘛,而病毒又不影响其他任何人,因此,死亡曲线会是一个先高峰后低谷的走势,低谷中少掉的那部分,就是高峰时多出来的,在那之后,曲线会在第三年恢复正常。至于总共损失的寿命年,就是1万个人每人提前死亡1年,总共就是1万年。
现在再换另一种情况,假设病毒的杀伤力变大,影响到了所有寿命小于等于10年的人。具体来说,它让这些人全部减少了一年阳寿。这时候,死亡曲线又将会如何呢?答案是,它将在第二年看起来恢复“正常”,而一直到第11年,才会有“波谷”的出现。这也不难理解,因为本该第二年死的人在第一年去世,但本该第三年去世的人也提前死亡了一年,因此恰好“补上”了第二年留下的窟窿。接下来,后面都是同样的连锁反应,四年补三年,五年补四年,一直到第11年,这个窟窿才终于没人来补了,于是就体现在第11年的死亡曲线上。
所以,想要评估疫情造成的总体寿命损害,关键就在于:超额死亡的高峰和随后的补偿低谷之间具体会“相隔多久”从数学上说,我们可以沿着时间轴建立坐标,然后把死亡曲线乘上时间坐标再积分,结果越小,就说明总体生命损失越大,反之则损失越小。

第三部分:

但现在,明显有一个问题,就是在疫情的最初几年,我们实际上无法得知“波谷”将会在何时到来。比方说,如果一开头死了很多人,但后来几年显得“平静”了,死亡率恢复到了正常,这说明什么呢?这其实并不能说明疫情已经过去,因为如果彻底过去的话,那至少应该出现一系列的“波谷”,把当初的波峰“填平了”才对。
比方说,如果在上面的例子里,假设病毒造成的后果是持续不断的,所有人,无论年龄大小,每个人到了一定岁数,都会因它而“减寿”一年。那么,死亡曲线画出来会是什么样子呢?很简单,在最初的高峰之后,它会“永远”保持正常死亡水平,波谷似乎永不出现,仿佛一切都回到了原样。
但实际上,这个看上去“正常”的曲线并不正常,其实每一年,都仍然有一拨人“早死”,而正是这一拨又一拨的人,在持续不断地填补着之前留下的“窟窿”,阻止了对应“波谷”的出现。事实上,在波谷最终出现之前,任何死亡率看上去“正常”的年份,其实都在继续造成更多的YLL总体寿命损失!
如果以上不好理解,你可以简单地这样想:就是当初“多死”了很多人,这些人占据的位置空了出来,本来这些年应该相应地“少死”一些才对。但如果实际上并没有少死,而是继续保持“正常”死亡水平,那说明什么?说明这个“正常”水平其实并不正常,肯定有另外一些人“提前”死了,填补了原本应该出现的窟窿,使得曲线“看上去”似乎正常而已。


第四部分:

理解了这个道理之后,我们就能发现一些“隐藏”的真相。首先,除开最初的2020年,后两年的疫情其实要比表面数字显示的更加严重。比方说,美国在2020年“多死”了42万人,超额死亡率14.17%,而2021年则“多死”了43万5千,超额死亡率14.42%(注:这是按照我自己根据最新生命表调整过的模型数字,也许和其他地方的某些报告有差异,但总体出入肯定不会太大)。乍看上去,数字似乎差不多,但考虑到2021年的死亡人数是在前一年已经“死过不少”的情况下造成的,所以就实际情况而言,次年的delta变种其实危害更大,尤其对青壮年来说更是如此。
事实上,美国最脆弱的高龄老人在第一年就已经死得差不多了,几乎是“应死尽死”。在第二年,85岁以上老人的死亡率出现大幅下降,我根据最新的数字调整了一下模型,发现在2021年,他们的超额死亡率已经降为了-0.31%。当然再次强调一下,这也不说明美国高龄老人的死亡率已经“恢复正常”,正如我们之前说的,他们在2020年的超额死亡比例为9.68%,除非很快出现对应的死亡低谷,把这个窟窿“完全填补”回来,在那之前,实际上老人每年仍然承受着一定的额外死亡风险。
而在另一方面,美国“青壮年”的风险则大幅攀升,导致哪怕高龄老人和婴幼儿超额死亡率都是负数,整体的超死率却仍然被强行维持在14.4%的水平。之前我们说过,从数字来看,其实25-44岁的人风险最大,当年的超额死亡率高达42.79%。但是,这还是“表面”的数字,考虑到前一年,这一年龄段已经“多死”过23.91%的人,扣除其“遗留”的影响之后,该年龄段在2021年的真实超死率很可能超过50%!
而进入2022年之后,Omicron开始流行。由于三月之后的数据尚未完全统计完毕,我们只考察前9周的情况。根据美国CDC的数字,在前9周内,美国又“超额”死亡了103133人(比较的基准对象还是根据我自己调整的模型,所以数据已经相应调低。如果据CDC的另一份官方报告,这个超额数字高达15万8千)。而在25-44这个年龄段,如果按比例调整到全年的话,超死率依然高达32.12%!
但我在这里想说的是,这个数字其实远比看上去的还要“可怕”,尤其是如果我们考虑到在疫情前两年,该年龄段已经“连续”叠加了24%和43%的两波“超额死亡”。事实上,我们应该这样想问题,就是前两年已经“多死”了107468个“青壮年”,假设这些人本来的“死期”应该分布在未来五年之内,那么,他们本来就应该在2022年的死亡曲线上留下一个33545人的“坑”(假设死亡概率依年递减),亦即当年应该“少死”33545个青壮年。但事实上,非但没有少死,反而又继续多死了45531人,要造成这样的结果,只有实际上额外“多死”79077个青壮年才行。
如果是这样的话,那就是说,美国青壮年在2022年隐藏的“真实”超额死亡率实际上是54.32%,而不是表面上的32.12%。之所以看上去低一点,只不过是被前两年留下的“超额大坑”掩埋了一部分而已。
当然,以上32.12%的数字是根据前两个月同比例调整到全年的,实际上四月之后,Omicron的感染高峰过去,真实数字应该会下降不少。但是,这里想要强调的是,即便全年过完之后,统计数字最后显示超额死亡为0,那也不能说明什么问题事实上,这只不过是一种假象,正如上面说的,本来今年应该“少死”33545个青壮年,如果最后超额死亡正好是0,那说明其实今年“实际上”仍然多死了33545人,真正的超死率实际上是23.04%。只不过,这部分“多出来的”正好跟之前“应该少的”互相抵消掉了,以至于看上去的总数为0而已。严格来讲,除非前两年多死的那107468个“坑”全部被填上,否则我们永远无法认为疫情造成的影响已经彻底过去。
另一个典型的例子是英国。在经历了2020年15.09%,2021年8.19%的两波超额死亡之后,英国在2022年的开头似乎“走势良好”,一度将总体超额死亡率保持在-3%左右。然而不幸的是,这在某种程度上也是一个“假象”。如果仔细分析英国的数据,我们就能发现,它其实跟美国的情况比较相似,就是最脆弱的高龄老人目前都已经差不多“死完了”,死亡比例开始大幅度减少。而相比之下,它的“青壮年”却仍然面临着很高的超额死亡风险,其比例完全没有下降的趋势。
目前英国的人口官方数据更新到2022以来的17个礼拜,其中应该有部分尚未统计完全。我们姑且把它拿来,跟调整过的模型进行对比(Our World in Data之类网站上都只是简单地用过去几年的平均值做基准线,肯定不如我按实际生命表调整过的靠谱)。简单来说,今年以来英国总共“少死”了2364人,但这其中,85岁以上高龄老人占了绝大多数贡献。事实上,他们比预期的要少死4632人,也就是说,除此之外,其他人加起来的超额死亡仍然是正数!
我们可以参考前两年的情况,2020年,英国85岁以上老人超额死亡15.09%,2021年又超额8.19%,今年应该是“应死尽死”,实在超不动了,于是开始下降,如今表面上降到了-6.6%,但是还没有完全补上之前的坑,所以实际上,现在英国老人仍然有轻微的超额死亡风险(中值在0.31%左右,按假定死亡分布的不同,大约在-5%到10%之间摇摆,而不是看上去的-6.6%)。
而相比之下,英国的青壮年则仍然面临着跟前两年类似的风险。以15-45岁组为例,2020年仅超额死亡3.58%,而2021年超额14.55%。今年以来,该年龄组又已超额死亡307人,同比例换算到全年为939人,相当于6.24%的超额死亡率。但还是那句话,考虑到前两年留下的两个“大坑”,今年“真实”的超额死亡率实际上可能是12.33%(按死亡分布假设的不同会有所波动,从8%到18%不等),相比前两年,并未显著下降。
同样,我们也可以算出,英国45-64岁组目前的真实超额死亡风险为12.52%左右,75-84为16.05%,都和前两年没有太大区别。只有65-74岁组风险显著降低,从前两年的13%左右降到了5.52%,具体是什么原因,倒需要好好地调查一下。

结尾部分:

总而言之,英国今年的超额死亡率虽然曾经一度降低到负数,然而实际上,情况却远远没有表面上显示的那么乐观。一方面,这个负数绝大部分都是因为超高龄老人差不多“应死尽死”而导致的,而其它年龄组的风险并没有同时大幅降低。其次,考虑到前两年已经“超死”了很多,目前的低死亡率还有很大一部分应该是被之前留下的“坑”所拉低的,所以实际上,数字掩盖了欧美今年疫情真正的危害程度。尤其是最近一段时间,英国超额死亡率又重新开始大幅抬头,看趋势用不了多久,就会将全年的整体超死数字拉回到正数,而我们之前说过,只有等对应的“波谷”出现,完全填补了之前的波峰之后,疫情的影响才能算完全结束。看看英国前两年留下的12万5千多个“坑”,想要全部填平它们,恐怕还不知道要等到何年何月。而在此之前,英国每年的YLL损失会继续逐年增加。
当然,在这里需要声明,就是超额死亡只看全因死亡总数,并不考虑这些人“究竟”因什么而死。所以这两年“多死”的人有多少是因为新冠,有多少是其他原因,仍然需要进一步具体研究。
关于YLL的话题还没有讲完,不过本篇已经很长,暂且就写到这里。最后,大家可以再思考一下,就是超额死亡数字还能告诉我们什么?其实在一定程度上,它还能透露给我们另一个惊天秘密,就是那些因为新冠死去的人,他们“本来”应该死在什么时候?是不是像很多人说的,新冠杀死的只是“老弱病残”,是已经风烛残年,本来“马上”就要死的人?这个问题,让我们留在下一篇探讨。(顺便说一句,本系列原本是一个关于数据和统计的随笔,并不打算做成新冠专题,所以下一篇之后,应该会换一些别的话题讨论)



以上,转帖完毕,感谢曹老师!

并且欢迎各位直接到曹老师的知乎专栏捧场,传送门:

zhihu.com/column/c_1509219556766216193




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存