查看原文
其他

[授权转载] 数据迷思1:新冠只对老年人有害吗?(原作者:曹天元)

拍老师 拍帮主 2022-12-17
 前言
各位晚上好,今天继续授权转载著名科普作家曹天元老师知乎专栏“数据迷思”系列的第一集——《新冠只对老年人有害吗?》
特别声明:
  • 曹老师的“数据迷思”系列专栏文章已经写到了第四集,各位方便的话,不妨移步知乎,直接到曹老师的专栏捧场,传送门:

zhihu.com/column/c_1509219556766216193




第一部分:

在这个大数据时代,各种统计数据可谓铺天盖地。不管是新闻机构、大众自媒体,还是正规的学术研究,所有人似乎都正在引用越来越多的“数据”,以显得自己“有理有据,严谨公正”。乍看起来,这似乎是一种很好的风气。
然而遗憾的是,由于大部分人对概率和统计缺乏深入理解,更有很多人连相关的基本概念也是模糊不清,这就导致他们对引用的“数据”缺乏基本的逻辑分析能力,由此得出的结论当然也是南辕北辙的。
时至今日,哪怕在学界,对于概率统计的误解误用,情况也已经变得愈加严重。滥用p值,胡乱应用各种统计检验,倒果为因,把相关性解释为因果性……越来越多的例子正在被不断报道出来。也许有史以来,从来没有哪个时代,被数据“欺骗”的人会像今天这么多。正如马克吐温引用的那句著名的话:世界上有三大谎言:谎言、该死的谎言,以及统计数字。
在这里,我并不打算大量引用复杂的统计术语,更不打算长篇大论地去列公式、做计算。因为在很多话题上面,其实只要厘清一些基本的概念,再运用一些简单的逻辑思维,就可以分辨绝大部分的“数据陷阱”,所需的数学水平基本不会超过中学。在这个系列里,就让我们用尽可能简单的语言来聊一聊有关数据、概率和统计方面的话题。


第二部分:

首先,基于最近疫情的话题又开始火热,我们不妨还是从新冠相关的问题开始吧。在媒体上,经常看到的说法是:在所有感染了新冠的人群当中,绝大多数死者都是老年人,所以,这个病只对老年人有严重危害,而对于年轻人则不算什么大事。
乍看上去,好像很有道理,但是停,让我们仔细想一想。如果你的思维比较缜密,你会很快意识到这里有些不对劲。虽然最后的结论我们不知道到底对不对,但很明显:这个论证方式是有问题的。哪怕是在自然的情况下,在每天正常死亡的人当中,难道本来不就应该是老年人居多吗?如果我们把新冠换成“喝水”,那么,在“喝过水后死去的人”当中,肯定也是老年人居多,年轻人很少。所以是不是可以说:喝水对老年人危害严重,对年轻人则无关痛痒?这个结论肯定是荒谬的。
当然了,大家凭日常经验就知道,喝水是一件无害的事情,所以我们可以直觉式地排斥以上结论。但如果是某种陌生的事物呢?或许判断就没有那么容易了。

第三部分:

让我们想象这样的场景:有一天,突然一个恶魔来到了地球上。这个恶魔对所有人都施加了某种邪术,然后突然间,大批人纷纷死去。悲剧过后,我们检查死者的年龄分布,发现老年人占其中的绝大多数。而且年龄越高的人,死亡比例就越高。比方说,90岁以上的老人有99%都死了,而80-89岁的老人有90%死了,70-79岁的老人则死了75%……当然,年轻人也有死的,但是绝对数量很少,而且占同龄总人数的比例也很低。那么,我们可以从中得出什么样的结论呢?是不是这个恶魔特别讨厌老年人,
所以必要致他们于死地而后快?然而,这个恶魔很快又回来了,他惊讶地看着我们,说:没有啊,其实我对所有人都是“一视同仁”的啊。我的法术,其作用不过是让每个人都减少了十年阳寿而已。实际上,所有人的遭遇都是平等的,并没有特殊针对任何群体。现在,大家可以看到,在这个故事里,其实表面上的“老人死得多”只是一种假象。真正的情况是,因为老人本来就余寿无多,所以哪怕遭遇到同样的寿命折损,他们也会“当场”死得更多。而年轻人死得少,也并不代表他们一点事没有。只不过年轻人本来余下的寿命就很长,哪怕减去十年,其效果也不会立刻显现出来。
所以,回到新冠的问题上,如果我们想要证明新冠确实对老年人危害更大,至少需要考虑以下几种情况:
第一,不能单纯地只说“老年人的绝对死亡人数更多”,而需要考察他们占总死亡人数的比例。这个比例相比于“自然”状态下,是大幅升高了,还是变化不大?
第二,即使老年人占死亡人数的比例提升了,考虑到他们的“死亡风险”本来就更高。那么,哪怕所有人的风险都提升同样的比例,老年人的“新增死亡”也将会因此变得更多。如果是这种情况,那这个临时的数字其实意义也不大,因为年轻人其实承担了同样的额外风险,只不过这个风险“目前”还没有显现出来而已。

第四部分:

现在,让我们先来考察在没有疫苗的情况下,原始新冠毒株以及后来的Delta变种对“自然状态”下人群的影响。纵观全球,在疫情问题方面,只有美国CDC发布了最详尽、最丰富的相关数据,因此是最理想的考察对象。
首先,我们统计疫情前五年,也就是2015-2019年美国的人口数据,并且拟合出2020和2021年“本来应有”的分年龄死亡比例。事实上,因为CDC刚刚发布了最新的2019年美国人口生命表,两相参照之下,这个数字可以拟合得相当准确。接下来,我们再对照2020和2021年美国实际公布的新冠死亡人数,同样按照年龄层给出相应的比例。最后,考虑到美国“上报”的新冠数字未必全面准确,可能有没查到的,或者被隐藏的。幸好,2020-2021年的全因死亡人数统计目前也已经出炉,所以我们可以获取到这两年准确的“美国总人口实际死亡数字”。先不管其中究竟有多少是“因为新冠导致”,我们把这个实际数字也按照年龄分层,得出相应的比例。将三个数字摆在一起对比,结果如下(拍老师的画外音:可能需要点开大图)可以看出,在过去两年,美国各年龄层的实际死亡比例其实跟预期差不多,并没有出现剧烈的大幅波动。在新冠初起的2020年,美国85岁以上老人占了实际死亡人口的29.93%,在当年报告的38万个“新冠死亡”人数当中,他们则占了31.91%,而我们本来“预计”他们应该占自然死亡总数的30.51%。考虑到“新冠死亡统计”有一定的不可靠性,实际上,2020年高龄老人占总死亡人数的比例甚至要比“预期”略少。
更夸张的是2021年,可能是因为极端脆弱的高龄老人在上一年基本都已去世,2021年,85岁以上老人仅占美国实际死亡人口的27.18%。在报告“新冠死亡”的46万人中,更是仅占20.6%。而我们“预期”当年他们本来应该占美国“自然死亡人数”的30.57%。可以说,在这一年,美国的超高龄老人相对其他年龄层,反而算是“死得少”的。
以上是按照“占比”而言,接下来,我们再按照每年的绝对死亡率,求一个“实际”的风险出来。比方说,如果按照2019年的“自然死亡率”,某年龄段人群“应该”在2020年死亡50万,而实际上死亡了55万,那么我们就容易得出结论:该年龄段在2020年“超额”死亡了10%。注意,这个数字只考虑全部人口,跟“报告”了多少新冠死亡无关,换句话说,不管这些人是“因为”什么而死,总之在这一年全部加起来多死了10%。
同样,我们把2020-2021年美国各年龄段的预期死亡人数,实际死亡人数,还有超额死亡率都画出来,如下图(拍老师的画外音:可能需要点开大图)从这个图中,我们可以看出,新冠对于15岁以下的儿童,其杀伤力确实很低,第一年的超额死亡率最多在2%,第二年最多在10%,而对于刚出生不久的婴儿,风险甚至是负数(有些研究指出,这可能是因为婴儿刚从母体出生时会“自带抗体”的缘故)。而随着年龄增加,新冠的杀伤力逐渐升高,但也并不是年龄“越大越危险”。实际上,数据表明:35-44岁的人风险最大。本来我们预计他们在2020年会死亡84527人,而实际却死了104490人,增加了23.6%。在2021年,本来我们预计他们会死亡87089人,实际却死了124577人,增加了43.05%。
相比之下,对于85岁以上的超高龄人群来说,2020年我们预计他们死亡874281人,实际死亡1012805人,增加了15.8%。而2021年,我们预计将死亡888266人,实际死亡却只有939942人,仅增加5.82%。虽然“绝对数字”看上去很多,但相比之下,高龄人群风险提升的“比例”却反而更小。
事实上,从上图中我们可以发现,“超额死亡”的比例大概在35-65岁之间是最高的,而到了特别高龄的阶段,反而会有所降低。从这个角度上讲,在大家都没有接种疫苗的情况下,原始新冠毒株实际上对中年人和“次老”的老年人才是杀伤力最大的,而“极老”的老年人虽然看起来死得很多,但实际上,风险提升的比例反而没有前者那么高。

结尾部分:

以上说的是还没有疫苗的时候(美国虽然从2020年底就开始接种疫苗 ,但考虑到全程接种三针需要大半年多的周期,加上很多美国人不肯打疫苗,他们在2021年的保护也可以说是很不充分的)。有了疫苗之后,加上新的Omicron变种的出现,情况变得稍微有点复杂起来。以下,我们来考察一下香港从今年1月1号起至今(5月13号)的数字。
按港府给出的官方人口数,香港在2021年底共有7403100人,自今年疫情爆发以来,总共报告死亡9142人(截止5月11日),如果按年龄分层,画出对应的比例,我们可以得到下图(拍老师的画外音:可能需要点开大图)这个图乍看上去,乖乖不得了,本来80岁以上的人群在香港总人口当中,仅占比5.38%,但在9142个新冠死亡的人当中,80岁以上竟然有6495人,占比高达71.05%!很多人肯定要说了,现在我们大可抛开美国的数字不管,因为当时还是新冠的原始株和Delta变种,已经是老皇历了。至少目前来看,香港的数据说明Omicron变种对老年人的伤害更大,这总归是毫无疑问的吧?
哎,还真不一定,因为这里出现了一个新的变量,就是在不同的年龄层之间,存在着不同的疫苗接种率。事实上,如果把该变量考虑进去,我们会发现:这里出现的是一个极其经典的统计学谬误,也就是所谓的“辛普森悖论”。大家不妨先自行思考一下,我们在下一篇里再来继续详谈。


以上,转帖完毕,感谢曹老师!

并且欢迎各位直接到曹老师的知乎专栏捧场,传送门:

zhihu.com/column/c_1509219556766216193

曹老师本专栏的第二集以香港为例讲辛普森悖论,一样很精彩,敬请期待!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存