查看原文
其他

如何理解美国因新冠去世者死亡年龄的中位数为78岁

圣言的倾听者 陌上美国 2020-10-11
陌上美国

本号之前发了《美国因新冠去世患者的年龄中位数为78岁》一文,主题并不是讨论新冠病毒对人群减龄多少,因为这是个复杂的问题,需要严谨的数据分析,是一个可以发一篇专业文献的话题。但是此文里与这个问题相关的一句话,被一些公号平台借此发挥写文,成为一些争论的焦点。此文阐明与之相关的一些概念,排除一些误读。

每个生命只有一次,对于一个家庭就是全部,不分年龄性别贫富,都一样平等、珍贵。对这次疫情悲剧再次默哀。

Telegram加群(下载app修改privacy设置;拷贝群地址用浏览器打开(微信打开无效);点击“join/进入”)

https://t.me/joinchat/OY6TCk-W0yNMWNhNlGHsKA

Telegram channel,欢迎订阅:

https://t.me/MoshangUS





最近,网络上流传着两篇文章,一篇是作者甲写的《美国因新冠去世患者的年龄中位数为78岁》,一篇是作者乙写的《新冠死者平均年龄78,是否意味着死者仅仅“减短寿命几个月”?》。

显然,作者乙的文章是针对作者甲文章所做的批驳,他在自己文章的开头就点出了对于作者甲一文的不同意见:
“最近美国CDC出了一个新冠的统计报告,揭示了美国所有新冠死者年龄的中位数(Median)是78岁。这一方面确认了老人是新冠病毒的最大受害者之外,也让个别有心的读者灵机一动。他们查到这几年美国的平均预期寿命为78.6岁,那么好像得出了一个结论:美国人本来的平均寿命就是78岁多,而新冠致死的平均年龄也正是78岁,那岂不就证明了在平均上也就让死者损失了几个月的寿命?言外之意,那后果好像也不太严重嘛!既然如此,何必要如临大敌让经济停摆呢?”


这两篇文章在一些时政类的微信群里经过转发之后,就出现了不可回避的争论。然而,在我看来,一些围绕这两篇文章所进行的争论是不得要领的。

因为,无论从社会伦理的角度讨论生命的无价,还是猜测两位作者各自的政治立场和写作意图,都没有意识到他们文章本身在方法论上所犯的错误,即这两个作者实际上都犯了同样技术上的毛病,就是把中位数和平均数混淆了起来,从而,两人在文章中都是直接拿中位数去与平均数进行比较,犯了不当比较的错误。

所以,在这里,为了澄清中位数与平均数的区别,本文仅仅从统计学的角度对两篇文章进行分析和点评,而不会涉及政治立场的讨论,也不会用社会伦理的讨论来代替统计技术的讨论。

 

一、中位数与平均数能够直接对比吗?

 

在统计学中,中位数、平均数、众数、总数等是不同的概念,它们分别代表了不同的数据含义。


平均数,它表示数据的某个总体水平,但它无法表现样本个体之间的差异,而且,它容易受到极端值或异常值的影响。在统计结果中,如果某个数据平均值的标准差(Std. Error)较大,那就说明样本之间的差异性也较大。


中位数,它表示数据的中等水平,它不受极端值或异常值的影响,可以较好的反映数据的集中趋势,但它不能代表整体的特性


由于平均值和中位数的产生方法是不同的,因而,这两个数字是不能相互代替或相互比较的,否则,就是混淆了两者的功能定义和性质差异。例如,某亚洲大国老百姓总是抱怨自己的实际收入被国家统计局公布的“平均收入”而人为拔高了,这是因为,由于一些百万富翁或千万富翁的存在,国家统计局在计算在职职工平均收入时,为了配合社保局所需要的“在职职工平均收入”这一征缴基数,所以,它就不愿公布中位数,而喜欢公布平均数,从而就把很多低收入者的收入水平“被平均”拉高了,导致很多人的感觉失真。


作者甲在文章中说,在此次疫情中,美国“所有死者中,65岁以上的人占80%,死者年龄的中位数为78岁(四分位间距=67-87岁)。而美国人的人均预期寿命在78.8岁上下浮动。这就意味着,新冠对于病人平均寿命的影响,基本在几个月的水平。”


请注意,在这里,作者甲一开始使用的概念是中位数78岁,但是,紧接着她使用的概念是“人均预期寿命”78.8岁,而且,她直接将两个数据进行了对比,得出了“新冠对于病人平均寿命的影响,基本在几个月的水平”这样的结论,显然,作者甲忽略了中位数和平均数是不能直接进行比较的统计学原则。


按照统计学的要求,中位数只能与中位数进行比较,平均值只能与平均值进行比较,而不可以进行交叉比较。


那么,如何准确评估此次疫情对美国人均预期寿命的影响?唯一的办法,就是找到美国因新冠感染而死亡病人的原始数据,并计算出他们的平均死亡年龄。

 


二、美国新冠死亡病人的平均年龄究竟是多少岁?

 

一般来说,计算平均值最好使用原始数据,这时,统计结果是最准确的。在美国CDC于2020年8月19日公布的数据中,因新冠死亡的病人数为170566人,即它基本上是一个全样本统计,不存在抽样误差和统计误差的问题。


然而,由于美国CDC没有直接公布死者的平均年龄,而只是公布了:1、不同年龄段的死者人数;2、死者年龄的中位数为78岁;3、四分位数的间距为67-87岁;4、65岁以上的死者占80%,由此,作为研究者只能在这些信息中,利用以往的研究经验和统计方法进行推断。


1、经验的判断


根据美国CDC已经提供的数据,我们可以对数据的大致分布做如下的描述:


在死者年龄中,0-66岁的死亡人数为25%(其中65-66岁的占5%);

67-78岁的死亡人数占25%;

79-87岁的死亡人数占25%;

88-100岁以上的死亡人数占25%。


在这里,有两个重要的数据标志:一是80%的死者年龄都在65岁以上;二是死者年龄的中位数为78岁,按照这样的年龄结构和以往的研究经验,凡是熟悉统计的人们就很容易凭感觉(或称专业敏感度)做出推断:死于新冠病毒的病人其平均年龄应该是在80岁以上,而不是以中位数表示的78岁。也就是说,此次疫情中有将近50%的死者年龄都已超过美国的平均寿命。


2、加权平均数的统计


由于美国CDC对死者年龄进行了分段编码(Recode),因而要还原原始数据是不可能的。但是,如果我们能够获得整体数据或分段数据的集中度数据,以及不同年龄段的死者人数,那么,我们还是可以通过加权平均数的计算方法大致推算出死者总体的平均年龄。在这里,各年龄段死者人数的占比数就是加权平均数计算公式中的权数(Weight)。见下表。



在表1中有2个数据系列,一个是8月19日的死者年龄分布情况,一个是8月26日的死者年龄分布情况,它们都来自美国CDC网站。


仔细对比两个数据的具体数字可以发现,两个数据的结构大致相同,55岁以上的死者都占到了总体的91.76%,表明数据的集中度相当高


在这里,假定死者中年龄最小的为6周(4月1日死于康涅狄格州哈特福德Hartford地区的一家医院);年龄最大的为105岁(住在首都华盛顿),

按照一般的理解,年龄的自然排序其中位数应该为52.5岁,而美国CDC公布的新冠死者的中位数却为78岁。


在这里,如果我们要计算出新冠死者的平均年龄,则需要在CDC的各个年龄分段中,重新确定某个年龄值作为数值Xn代入计算公式,而不能像惯常那样(假定数据符合正态分布)直接使用各年龄段的中间值,因为在整体上,约92%的死者年龄都大于55岁。


由此,我们也可以假设,在每个年龄段(10岁)里,样本也趋向或集中于大龄者,并且,同时假定每个年龄段的数据集中度都是等概率的,这样,当样本的集中度从60%逐步提高到70%、80%和90%时,其死者的平均年龄也就从78.09岁,逐步提高到79.33岁、80.58岁和81.84岁。


也就是说,一旦每个年龄段90%的样本都集中于大龄者,从而与死者整体的年龄集中度(约92%)保持一致,那么,死者整体的平均年龄就会超过80岁。


实际上,4月23日麻州的统计数据显示,该州共有2000多例死亡病例,其死者的平均年龄就为81岁。6月21日,麻州更新了它的统计数据,数据表明,新冠患者的平均年龄为51岁,新冠死亡病例增加到9000多例,但新冠死者的平均年龄仍为81岁。



美国CDC的数据也表明,90%的死者来自各地的老年关怀中心(养老院或临终关怀医院)。(注:美国养老院里的老人,根据2010年的一篇文献报道,去世前居住时间的中位数为5个月;临终关怀医院的更短,超过6个月的都是奇迹。)



另外,图1较好地呈现了死者年龄的分布情况和不同年龄段的变化率情况,显然:1、这不是一个正态分布曲线,而是一个最简单的单调增加曲线,它表明年龄越大者死亡率越高,因此,很多适用于正态分布曲线的分析方法在此都不适用;2、这条曲线表明,在50岁左右时,死亡人数开始出现了急剧上升,而到70岁左右时,其增速趋于下降。65岁以上的样本占到了总体的79.18%,死者年龄偏大龄化。

 


三、新冠病毒对美国人的折寿有多大影响?

 

从人口学和统计学的角度来说,一个国家的人口平均寿命是以全部人口为统计基数的,即它包括了不同年龄段死亡率对平均寿命的影响。但是,由于不同年龄段的死亡率是不同的,尤其是这几年美国中年人的死亡率出现上升,有可能导致平均预期寿命在不同年份出现波动。


根据2017年的测算,美国人的平均预期寿命为78岁,其中,男性为76.1岁,女性为81.1岁。但是,由于老年人(65岁以上)已经退出职场,竞争压力减少,其平均寿命可能会延长——这就为此次讨论提供了一个技术上的背景。


在作者乙的文章中,他在几处关键的地方提到了78岁:


第一次,他在自己文章的标题里使用了“新冠死者平均年龄78岁”——这时,他的理解应该是平均值。


之后,他在自己文章中的第一段文字里说:“最近美国CDC出了一个新冠的统计报告,揭示了美国所有新冠死者年龄的中位数(Median)是78岁”,同时,“他们(注:可能是作者甲等人)查到这几年美国的平均预期寿命为78.6岁(注:作者甲文章里说的是78.8岁)”——这时,他同时引出了两个概念:“死者年龄的中位数”和“平均预期寿命”,但他没有对两者做出区分,也许,他也认为两者是同质的。


在文章的最后一段,作者乙说:“我计算了一下,对于一个78岁方方面面情况良好的人来说,糖尿病的因素会让他的预算寿命短2年。也就是说,如果一个有糖尿病的78岁老人,如果不幸得了新冠挂掉了,他平均损失的寿命绝不是“仅仅几个月”,而是9.4减2=7.4年宝贵的生命时光。”——这时,作者乙仍然沿用了简单加减法的思维,而根本没有考虑到:美国CDC所说的78岁是中位数,谷歌预测模型给出的9年是平均值,糖尿病人为此折寿的2年也是平均值。然而,作者乙却给出一个结论:这次新冠疫情让美国那些患有各种基础病(如糖尿病)的老年人都被减少了7.4年寿命(注:是平均数吗?)。


实际上,根据医学统计资料,不同的基础病对寿命的影响作用是不同的——这也应该是谷歌预测模型里的重要参数;而新冠病毒对不同基础病的冲击程度也是不同的——从CDC的数据中可以做进一步的研究,所以,仅仅以糖尿病为例来推算新冠病毒对美国老年人的折寿影响,在方法论上也是相当不严谨的。


总之,假设了病毒死者和普通相应年龄段的预期寿命类似,或者,与相应年龄段糖尿病病人的预期寿命类似,这很可能是非常不成立的。这两个样本之间很可能有根本上的差别。不管怎样,作者乙得出“折寿7.4年”的结论,草率而经不起推敲。


正如我们前面通过计算加权平均数和麻州发布的数据可知,美国因新冠病毒而致死的病人平均年龄大概率为81岁,那么,理论上说,即使假定谷歌的预期寿命模型是可靠的(注:实际上大多数预测模型都是不可靠的,因为很多变量是不可控的),美国老年人因新冠病毒折寿的平均年岁要小于7年。要更准确地确定影响,则需要进一步的专业对照设计,模拟计算。


当然,作者乙提出将新冠病人的死亡年龄与基础病的影响作用联系起来进行分析,是有价值的观点,这样,通过分析新冠病人的直接死亡原因与间接死亡原因,可以区分不同人群在此次疫情中所承受的冲击和付出的生命代价,从而,更准确评估此次疫情对人们心理和社会发展的伤害



欢迎请小编喝杯🍵 




前文导读美国不是一个歧视的国家
拔丝学堂|肿瘤与放疗为了孩子,忙碌的纽约父母众生相参议员Tim Scott演讲:“我家从奴役苦工到国会议员,我相信美国现在和未来比从前更好!”从里根大赦到川普修墙:美国非法移民问题三十余年纽约客:一个时代的终结深度解析移民法案斗法风云美国8月失业率数据8.4%,冬季会再社会停摆吗?

 陌上美国 客观快捷的时评,和美国生活资讯。欢迎扫码或者点击开头蓝字关注。如何联系我们?

工作号微信ID: moshangUS

Email:hiusnews@gmail.com

收藏网址:

https://matters.news/@moshangUS

Telegram加群(下载app修改privacy设置;拷贝群地址用浏览器打开(微信打开无效);点击“join/进入”)

https://t.me/joinchat/OY6TCk-W0yNMWNhNlGHsKA


点击左下角“阅读原文”

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存