查看原文
其他

全美单日确诊暴增10万累计68万+事件的背后,美国疫情数据乌龙是这样发生的

Warald 一亩三分地Warald 2020-08-25

点击蓝字关注我们





4月13日周一,很多同学在中英文媒体上都看到了“全美确诊单日暴增10万,确诊68万多”这个错误的信息。微博也有一个热搜  #美国疫情统计出现乌龙# 


一亩三分地一直在维护北美疫情数据实时更新网站:http://coronavirus.1point3acres.com/

网站由一亩三分地的工程师们开发和维护,数据由志愿者们整理。


有同学昨天发现了网站数据异常,在地里发帖问:《一亩三分地疫情数据,佛罗里达狂增10w?》


一亩三分地站长Warald在帖子里做了初步回复,后来有同学追问:

所以说美国疫情数据的传播链是这样的?


一亩三分地 -> JHU -> 权威新闻媒体 -> 各路转载的新闻媒体 -> 国内公众号 -> 国内的家长们 -> 北美留学生从父母那里得知 -> 留学生来一亩三分地问


真这样的话,地里是疫情数据源头啊

https://www.1point3acres.com/bbs/thread-626023-1-1.html


本着客观、全面的原则,就此事做一个回复。


首先,我们需要道歉,在整理疫情数据的过程中,我们犯了错误。


其次,我们的错误,被中美媒体复制到全世界了。



事件回顾


4月13日周一下午(美国西海岸时间)


16:00


我们一个志愿者统计佛罗里达州 Okaloosa County 数据时,本来应该把102改成103,但输成了102103 - 这是美国4月13日单日暴增10万+确诊的来源。


16:01


该错误被部署到一亩三分地北美疫情网站生效。


16:10


我们陆续发现有人提醒数据出错了。


16:12


我们发现了出错的地方并进行修复。


16:13


修复上线生效。


END


整个事故,从西海岸下午14:01发生,到14:13修复,持续了12分钟


两次部署的网站镜像如下:

16:01PM 出错 https://pneumonia-pisn3h0lz.now.sh/

16:13PM 修复 https://pneumonia-n94an8igr.now.sh/


修复之后,我们才意识到,在这短短的12分钟,中国和美国媒体都报道了美国确诊数目暴增的消息 - 单日涨10万是很吓人的。后来,微博上了热搜,国内群众认为是约翰霍普金斯大学(JHU)出了错,因为它家是很多权威媒体引用的数据源。


随后,国内陆续澄清:《约翰霍普金斯大学谈“全球确诊200万”数据乌龙》。新闻里基本都说下面这段话:

中新社国是直通车第一时间联系了约翰霍普金斯大学疫情可视化数据图的核心成员。


该成员回应,数据上的波动变化是由于美国佛罗里达州的数据源在人工输入的时候出现了问题。


该成员称,已经在Dashboard和GitHub上做了更正。现在系统已经恢复正常。




一亩三分地和JHU数据的关系



JHU的网站里列举了数据源,其中一个是1Point3Acres,一亩三分地网站域名。


JHU疫情网站有该校教授Lauren Gardner和她的一个博士生(也是中国人)创办的。Gardner教授在4月份接受 Science Magazine采访时,说:

There is a media aggregation site for the United States called 1point3Acres that we follow really closely. We take U.S. data from them, and they pull global data from us.  

我们很感谢Gardner教授对我们认可,尤其是在接受Science采访时,给我们credits。


Science 文章:‘Every day is a new surprise.’ Inside the effort to produce the world’s most popular coronavirus tracker

Science 链接:

https://www.sciencemag.org/news/2020/04/every-day-new-surprise-inside-effort-produce-world-s-most-popular-coronavirus-tracker



一亩三分地和JHU是并行团队



一亩三分地团队之前发现过有大型网站(包括某世界各类统计网站和某新闻app),均曾经爬取一亩三分地数据,做为它们疫情tracker的部分数据来源。


但JHU情况不同。Warald跟Gardner教授通过电话,并且多次邮件联系。我们交流过双方团队运作心得,感觉两个团队模式很接近。一亩三分地专注美国和加拿大,JHU面临的是全球数据,Gardner教授团队面临的问题更大。


在整理数据的过程中,我们经常遇到棘手的难题,非常希望能有其他独立运行的团队,其数据是认真推敲的,可以作为参考。所以,有JHU团队的存在,我们很高兴。


Gardner教授告诉Warald,她的团队会参考多个数据源,会对数据做QC。此外,她们有开发Anomaly Detection System来检测数据异常。


但我们并不清楚此次的错误是如何绕过JHU团队QC和Anomaly Detection的。


除了JHU,我们知道还有各种网站爬取我们的数据,昨天也跟着“中招”,但维护网站本身已经很累了,实在没精力去挨个联系。


总之,这个错误实在太明显、太独特了。我们认为:凡是4月13日,说美国确诊总数超过68万,佛罗里达超过10万的,都是在复制我们的错误。


但凡有人工加以认真检查的,就不应该跟我们在短短的12分钟内,犯同样的错误。毕竟,单日确诊超过10万,又是佛罗里达一个州,明显违反常识。



我们很重视数据的准确性



弄错佛罗里达数据的这位同学对于错误被传播开,感觉非常抱歉。我们对这位同学,只有理解,没有任何指责。


因为数据越来越大了,更新花的时间越来越久,很容易出错,而且,即使是美国政府部门的官网,也会有各种错误,增加我们的工作难度。


举个例子,下面这张表格,很多人会以为 total death = 4 


一亩三分地有数据收集流程上的管理制度,来减少错误,志愿者们也非常小心。但我们作为一个民间组织,身后没有约翰霍普金斯(JHU)这种全球一流大学的全力支持,一亩三分地疫情网站每下点击得Warald自掏腰包(非常感谢在疫情网站请我们喝奶茶、捐款支持我们的同学),我们之前没有人力来开发Anomaly Detection System。目前,我们在做这方面的开发,来尽量避免人工错误。


最后想说,当我们遇到很难解决的问题时,举目四望,真的很希望有其他的信息源,可以作为参考、用来double check。也很希望别人能及时告诉我们什么地方有错误。工程师熬夜维护网站、数据团队志愿者花大量时间核查每条信息,我们希望能把准确的数据带给大家。


谢谢大家的理解。






疫情通报

数据来源

截选自一亩三分地疫情网站


更多信息请查看

一亩三分地北美疫情地图

北美新型冠状病毒疫情实时动态

中文网站链接

https://coronavirus.1point3acres.com/

中文网站二维码


英文网站链接

请转发到Twitter、Facebook等英文网站

https://coronavirus.1point3acres.com/en

英文网站二维码


谢谢大家的支持!

美国挺住!

加拿大挺住!

后台回复:APP

下载一亩三分地看帖回帖更方便!

海量内容等你来发现!


 

一亩三分地与你一起成长!


这里是信噪比最高、干货最多、人气最旺的中国人社区。

https://www.1point3acres.com/bbs/


更多精彩内容“阅读原文”

喜欢我们的内容点“在看”分享给更多小伙伴

Modified on

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存