查看原文
其他

日点击量超十亿!全球都在刷的疫情地图,背后有两名中国学霸

深圳卫视 慧天地 2021-09-20

点击图片上方蓝色字体“慧天地”即可订阅

文章转载自微信公众号深圳卫视,编审:张丹,主编:钱岩,责编:曾沛,来源:中国新闻周刊(id:chinanewsweekly)、南方都市报(id:nddaily)、科技能见度等。原文标题为“‘无心插柳’,每天10亿!中国留美博士操盘风靡全球疫情图”,本文标题有改动。版权归原作者及刊载媒体所有。



(点击图片即可查看详细信息)

近日,两名中国留美博士开发的全球疫情可视化地图登上了世界顶尖医学期刊《柳叶刀》。该地图追踪、展示了各国疫情的实时动态数据,包括地点、确诊人数、死亡和治愈人数等。

霍普金斯大学的全球疫情分布图(网站截屏)

上线以来,该网站的全球日访问量从一月底的2亿次上升到三月初的12亿次,甚至到达过20亿次。来自世界各地的网民不断涌入。


这个数据地图由美国约翰·霍普金斯大学系统科学与工程中心(CSSE)一年级博士生董恩盛等人发起并维护。最初,他只是想要通过追踪数据来观察一场疫情从生到死的整个过程,用这些数据作为他研究疾病的工具。


该数据可视化项目的开发者,除了董恩盛和其导师外,还有另一位中国博士生杜鸿儒。


项目的成功,一方面在于其数据更新及时,另一方面也因为其优秀的展现形式——交互式“仪表盘”(dashboard)。事实证明,这一数据可视化方式非常适合疫情监控。


截至目前,这个项目并未同美国卫生部门有直接合作,数据来源于公开发布的卫生部门数据以及媒体报道。


如今,这个每日点击量超过10亿的网站,已经成为多国政府高层、公共卫生学者和主流媒体引用最多的疫情数据来源。

 
 “无心插柳”的网红数据项目

1月21日寒假过后,在一次博士生组会上,董恩盛的导师、系统科学与工程中心副教授劳伦·加德纳和大家聊起新学期的计划,听说中国的新冠肺炎很严重,便问董要不要做个数据仪表板? 

董恩盛的研究方向是疾病模型,也就是用数学模型和计算机代码来解释一些流行病学、公共健康方面的问题,对全球流行病的发展趋势做基本的判断和推测。当时他已经在搜集数据准备做这个事情了,两人一拍即合。 


就这样,董恩盛在21日花了七八个小时把当日的数据整理出来。22日,“仪表盘”项目上线。



可以看到,此时这个项目的地图上还只有中国和周边地区。相对于今天看到的“仪表盘”,这个地图还很简陋。而随着疫情继续发展,“仪表盘”逐渐升级。


去年5、6月份的时候,董恩盛与劳伦·加德纳便在另一个流行病风险性分析项目中做了一个类似的数据可视化地图,当时引来一些美国主流媒体的报道。所以,他说技术思路上是比较成熟的,很快就能调试上线;另一方面,由于他的中文优势,去中国国家卫健委上面抓取数据即可,所以早期团队在中国疫情上比全球其他一些数据来源更及时。 

董恩盛(右)、杜鸿儒今年1月在美国参加学术会议。(图片来源twitter)

起初几天,数据都靠他手动整理,每天最多能保持4~5次更新。2月1日之后,这种方式变得不可持续,于是项目转为半自动化更新:中国的疫情数据来自丁香园的自动更新,而其他国家的数据依然需要人工审核。为了发现各国新增病例,他们的监测渠道包括世界卫生组织(WHO)、推特、新闻报道、地方卫生部门提供的数据等等。这一阶段,另一个博士生杜鸿儒也加入到数据收集和图表的制作中来。

到了3月初,这个数据小组将美国疫情信息具体到县一级层面。“因为美国郡县大概有3000多个,再加上世界上有200多个国家和地区,人工完成非常吃力。”董恩盛告诉《中国新闻周刊》,于是小组招募了一些志愿者,把人员分了很多组,有的组负责国外,有的组负责美国国内不同地区,然后24小时不间断地发布最新数据。

2月19日,董恩盛、杜鸿儒与劳伦·加德纳发表在《柳叶刀》杂志上的文章介绍了这项工作。文章对比了约翰·霍普金斯大学系统科学与工程中心、WHO和中国疾控中心的数据报告。结果发现,他们的病例数据与后二者报告一致,而且他们在捕获新国家或地区中首次报告的COVID-19(新冠病毒)病例上更加及时。

这个过程中还有很多具体的困难。

比如如何统一好数据的定义就是个问题。虽然用户看到的是“确诊病例”“死亡人数”这些标签,但团队实际面对的却是各国甚至同一国家对于这些概念不同的定义。比如,董恩盛说,一开始美国CDC统计的“确诊病例”需要核酸检测呈阳性加上CDC认定才算确诊,但是他们采用“推定阳性病例”的估算,亦即确诊数据是指由州或地方实验室确认的病例,但未经CDC证实,因此数字要比CDC的大一些。
 
可靠的数据是研究和决策的基础

在线科技出版物Digital Trends3月28日发表文章《最可靠的新冠疫情仪表板》,其中提到六种可视化疫情数据通报平台,约翰·霍普金斯的这套系统获得最高评价。原因是该平台“可视化设计最好,导航明晰、阅读方便,且是六个平台中更新最频繁的。” 

在3月6日于华盛顿国会山举行的一场简介会上,劳伦·加德纳介绍,这个仪表板受到关注有一段时间了,现在平均每天点击量为10亿,最高峰一天点击达20亿。其间有过几次高峰,例如,当意大利疫情暴发时,许多意大利民众涌入网站,意大利用户数超过了美国。

“谁在使用这个仪表板?据我所知,几乎每个人都在使用。它几乎在所有的社交媒体渠道上走红,一直火到美国地方政府、州、联邦政府、公共卫生机构。”劳伦·加德纳说,这说明人们对于可靠的、值得信赖的、客观的信息有巨大需求,所以她认为,非常重要的是看到这种(需求与满足之间的)差距,并且支持这类数据可视化工具走向公众。

霍普金斯团队较高质量的数据成为诸多研究团队进行学术研究的基础,是科学界了解新冠疫情的重要信息来源。董恩盛说,每天他们都会在固定时间发布准确的数据,全世界的学者都可以看到,这方便学者们进行基于时间序列的疫情分析,“而时间序列分析在流行病学,尤其是对于疾病的预测方面有非常关键的作用。”


击败官方的第三方数据


最开始,“仪表盘”并没有现在这么出色。董恩盛在直播中说,从1月22日至31日,“仪表盘”的所有数据收集和处理都是手动完成,“每天两次的更新,通常是在美国东部时间早、晚进行。”


随着疫情的发展,手动更新已然不可能。董恩盛在直播中表示,从2月1日,数据采集系统升级为半自动更新,“抓取的主要数据来源是中国国内的医学自媒体丁香园,而丁香园的数据来源于国家卫健委和各省市区的卫健部门。紧盯丁香园,就能确保‘仪表盘’在中国大陆数据更新的及时性,每15分钟更新一次”。


而对于中国大陆以外的数据,丁香园的更新相对并不及时。这就需要对其他数据来源,包括官方机构、新闻等进行自动监控和手动更新。


到目前为止,根据约翰·霍普金斯大学“仪表盘”官方介绍,其数据来源包括:世界卫生组织(WHO),中、美、欧的官方卫生和疾控部门,各地媒体,以及第三方数据平台如丁香园、worldometers、一亩三分地(1point3acres)等。



董恩盛在直播中还表示,到目前为止项目没有同美国官方卫生部门有直接合作。事实上,从其数据来源上看,均来自公开渠道。


另一方面,美国在联邦政府层面的数据发布迟缓,使得各媒体机构不得不转向第三方数据整合平台。


例如,美国疾病预防控制中心(CDC)报告疫情的页面显著提示:数据只截至到当天下午4点,周六周日的数据更是将延迟到周一才更新。而约翰·霍普金斯大学的“仪表盘”,通过人工和自动更新相结合,目前已经可以做到“几乎全天实时维护地图”。



这也就意味着,在时效性上,CDC的参考意义已经远远落后于其他第三方数据平台。


另一方面,不仅仅是媒体,甚至美国卫生部门本身,也更依赖约翰·霍普金斯大学的“仪表盘”而非CDC。例如,美国副总统彭斯在卫生部门开会时,背后大屏幕显示的就是 “仪表盘”。



服务器随中意美疫情爆发三次瘫痪


以下是南方都市报记者与两名开发者、约翰·霍普金斯大学系统科学与工程中心一年级的博士生董恩盛、杜鸿儒的对话整理。

(温馨提示:建议在WiFi环境下观看)

【南都N视频 | 中国博士开发的疫情地图登《柳叶刀》 全球日访问量曾达20亿】文字:南都记者 陈志芳 视频:南都记者 潘颖欣

南都:在制作过程中有没有发现数据变化的规律?
董恩盛:基本上我们每次服务器瘫痪,都是在疫情有所变化的时候。可以说,我们服务器宕机的节点与全球疫情变化的节点呈正相关关系。

第一次大约是武汉的疫情数据标准(注:临床发现的新冠肺炎病例也加入到确诊病例中)发生变化的时候,大家发现人数突然猛增,很多都到我们网站上看;第二次是意大利疫情爆发的时候,许多意大利民众涌入网站,当时意大利的用户数还超过了美国的;现在是第三次高潮,主要是美国疫情爆发,大家都挺关注美国的数据。

南都:目前有什么困难?
杜鸿儒:对我来说,目前最大的困难是,希望能尽快让数据更新变成全自动化。
董恩盛:困难是从来没有受到过这么多关注(笑)。因为现在流量太大了,经常把我们的系统整崩溃了。像3月12日,一天的全球访问量就有20亿。为此,我们已经换了三台服务器。

南都:还有其他疫情可视化的工具让你们印象深刻的吗?
董、杜:国内的可视化做的比较好,比如丁香园。他们也方便了学生、学者的研究。另外的话,其实我们的新冠肺炎可视化地图是在中国以外的比较早的一家,所以反而是其他国家、机构有学习到我们的可视化结果。

南都:接下去还有什么成果发布?
杜鸿儒:我们现在还在研究新冠肺炎的疾病模型,想研究疾病是怎么爆发的、增长速度如何、真正开始的日期等。
董恩盛:其实疫情可视化地图只是我们研究过程的一个辅助工具,没想到引起这么大关注。这导致我们的工作重点也偏向可视化,但其实我们想做更多的流行病学分析。

点击文末“阅读原文”即可查看文中涉及地图网站


(点击图片即可查看详细信息)




内容转载、商务活动、投稿等合作请联系

微信号:huitiandi321

邮箱:geomaticshtd@163.com

欢迎关注慧天地同名新浪微博:

ID:慧天地_geomaticser

往期精彩推荐

疫情防控信息化案例 | 时空大数据服务平台支撑重庆疫情地图 服务疫情防控
疫情防控信息化案例 | 天津新冠疫情地图系统

GitHub 热榜:中国博士开发可交互全球疫情地图




《慧天地》敬告

《慧天地》公众号聚焦国内外时空信息科技前沿、行业发展动态、跨界融合趋势,探索企业核心竞争力,传播测绘地理信息文化,为测绘、地信、遥感等相关专业的同学提供日常学习、考研就业一站式服务,旨在打造政产学研用精准对接的平台。《慧天地》高度重视版权,对于原创、委托发布的稿件,会烦请作者、委托方亲自审核通过后才正式推发;对于来自网站、期刊、书籍、微博、微信公众号等媒介的稿件,会在作者栏或者文章开头显著标明出处,以表达对作者和推文引用平台版权的充分尊重和感谢;对于来源于网络作者不明的优质作品,转载时如出现侵权,请后台留言,我们会及时删除。感谢大家一直以来对《慧天地》的关注和支持!


——《慧天地》运营团队

编辑:张自轩 审核:富裕 李允琛
指导:万剑华教授
: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存