查看原文
其他

爆了!中国博士生这个研发,连美国卫生部都在用

南方都市报 南方都市报 2020-08-18


“约翰·霍普金斯大学发布的最新统计数据显示……”

“According to the Johns Hopkins University tracker……”


随着全球疫情爆发,约翰·霍普金斯大学的疫情地图数据高频出现在了各大媒体报道中。该地图还登上过顶尖医学期刊《柳叶刀》。就连美国副总统彭斯在卫生部门开会时,背后也是这一疫情地图。


2020年2月27日,在华盛顿的卫生与公共服务部举行的新型冠状病毒工作会议。图自美联社/安德鲁·哈尼克。

而在这些数据背后,团队主要成员是两名中国留美博士生。

近日,南都记者采访了两名开发者、约翰·霍普金斯大学系统科学与工程中心一年级的博士生董恩盛、杜鸿儒


“我们与美国疾控中心的数据是一种互补关系”
南都:多家国内外媒体援引了你们的数据,有人称这比美国疾病控制和预防中心(CDC)公布的数据都更及时、完善,你们怎么看?

杜:美国疾控中心的更新相对滞后,而且他们周六日不更新,所以不能持续地为用户提供数据。此外,我们的疫情地图推出时间很早,许多用户在推出后就持续追踪使用,形成了一种习惯。

董:其实我们与疾控中心的数据是一种互补的关系。疾控中心的数据有权威性,但我们的数据在可靠的基础上更加及时。我们比CDC最好的地方在于,我们的数据精度较高,精确到了县市级。

南都:现在有什么新进展?

杜:解决了之前的数据更新问题,可以进行自动化的信息抓取。接下来想提升数据的精度,将德国、法国和南美洲的国家数据呈现细致到省区级的精度。

南都:访问用户的情况有什么变化吗?

董:截至4月7日上午11点,网站已有161亿总点击量。随着新冠肺炎席卷全球,部分国家官方疫情信息公布较慢,尤其是在非洲、南美洲。因此,从访问量和来源看,这些地方的部分民众也会经常访问我们的疫情地图。

不过,现在做疫情可视化地图的机构太多了,尽管我们的更新速度很快,但像德国、法国等国的部分机构将数据精确到省市级别,因此来自欧洲的访问量减少了。但如果要了解世界整体的变化,一般都是看我们的地图。

网站日流量曾达20亿,服务器曾三次瘫痪
南都:一开始为什么会想做疫情可视化地图?

董:老板(注:导师劳伦·加德纳,Lauren Gardner)是研究疾病传播过程的专家,我们就跟着她一起做。同时,我们的初衷是,希望通过追踪数据,可以观察一场疫情从生到死的过程。

南都:团队有多少人?

董:25人左右,主要负责的还是我们两个人和导师。外围成员主要负责服务器维护、编程处理、媒体沟通等。

南都:在制作过程中有没有发现数据变化的特点、规律?

董:基本上每次服务器瘫痪,都是在疫情有所变化的时候。可以说,我们服务器宕机的节点与全球疫情变化的节点呈正相关关系。

第一次大约是武汉的疫情数据标准(注:临床发现的新冠肺炎病例也加入到确诊病例中)发生变化的时候,大家发现人数突然猛增,很多人到我们的网站上看;第二次是意大利疫情爆发的时候,许多意大利民众涌入网站,当时意大利的用户数还超过了美国的;后来第三次高潮,主要是美国疫情爆发,大家都挺关注美国的数据。

南都:目前有什么困难?

董:之前困难是从来没有受到过这么多关注(笑)。因为流量太大了,经常把我们的系统整崩溃了。像3月12日,一天的全球访问量就有20亿。为此,我们已经换了至少三台服务器。 

钻石公主号的撤离人员应如何标记?这里有个隐私问题
南都:数据来源是哪里?是怎样处理的?

董、杜:世界卫生组织、美国疾病预防控制中心、欧洲疾病预防控中心、中国国家卫健委、当地新闻报道和卫生部门,以及丁香园等。目前,我们使用了半自动化的实时数据流策略。我们会与计算机系的朋友合作,让他们运用机器学习、自然语言处理等技术在网上搜索相关信息,但为了确保数据准确性,我们还会进行人工比对核实和手动更新。

南都:可视化的过程对你们来说难吗?

董:我之前有可视化经历,所以在技术思路上相对成熟。但在数据来源和数据结构搭建上还是遇到一些困难。一是数据的半自动化比较费事;二是需要考虑地图上点的放置,不同国家的数据层级等问题。一些小功能的增加其实会让数据有很大变动,或是增加服务器的负担。

杜:举例来说,我们后来增加了数据更新时间。这其实是有难度的,因为我们的用户来自世界各地。后来,我们把地图时间调整为格林尼治时间(注:全世界的时间标准),但相应的也需要把以前的数据做很大的调整。

从制作到第一次发布大约花了六、七个小时,但之后每一次改进花的时间都非常多。

南都:接下来疫情地图还会做什么改进吗?

董、杜:增加更多的可视化工具、进行进一步的数据公开。其中,可视化可能会精确到美国郡县级(注:相当于中国的市级单位),但因为涉及到隐私问题,我们也会再考虑。

举例来说,我们之前在处理钻石公主号的患者标记位置时,就遇到了一个“隐私乌龙”。当时,部分钻石号旅客撤回到美国。由于患者具体位置不明,我们就选择将点标记在美国相对而言的一个地理中心——堪萨斯州。但有些美国人比较喜欢探索,会放大地图,放大到最后发现这个点落在他们小区上。他们以为自己小区竟然有新冠肺炎病例,但实际上不是这样的。小区上报给当地卫生部门,又再层层上报,最后我们学校的新闻官告诉我们赶紧调整一下。于是,我们将点暂时放回了钻石公主号最后的停靠位置,日本横滨港。

现在我们的处理是,地图放大到一定程度,标记的点就看不到了,不让他们把自己家和这个点形成对应关系。


南都:钻石公主号的数据为什么单独处理?

董:这其实是跟国际媒体的报道有关系。一开始大家把钻石公主号的所有案例归结为日本当地的案例,之后又把日本国内的案例与钻石公主号分开了。我们就重新调整了数据,这也造成可视化的时候,日本统计数据有了断崖式下降。但这个不是数据本身的问题,而是初期全球统计的一个偏差。

朋友转过来说挺好的,最后发现是我们做的
南都:你们专业的具体研究内容是什么?

杜、董:我们两个的主要方向是疾病模型,也就是用数学模型和计算机代码来解释一些流行病学、公共健康方面的问题。研究侧重的不是医学本身,而是对全球流行病的发展趋势做基本判断和推测。

南都:什么时候发现疫情地图受到了广泛关注?

董:一开始是发现学校内部发了新闻稿件,接着学校主网站的头版头条推送了我们的疫情地图。后来开始出现了“逆向传播”的现象,比如我的朋友会转发给我,说“要不你看一下这个东西,挺好的”,我的西班牙助教也是前几天问我有没有看过这个图,是他一个西班牙朋友推荐给他的。我就告诉他们是我们做的。

南都:登上《柳叶刀》是怎样的一个过程?

董:其中有个小故事。我们之前有一篇关于麻疹的文章,当时处于向《柳叶刀》投稿过程中。但这时新冠肺炎爆发了,几乎《柳叶刀》所有编辑都在忙新冠肺炎的文章。我们老板(注:导师)就比较着急,发邮件问《柳叶刀》主编关于麻疹文章的进展如何。主编回应说他们忙于新冠肺炎文章,但天天都在看我们的地图。于是,我们老板觉得必须有一篇文章向大家介绍,做疫情可视化地图的经过,让大家了解我们的数据来源和处理过程,对我们有信心。

南都:还有其他疫情可视化的工具让你们印象深刻的吗?

董、杜:国内可视化做的比较好,比如丁香园。他们也方便了学生、学者的研究。我们的新冠肺炎可视化是在中国以外比较早的一家,所以反而是其他国家、机构学习到了我们的可视化成果。

南都:接下去还有什么成果发布?

杜:我们现在还在研究新冠肺炎的疾病模型,想研究疾病是怎么爆发的、增长速度如何、真正开始的日期等。

董:其实,疫情可视化地图只是我们研究过程的一个辅助工具,没想到引起这么大关注。这导致我们的工作重点也偏向可视化,但其实我们想做更多的流行病学分析。

南方都市报(nddaily)原创报道
出品:南都人工智能课题组
采写:南都记者 陈志芳

* 南方都市报(nddaily)原创内容未经授权,不得转载。





▊ 南都福利社南都君将送出3本《工作不焦虑》。美国创新领导力中心(CCL)大中华区顾问委员会陈朝晖、海尔集团副总裁杜镜国作序推荐。要成为高效能人士,首先要做的是破除焦虑。本书提出了"压力+纠结=焦虑"的公式,并给出了"唤醒、专注、超然与释放"四步解决方案,手把手指导构建韧性思维,帮助我们不断调整自己,轻松愉悦地完成工作。戳链接,查看参与方式。

点击图片,34元
 ▊ 南都君特选(戳下方标题)
重磅!广州“禁野令”出台!这三类明确不能吃

今天,数千人从武汉返回广深,这些装备亮了

记者去了广州矿泉街美妙美食店,沿街商户关闭
10、9、8、7、6、5、4、3、2、1
广东赴鄂医护搏命瞬间

广州 | 深圳 | 惠州 | 东莞 | 佛山

潮州 | 揭阳 | 汕头 | 汕尾

珠海 | 中山 | 江门 | 清远

韶关 | 梅州 | 河源 | 云浮

湛江 | 茂名 | 阳江 | 肇庆

点个“在看” ↓↓

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存