智能算法能预测新冠趋势?社交媒体大数据之用
关于新冠病毒肺炎期间,管理方面何时该紧、何时可松?在世界范围内几乎都是像猜测游戏,每个决策者都靠自己的直觉去管理。在美国,各个州的判断都不相同。有没有一种科学的方式,帮助预测趋势?
哈佛大学的研究员毛里西奥·桑蒂拉纳(Mauricio Santillana)根据社交媒体和Google的搜索数据,可以在2-3周之前,通过一个模型来预测Covid-19疫情。
(图片来自纽约时报)
实际上,桑蒂拉纳和他的哈佛同事,带着国际合作团队,最近完成了一篇论文并于7月2日刊出,提出了一种算法,可以预警。团队有欧美的17位专家。
这是开发了一个COVID-19预警系统。他们抓取数据流,使用贝叶斯模型估算每个数据流中急剧变化的时机,计算时间指数增长或衰减的概率。数据包括社交网络的微型博客、互联网搜索、即时护理医疗软件和元种群机制模型以及智能温度计网络抓取的COVID-19相关活动的分析。在过去6个月中,大约2至3周之前,可以预测COVID-19病例的增长、死亡情况。研究进一步观察了实施非药物干预(Non-pharmaceutical intervention,NPI)后5到6周内确诊病例和死亡的指数衰减。研究提出了一个用于多个数据流呈指数增长的组合指标,有助于开发针对未来COVID-19爆发的预警系统。
其实,社交网络在新冠病毒的应对中,起到了不少作用。
在此之前,还有研究者绘制了冠状病毒社交网络图,目的是为了减慢病毒的传播速度,如亚历山德罗·韦斯皮尼亚尼和其他分析师正在竞相模拟人类宿主的行为。
在此只谈评估和预测趋势。
大家可能还记得“谷歌流感趋势”预测:
Google Flu Trends (GFT)--大数据与流行病评估
这是使用互联网用户的大数据--实时数据分析,来评估预测流感变化的一种方式,至少可以追溯到2008年。当时Google的工程师开始通过跟踪“疲惫感”,“关节酸痛”,“达菲剂量”等词(“feeling exhausted,” “joints aching,” “Tamiflu dosage” )的搜索趋势,来估计流感的就诊人数。不过,由于数据的局限性以及诸如媒体关注之类的外部因素的影响,它出现了高估医生问诊的次数。事实上,一些搜索与与实际疾病无关。
为了应对在2012-2013年流感季节表现不佳的情况,Google流感趋势(GFT)工程师宣布重新设计GFT算法。但是研究者发现新算法仍有问题,主要是:透明度问题似乎变得更加严重了;媒体关注度的上升是否是GFT错误的唯一或主要原因?谷歌未使用其掌握的所有信息来准确测量流感流行率。
此后,研究人员多次调整,将Google搜索与其他类型的数据结合在一起。卡内基-梅隆大学,伦敦大学学院和德克萨斯大学等团队,结合一些实时数据分析提出了模型。
其中关键是数据的关系。正如弗吉尼亚大学计算机科学家Madhav Marathe所说:“我们知道单独的数据流是不起作用的。”
这次,哈佛大学的Mauricio Santillana和Nicole Kogan领导的团队提出了一种算法,可以在病例数开始增加之前14天或更早,就得记录危险。该系统使用Twitter,Google搜索和来自智能手机的移动性数据以及其他数据流的实时监控。
团队分析了Google以外的其他四个来源的实时数据:Covid-19相关的Twitter帖子,带有地理位置标记;医生在名为UpToDate的医师平台上进行的搜索;来自智能手机的匿名移动性数据;以及来自Kinsa智能温度计的读数,这些读数会上传到应用程序。 程序将这些数据流与东北大学开发的复杂预测模型集成在一起,该模型基于人们在社区中的移动和互动方式。团队通过查看每种状态与3-4月份在每个州的病例数和死亡之间的关系,来检验数据流趋势。
这项研究表明,下一代数据源可能会提供Covid-19流行率上升的早期信号。
不论是否看得懂,展示一下这个研究中的4张图表:
这项研究较早期的社交媒体用户大数据的使用,更注重关系。当然,这就需要充分而透明的数据来支持。
同时研究也是通过跨学科的团队来完成的。
17位作者来自欧美12家机构的不同学科:
1 波士顿儿童医院计算健康信息学项目
2 哈佛大学流行病学系 陈公共卫生学院
3 哈佛大学地球与行星科学系
4 哈佛大学工程与应用科学学院
5 马里兰大学
6 布兹
7 斯坦福大学统计系
8 奥地利萨尔茨堡大学地理信息学系-Z GIS
9 哈佛大学地理分析中心
10 东北大学
11 哈佛医学院
12 德国汉堡-埃彭多夫大学医学中心
这些作者为这项研究做出了同等的贡献!
相关链接:
出处:
https://www.nytimes.com/2020/07/02/health/santillana-coronavirus-model-forecast.html?searchResultPosition=5
https://arxiv.org/pdf/2007.00756.pdf
https://dash.harvard.edu/handle/1/12016837
https://www.nytimes.com/2020/03/13/science/coronavirus-social-networks-data.html?action=click&module=RelatedLinks&pgtype=Article