COVID-19:挑战与GlS 大数据技术应对( 文|周成虎等 )
作 者
周成虎、苏奋振、裴 韬、
张 岸、杜云艳、罗 斌、
曹志冬(自动化所)、王卷乐、
袁 文、宋 辞、陈 洁、
许 珺、李富佳、马 廷、
姜莉莉、颜凤芹、易嘉伟、
胡云峰、廖一兰、肖 寒
中国科学院地理科学与资源研究所
资源与环境信息系统国家重点实验室
摘 要
新型冠状病毒肺炎(COVID-19)重大疫情突袭人类社会,超十万人感染,数千人死亡,目前感染和死亡人数依然在快速增加。严重威胁人类健康、生产生活、社会运转和国际关系,引起全世界广泛关注。在抗击疫情过程中,地理信息系统(GIS)和大数据技术在多源大数据快速汇聚、疫情信息快速可视传播、病毒空间溯源、人群区域传播预测、区域空间风险划分与防控力度选择、防控资源供需平衡与调度、社会情绪引导与恐慌消除等方面发挥了重要作用,为此次疫情的防控决策、措施制定和防控效应评估提供了坚实的空间信息支撑。GIS 已经发展较为成熟,有一套完备的数据准备、平台搭建、分析模型构建和地图制作技术路线,但对于疫情防控,主要挑战在于如何改变传统技术方法,提高速度和准确度,快速为社会管理提供准确信息。同时,在大数据时代,数据不再主要来自于政府投资,更多地掌握在不同企业中,导致GIS 面临数据获取难和异构融合难的问题,需要会同政府、企业和学术界共同商议推进相关政策制定,在技术方法层面上针对大数据的空间分析方法方兴未艾,在当前和未来很长一段时期,GIS 应当加强发展并形成数据驱动的知识快速获取方法体系,特别是在为社会管理提供支撑时,加强模型和方法的社会运转参数化问题。
关键词:
COVID‐19,大数据,GIS,空间传播,社会管理
01
Background &Development
新型冠状病毒肺炎(COVID-19)的爆发是国际关注的突发公共卫生事件(WHO,2020)。截止3月8 日,蔓延102 个国家和地区,感染人数超过十万, 病亡人数3830 人,严重影响经济社会发展。联合国秘书长古特雷斯2 月28 日呼吁各国采取行动,尽一切可能遏制新冠肺炎疫情。
联合国可持续发展目标(Sustainable Development Goals,SDG)旨在2015 至2030年间解决社会、经济和环境三个维度问题,转向可持续发展道路。此次疫情直接威胁 “良好健康与福祉”目标实现,同时影响经济社会目标的实现。在全球环境变化下,疾病流行传播特征尚未被足够认知,与此同时,全球城市化进程加快,在发展中国家,人群更集中,交互更频繁且复杂,医疗保障更为短缺,这些都加积了疫情防控的困难。
中国出色应对过程
中国在疫情之初,快速分离出新冠病毒,开展基因测序确定了中间宿主,积极开放向国际提供数据,连续三次派出专家组进驻武汉。1 月23 日中国政府采取果断措施,武汉封城,关闭湖北省各城市对外通道,各省先后启动公共卫生一级响应,有效遏制了疫情传播。中国承担了巨大的个人和社会经济损失,为中国和全球防控赢得了宝贵时间。2 月3 日,历时仅10 天,建成1000 张床位的火神山医院投入使用,2 月8 日,建成1600 张床位的雷神山医院投入使用,全国医务人员驰援湖北,打响疫情攻坚战。2 月12 日执行应收尽收的同时,湖北省内的疫情迎来拐点,疫情进入下降通道。在此过程中,本研究组运用GIS及其空间大数据技术,为政府判断疫情和制定防控措施提供了重要的科学技术支撑,具有很高的科技显示度。
疫情在中国的发展时空过程
自2019 年12 月以来,湖北省武汉市发现多起不明原因病毒性肺炎病例。随后在武汉市暴发,并迅速蔓延至湖北及全国,甚至其他国家。新增确诊病例数在1 月10 日至24 日期间迅速增加,1 月31 日至2 月7 日报告病例达到高峰并趋于平缓, 2 月12 日增加了临床诊断病例出现高峰。截至2020 年3 月4 日,中国累计确诊病例80409 例(国家卫生健康委员会,2020),中国外76 个国家和地区累计确证12688 例(WHO, 2020)。
图1 全国各省市区每周新增确诊病例变化
(2020/01/10-2020/03/4)
从空间上看,自2019 年12 月在武汉市暴发并在湖北省内蔓延。1 月18 日受春节大规模人群迁移影响,疫情迅速在全国蔓延,截止1 月29 日,全国各省区均出现确诊病例。2月7 日,出现新增病例高峰。到2 月14 日后除湖北省其他省市区确诊数逐渐回落。到2 月21 日,湖北省每日增长在百人规模,其他省市区新增确诊回落到个位数,全国疫情得到有效控制。
图2 全国各省市区每周新增确诊病例变化
(2020/01/17-2020/02/24)
02
GIS 时空大数据十大挑战
本次疫情具有病毒传播性强、潜伏期长、检测不确定等特点,叠加人群大规模流动等因素,特别需要科学技术支持防控,期间GIS 和空间大数据技术在抗击疫情中发挥了重要作用,本报告主要回顾其中的十个挑战与应对:1)疫情大数据信息系统快速构建;2)面向问题的大数据快速汇聚;3)疫情跨尺度动态地图便捷制作;4)病毒空间大数据溯源与轨迹时空比对;5)病毒空间传播速度与规模预测;6)疫情空间风险划分与防控级别选择;7)医疗资源供需空间动态平衡;8)物资供应与运输风险评估;9)人口流动与空间分布快速估算;10)社会情绪的空间传播与探测。
疫情大数据信息系统快速构建
GIS 技术的发展实现了快速针对主题构建完整信息系统,特别是在数据库管理、空间分析工具和地图制作等方面。与此同时,所构建的信息系统往往也受限于基础商业软件的功能限制。在此次疫情应对中,许多机构和研究组利用现有商用软件,构建了许多 “疫情地图展示”、“发热门诊查询”、“同乘信息查询”等信息系统,为疫情防控的做出了重要贡献。考虑到舆情防控决策需要快速分析时空动态,需要多地理尺度综合考虑,为此,我们1)连接了卫生防疫部门和互联网,构建了多源疫情时空大数据虚拟感知网络,将传统疫情GIS 以“天”为时间尺度相对静态的信息系统发展到以 “小时”、乃至“分钟”实时动态GIS;2)构建了疫情大数据时空立方体模型,实现不同空间基准、不同时间、不同尺度、以及不同语义的多源异构数据的归一化建模与混合多态数据统一存储管理;3)构建了疫情描述、诊断、预测、决策计算引擎,将传统线上疫情GIS 以“看-查”功能为主发展至“看-查-分析”一体化整合阶段;4)构建了“全球分国-国内分省-分市-分县-社区-个例”多尺度一体化疫情时空动态可视化技术,解决统一时空基准下的多维疫情数据“一张图”可视化分析难题;5)采用新一代云原生架构技术,设计了“后台基础设施-中台时空大数据治理-前台疫情众创应用”三重结构,解决传统信息系统开发模式环节多、流程复杂、交付周期长的问题,满足了应急状态下疫情GIS 快速构建需求。
面向不同防控尺度的信息动态查询
面向问题的大数据快速汇聚
大规模疫情防控的决策与行动依赖于数据支撑。大数据的产生和运用无疑有助于及时全面地掌握疫情发展时空过程和防控措施及其效用等。如何面向疫情防控,快速实现地理和社会空间信息的汇聚是开展后续时空挖掘和分析的最基础问题。本研究基于统一地理时空框架,通过统计数据采集、网络数据抓取、数据API 接口以及国内外共享平台合作交换等方式,快速汇聚和集成国际WHO 发布数据、国内卫生和疾控日报数据、专业人口健康平台数据、腾讯位置请求大数据、百度迁徙大数据、微博文本大数据、病患时空轨迹数据、国际航线数据,以及人口普查、教育招生、土地覆盖、遥感影像等多源数据。在统一的空间匹配、栅矢转换、统计归一、格式转换等支持下,快速集成应用于战疫分析系统、COVID-19 舆情监测系统、病患时空轨迹自动检测系统等时空分析和可视化系统。在此过程中,也暴露了GIS 在数据自动关联汇聚、历史数据溯源、异构数据自适应转换、多源数据的标准化仓储尚有待发展,在时空大数据的分级分类和安全管理目前研究非常薄弱。
疫情跨尺度动态地图便捷制作
COVID-19 疫情暴发以来,除了政府新闻发布疫情信息外,还广泛通过互联网平台、微博、微信等渠道传播,这些海量多源的信息给疫情制图带来了很大的挑战,ESRI 的知名制图专家Kenneth Field 就认为要负责地绘制新冠疫情地图(Field, 2020)。他认为目前的新冠疫情地图存在地图投影、分级统计图的合理使用,湖北的巨大的离群值的处理、合适的颜色、对数分级、使用点密度和比例符号、慎用热力图和三维图等10 大误区。
为此,我们设计了以数据驱动的模板制图,通过快速处理34 个省市区和300 多个地市实时公开疫情数据,实现了多尺度地图数据库模板匹配,利用事先制作的专题地图模板,实现多要素疫情地图的快速制作和发布。在色彩符号设计上,形成了红紫色系的病例色谱、蓝黑色系的死亡病例色谱、治愈病例色谱等,既符合专业知识的色彩含义,也能给人很好的情感联想。在时空表达上,通过逐日的时空动态地图,谱系的表达了疫情传播的时空特征。此外还通过知识制图,结合流行病和应急反应相关专业知识,从数据中总结规律,设计了每十万人累计确诊病例分布地图、新增确诊病例连续下降统计图表地图、连续0 新增累计天数地图等指数地图,多维动态的表达疫情及相关信息。“图说每日疫情”信息平台于2 月1 日正式上线,通过微信公众号,以科学解读的形式每日面向社会公开提供世界疫情、全国新冠肺炎疫情空间分布、疫情发展变化疫情专题地图加图表10 余幅,以及重点省份的疫情空间分布及变化信息,已经累计发布33 期,累计浏览量达到52380 次。
图3 基于多尺度模板的快速制图
病毒空间大数据溯源与轨迹时空比对
病例活动空间轨迹比对是病毒溯源和传播链重建的重要技术性工作,病例活动轨迹与群众轨迹比对是划定潜在被感染人群的重要科学依据。如何从文本数据快速自动提取患者时空轨迹,建立时空比对方法,发现患者潜在的时空暴露链路,以支持流行病调查与快速分析,实现跨区域的疫情传染路径的自动检测,是GIS 所面临的重大挑战。本报告完成1)患者文本轨迹数据的时空事件过程重构技术,将行踪轨迹文本自动转换为时空量化事件;2)覆盖全国的患者轨迹文本时空事件数据库,轨迹数据达7 万条;3)构建融合时间、空间和文本相识度的暴露度计算模型和患者-结点-患者关联模型,实现了每个个体的暴露度评估及场所风险评估。基于此,发现了天津宝坻百货商场、黑龙江哈尔滨透笼商场、浙江温州银泰世茂等疫情重点传播场。
图4 病例空间轨迹暴露度分析
病毒空间传播速度与规模预测
传染病在大规模人群中的时空传播扩散是一个复杂巨系统,本报告从地理环境、社会空间角度开展空间模拟(Grassly 等,2008;Riley 等,2007),针对防控的空间阻隔措施和中国春节的大规模人口流动,增加空间异质变量考虑和群体迁移变量,建立了以武汉为中心的
“1+X”多疫区时空耦合传播动力学模型-Multi-SEIRDC,具备对中国各地COVID-19 疫情时空溯源与动态演进推演的能力。研究表明,COVID-19 在武汉出现人传人的时间最早可能在11 月底-12 月初,基本再生数的期望均值为4.08,变化范围为3.37-4.77。武汉封城前一天,全国感染COVID-19 的人数约为18556 人(95%置信区间:14134-22978)。武汉封城后约1.09 万人留存于武汉,其余0.77 万人流向武汉外。截至3 月5 日,武汉实际感染规模可能超过10 万人,由于检出能力严重不足,前期可能存在大量疏漏的轻症和无症状感染者。湖北外疫情的有效再生数在2 月2 日下降到小于阈值1,达到拐点并进入稳步下降通道,疫情归零前有一段长尾波动,未考虑境外输入反弹情况下,归零时间预计为3 月中旬。
疫情空间风险划分与防控级别选择
评估不同区域的疫情风险和传播风险,对于防控力度的决定和调整具有至关重要科学意义。考虑到疫情爆发中心为武汉,因此首先考察各省确诊病例数与武汉流入各省人口数之间的相关性,研究表明,截止2 月2 日24时,各省疫情严重程度与武汉封城前输入人口数量高度相关,相关系数为0.77。将确诊病例数及人口流动数据空间化,构建风险评估模型,在区域尺度上预测风险划分的三级圈层,在城市尺度找出了北京、深圳、广州、上海、重庆、温州、珠海、长沙、哈尔滨等高风险城市。利用各地病例数,人口迁移量,交通网络三个变量,预测春节后除湖北外,北京、深圳、广州、上海风险最高,重庆、长沙、杭州、郑州、南京、西安、成都次之。
图5 全国COVID-19 疫情风险分级
医疗资源供需空间动态平衡
医疗资源的空间分布在一般情况下是基本平衡的,但疫情的空间不均衡性爆发和快速发展,将导致医疗资源在时空上的供需失去平衡,由此掌握医疗资源供需时空动态信息优化物资调配成为疫情防控取得胜利的关键。本研究基于互联网医院求助信息、各地病例及预测、本底资源数据等,通过交叉比对与抽样核实(电话询问和网页查询),对目前全国医用防护用品短缺的动态状况进行了分析,1)及时发现医用防护用品短缺医院462家,其中,湖北省336 家,其他主要是四川、安徽、广东、江苏、湖南等地;2)综合病例数、物资短缺医院数和城市人口,将医护用品短缺在区域上划分为4 个等级(图2),城市尺度上划分3 个等级。以上成果为本次疫情防控的全国医护资源配置提供了重要科学依据。
图6 地级市尺度病例数与缺物资医院的关系图;
注:Mi 为地级市i 累积病例数,Pi 为估算地级市i 人口数量;
Ni 为地级市i 缺物资医院数量,截至2020 年2 月2 日19 时。
图7 全国医用防护物资短缺医院分布
物资供应与运输风险评估
稳定高效的全国物资供应与运输是疫情防控顺利的重要保证。我们融合了分省疫情数据、网购消费数据、邮政业务量数据等,分析防疫期各省蔬菜、肉类等食品及生活必须品供需形势与价格变化、各区域邮政及快递业务量变化态势,以识别物资短缺风险区域、种类、规模及运输保障能力,为社会管理部门及时掌握社会物资供需动态信息提供了客观数据。同时通过追踪物资运输轨迹,识别运输过程中可能发生病毒传播的高敏感节点,为防控疫情跨区域扩散提供预警和决策支持。由于此部分大数据涉及公司的商业信息,其大数据获得不容易,这为将来涉及商业秘密方面的大数据共享应该成为重要研究方向。目前京东、顺丰等国内大型网购和物流公司已开始初步建立基于GIS 的物流监控体系,未来在物联网技术支持下,逐步构建起覆盖全国的分类物资运输监控体系并建立国家级数据集成与分析平台,将能在全社会应急决策中提供更准确更及时的物资供应与运输能力信息。
图8 2020年1月31日中国大陆新冠病毒
沿物流过程传播风险指数分析
人口流动与空间分布快速估算
人口的空间流动数量和规模,是疫情传播空间预测、风险区域划分、防控措施力度选择等不可或缺信息(Zhao 等,2020)。春节回家过年和节后返程都是大规模人口流动。我们用百度人口迁徙大数据预测春节后返工人口流动带来的风险(XU 等,2017)。图1 表明由于疫情防控的空间阻隔,2020 年春节的全国人口流动明显低于2019 年。根据2019 年和2020 年2 月17 日至23 日的人口流动变化,计算了城市人口流动恢复速度(图2a),表明东南方经济发达省份人口返城速度较快。人口流动网络和社区划分(图2b)表明,返工人口主要从河南、安徽、江苏到长江三角洲地区,湖南、贵州、江西到珠江三角洲地区。
图9. 2019年和2020年春节同期全国人口流动趋势
图10(a). 中国城市人口流动恢复图;
(b)返工人口流动网络和社区划分
在疫情爆发之初,基于开源腾讯位置请求大数据、百度迁徙大数据、土地覆盖数据等,本研究构建了区际迁徙人群多层次空间分布动态估算模型,快速推算出2020 年除夕 (2020年1 月24 日)之前从武汉流入湖北省内各地的人群数量及其分布特征。结果显示:1)从武汉市迁入湖北各地级市的人群中至少51.3%流入农村地区;2)区县尺度人群变化总量的空间分布呈现3 个圈层结构,即武汉及周边为核心区,黄冈、黄石、仙桃、天门、潜江、随州、襄阳,以及孝感、荆门、荆州和咸宁的部分地区为关注区,湖北西部宜昌、恩施、神农架和荆门部分地区为次级关注区。以上研究提请了政府关注,疫情发展验证了研究的客观性,有力支撑了政府决策。
图11 2018年春节时段(初一至初四)
湖北省内区县尺度人群变化总量
社会情绪的空间传播与探测
重大疫情来临时,恐慌对社会运转的冲击有可能超过病毒疾病本身,为此,本研究利用海量社交媒体数据进行社会情绪的空间传播追踪和程度评估。考虑到疫情中,公众行为具有非理性,强感染性和从众性的特点,需要构建了疫情情绪关联知识库,从社交媒体上挖掘舆情在时间、空间、语义上的动态演化过程。本研究以新浪微博为数据源,基于主题模型与机器学习方法构建主题抽取与情感分类框架,从疫情相关的微博数据中获取公众的话题类别;基于复杂网络构建公众话题变化网络,借助网络模型刻画公众话题情感的动态变化;以揭示新冠肺炎事件下公众话题观点在时间、空间、语义上的分布特征和演变模式。研究表明,2020年1 月9 日至2 月10 号,疫情的防护科普、官方通报和各方应对等三类信息的总量达六成多,呈现中国公众在疫期的情绪积极而稳定。求助信息突出集中在重点疫区武汉周边,捐助信息则呈现遍布全国的分布,反映出中国“一方有难、八方支援”的救灾传统(图12)。
图12 COVID-19 疫期求助信息与捐助信息
(2020 年1 月9 日至2 月10 日)
结论
COVID‐19 因其病毒潜伏期长、传染性强和检测难等特点,导致爆发突然、发展迅猛,这要求GIS 及其大数据技术能快速反应、快速分析、快速提供疫情动态信息和疫情发展规律认识,才能为防控决策和行动提供及时的支持。本研究从个体、群体、区域三个尺度开展工作,分析了疾病、物资、人群和社会心理的有关空间问题。在个体尺度,开展了患者时空轨迹比对和空间溯源;在群体尺度,开展了人群流动和空间分布估算;在区域尺度,开展了空间风险划分、医疗资源供需平衡、物资运输能力与社会情绪空间分异等。
从GIS 技术层面来看,本研究通过融入大数据,革新了部门传统数据获取手段,实现了快速数据汇聚;通过革新系统构建技术,快速构建了分析平台,及时为疫情分析提供了技术平台;通过多尺度动态模板技术,快速完成了疫情地图的制作,实现了疫情动态信息的及时传播。从空间模拟与分析角度看,本研究通过增加区域变量、设定人群流动和R0 随防控措施变化等,出色地模拟了疫情的空间传播过程;通过文本空间化,构建空间与文本融合的暴露度指标,实现了病毒空间溯源和轨迹重合计算;通过大数据融合传统地理数据,实现了人口流动与空间分布估算,及时发现了重点风险区域,及时发现医疗资源的空间不匹配等问题,为疫情防控及时提供了重点防控区域和资源调度信息;通过构建舆情知识库,从社交媒体中完成了社会情绪的监测,为政府引导社会舆情提供了重要基础信息。
本次疫情的GIS 及空间大数据科技保障工作看,当前和未来,依然存在许多挑战和有待研究的方向。数据层面,大数据掌握在企业手中,难以按社会管理的需要提供,同时大数据汇集尚缺乏成熟方案,目前快速在线深度融合应用依然是挑战。数据驱动的知识获取层面,由于社会运转的不确定性存在,特别是疫情发展的应对在全国范围内存在高度空间异质性,导致模型模拟在空间上有偏差的可能,如何针对社会运转,形成空间大数据知识获取技术体系,是大数据时代的持续挑战。在研究结果的表达上,状态反映比较充分,在大数据驱动的多尺度动态呈现方面依然大有可为。
END
参考文献
[1] FIELD K 2020. Mapping coronavirus, responsibly [M].
[2] Grassly NC, Fraser C. Mathematical models of infectious disease transmission. Nature Reviews
Microbiology. 2008, 6(6):477–487.
[3] Hu M. Visualizing the largest annual human migration during the Spring Festival travel season
in China[J]. Environment and Planning A: Economy and Space, 2019,51 (8):1618-1621.
[4] Michael F. Goodchild, J. Alan Glennon. Crowdsourcing geographic information for disaster
response: a research frontier[J]. International Journal of Digital Earth, 2010,
3(3):231-241.
[5] Miller H J, Goodchild M F. Data-driven geography[J]. Geo Journal, 2015, 80(4): 449-461.
[6] Riley S. Large-scale spatial-transmission models of infectious disease. Science. 2007,
316(5829):1298–1301.
[7] Rodriguez L L , Maupin G O , Ksiazek T G , et al. Molecular investigation of a multisource
outbreak of Crimean-Congo hemorrhagic fever in the United Arab Emirates.[J]. American journal
of tropical medicine & hygiene, 1997, 57(5):512-518.
[8] Wang Y X, Dong L, Liu Y, et al. Migration patterns in China extracted from mobile positioning
data[J]. Habitat International, 2019,86:71-80.
[9] Wei Y, Song W, Xiu C L, et al. The rich-club phenomenon of China's population flow network
during the country's spring festival[J]. Applied Geography, 2018,96:77-85.
[10] XU J, LI A, LI D, et al. Difference of urban development in China from the perspective of
passenger transport around Spring Festival. Applied Geography, 2017, 87: 85-96.
[11] ZhAO A, ZHUANG Z, RAN J, et al. The association between domestic train transportation and
novel coronavirus (2019-nCoV) outbreak in China from 2019 to 2020: A data-driven
correlational report. Travel Medicine and Infectious Disease, 2020, 33.
[12] 史秀保, 马磊, 李滨,等. 兼容VGI与众包的灾害信息管理系统研究[J]. 测绘科学, 2017,
42(3):191-195.
[13] 王美霞, 袁满琼, 方亚 . 基于离散型地理信息的H7N9流感病毒动态时空传播模式. 中华流行病学杂
志, 2016, 37(11): 1491-1496.
[14] 疫情防控中的数据与智能应用研究报告(1.0 版). 中国信息通信研究院. 2020 年 3 月.
[15] 周先旺.约500多万人离开了武汉[EB/OL].http://news.china.com.cn/2020-
01/26/content_75650784.htm,2020- 0126. [ Zhou X W. About 5 million people left Wuhan[EB/
OL]. http://news.china.com.cn/2020-01/26/content_75650 784.htm, 2020-01-26. ]
[16] WHO 2020. Coronavirus disease (COVID-2019) situation reports– 44 [M].
[17] 国家卫生健康委员会 2020. 截至3月4日24时新型冠状病毒肺炎疫情最新情况 [M].
[18] Zhou C, Su F, Harvey F, Xu J. Spatial Data Handling in Big Data Era.Springer.2016. Select
papers from the 17th IGU Spatial Data Handling Symposium, 2016,Beijing.