#榜样的力量#实时新型肺炎疫情数据小程序平台丨数据猿新冠战“疫”公益策划
“该项目案例由全天智能提交申报,参与数据猿推出的《寻找新冠战“疫”,中国数据智能产业先锋力量》的公益主题策划活动。
大数据产业创新服务媒体
——聚焦数据 · 改变商业
2019 年底到 2020 年初,新冠肺炎疫情在湖北武汉暴发,并迅速向全国蔓延。疫情来势汹汹,党中央、各级政府和全国军民共克时艰,到三月底,这场倾举国之力的疫情防控战“役”终于初见成效。而在这个过程中,大数据、云计算、人工智能等快速发展的新一代信息通信技术,与疫情期间国家治理的方方面面深度融合,成为科技战“疫”的先锋。
大数据作为信息科技的基础,具有体量巨大、数据种类多样、处理速度快和价值密度低等鲜明特点,在疫情追踪、溯源与预警、辅助医疗救治、助力资源合理配置及辅助决策中得到广泛应用,全面配合“智慧战疫”。
项目起止时间:2020年2月1日至今
应用场景
应用场景一:追踪疫情最新进展
在疫情面前,追踪疫情最新进展是主动对抗疫情的有效手段之一。
大数据技术除了可以提供研判预警之外,在筛查、追踪传染源、阻断疫情传播路径等方面,发挥了积极地作用。利用实名制售票的大数据优势,及时配合地方政府及各级防控机构提供确诊病人车上密切接触者信息。如果出现确诊或疑似旅客,会调取旅客相关信息,包括车次、车厢等,然后提供给相关防疫部门进行后续处理。
此外,利用大数据分析还可以看到人群迁徙图,具体到哪些城市。我们可以通过大数据应用平台,时刻掌握各个省市的入省人数、疫区人数和体温异常情况等统计分析数据。
应用场景二:共享公共信息平台
在重大疫情面前,对民众释放多种信息,并对这些给出提前的压力过程进行数据监控、并进行压力释放、预防是非常重要的。
以疫情地图、疫情趋势、国内国外疫情等形式,实时播报肺炎疫情动态,只要点击系统界面地图中的每个省份,就可以显示各省确诊、疑似、死亡的新增及累计数据详情,甚至能精确到每个小区。
这样不仅为疫情防控阻击战提供了数据支撑,也充分保障了海内外公众知情权,对于增强科学防控知识、提高科学防控意识具有积极作用。
面临挑战
良好和丰富的数据是开展疫情防控应用的基础。传统卫生数据的采集起点通常是基层的社区卫生中心,通过社区人员手工填报,经历区卫健委、市卫健委,最终汇集至省卫健委和国家卫健委。难以在数据源头快速核验数据的正确性,增加了后期数据质量管理的成本。
为保障数据采集的全面和准确性,应同步采用自动化采集工具和数据质量核验等手段,对于多源头数据应明确主要来源,从对应系统或平台中抓取,减少自报数据和重复采集。
但是,数据互通仍面临诸多障碍,如尚未建立有效的数据互通机制,无法在较短的时间内明确数据互通的需求和范围,相关技术由于存在接口和规则壁垒,也难以支撑大数据量的快速联通。从疫情分析的数据来看,目前公开渠道获取的数据不规范,数据口径、数据统计时间等维度不统一,为分析带来很大困难。数据源混杂重复、数据质量不高的情况。
实施过程
我们对平台的疫情大数据服务进行了梳理,平台上提供的基础功能包括:
1.疫情数据:显示累计和每日新增的确诊/疑似/死亡/治愈病例数的全国及分省、市数据,并通过疫情地图以及各种形式的图表进行展示;
2.最新进展:聚合最新的重要疫情信息,且多为官方发布的、不容错过的重要内容;
3.同程查询:可根据出行日期,车次/车牌/航班号及城市等,查询出已确诊病例的具体行程信息,以方便个人防控;
4.本地疫情:根据用户所在城市,显示本地的确诊信息及本地相关的疫情内容。
首先,平台上的疫情核心数据,几乎都是从国家及各地卫健委官网上,通过爬虫技术基于其每日发布的疫情通报文章提取出来的。之后,再对这些数据进行汇总以及通过地图、走势图等可视化的图表形式展示出来,方便大家查阅。
例如在卫健委官方网站上,是以文字信息的形式发布的疫情核心数据:而到了平台上,数字还是那些数字,但展现形式则变得更形象了,如下图:
至于其它各类信息的来源,也几乎都是一些官方渠道提供的文字信息或可公开查询的信息,数据来源会更加丰富,除了卫健委的官方网站,可能还包括其它政府部门、医疗机构、学术机构、权威媒体甚至意见领袖的网站或自媒体等。这些新媒体平台获取到这些信息以后,再进行加工处理,从而形成了其它的一些栏目,如最新进展、同程查询、发热门诊等等。
例如在卫计委官网上发布了文字形式的确诊病例的行动轨迹,而在平台上,经过整理,则变成了相同行程查询小工具,如下图:
至于平台数据略有差异,则是因为平台进行不同数据的抓取和加工的策略有所不同。例如,只抓取截止到前一日24点的全国数据,一天更新一次;而有的数据,则会不定时地抓取一些各省最新发布的数据,并随时将其补充进去。
通常来说,进行数据抓取需要如下三步:
第一步:确定数据源规则
例如前面的那些卫健委网站,其所发布的信息内容的网址就是数据源。这些网址的名称通常都是有一些规律的,例如包含日期数字等。而通过数据抓取工具,可以定期、定时、自动、批量地检索所有可能的网页,并从中提取出有与采集规则相匹配的数据。当然,除了抓取源头的数据,也可以去抓一些新媒体平台经过加工的二手数据,因为这些二手数据已经是经过处理的了,数据的格式可能更为整齐并便于抓取。
第二步:确定数据采集规则
由于抓取的数据需要存储到数据库中,而数据库通常都是需要提前确定数据格式的。因此,需要按照预先设计的数据格式,建立数据采集规则和数据模板,并在抓取数据的过程中,按照规则进行数据的提取,这样才能进行后面的数据保存。例如数据源中的文字内容是“xx年xx月xx日,xx省新增确诊病例xxxx例”,那么在数据采集规则中,就需要包含日期字段、省份字段、新增确诊病例字段,并在抓取的时候对各个字段进行内容填充。例如在“,”后和“省”之间的文字就是省份名称,可以填充到这条信息的省份字段中,以此类推(如果觉得不准确,也可以设定将“日,”和“省新”之间的文字抓取为省份名称,等等)。不过,想配置出准确完善的采集规则,可能需要了解一点最基本的HTML语言,以便通过网页分析,准确提取出所需要的信息。
第三步:保存到数据库
前两步完成以后,只要网络正常,数据库正确进行了创建和配置,那么就可以很容易地将采集到的数据保存到数据库中,并加以利用。
应用效果
1.支持地方政府疫情防控
借助于移动互联网和智能手机,人们可以随时随地获取最新疫情动态、科学防疫知识等各种数据。平台通过电子政务平台、微博、公众号等定时发布最新疫情动态,运用大数据分析,结合算法模型对疫情的传播速度、传播趋势等进行预测,可为各地进行动态监测管理、统筹医疗物资储备、保障民生物资供应、制定交通管制政策等提供有效依据。例如,基于疫情高发地区人员在春运期间的交通出行数据进行疫情分析预警,能够通过追踪确诊患者、疑似患 者和密切接触者的轨迹位置进行精准防控。
2.迅速锁定“涉疫”人员流动轨迹
通过集成电信运营商、互联网公司、交通部门等单位的信息,数据平台分析出人员流动轨迹。具体来说,利用数据分析、数据挖掘等技术,一方面可以通过手机信令等包含地理位置和时间戳信息的数据绘制病患的行动轨迹;另一方面,根据病患确诊日期前一段时间的行动轨迹和同行时间较长的伴随人员,基于大数据分析可以推断出病患密切接触者。综合分析确诊病患、疑似病患和相关接触者的行动轨迹,可 以准确刻画跨地域漫入、漫出的不同类别人员的流动情况。
3.疫情发展态势预测与溯源
基于疫情高危人群相关数据,结合疫情新增确诊、疑似、 死亡、治愈病例数,借助传播动力学模型、动态感染模型、 回归模型等大数据分析模型和实践技术,不仅可以分析展示发病热力分布和密切接触者的风险热力分布,还可以进行疫情峰值拐点等大态势研判。利用深度学习等新兴人工智能技术,联合出行轨迹流动信息、社交信息、消费数据、暴露接触史等大量数据进行科学建模,可以根据病患确诊顺序和密切接触人员等信息定位时空碰撞点,进而推算出疾病传播路径,为传染病溯源分析提供理论依据。
关于全天智能
深圳前海全天智能资讯有限公司(简称“全天智能”),作为大数据可视化应用解决方案的开拓者,一直致力于大数据可视化及数据交互管理领域的探索与创新。
全天智能团队以实时大数据可视化分析平台为支撑,以行业解决方案为触角,形成自我迭代,不断创新的商业模型。现有解决方案已应用于智慧城市/能源/园区/交通/零售/文旅/教育/舆情/物流等多个领域,在国内同市场中占据领先地位。通过提供数据整合、数据分析、数据可视化、数据协同等一站式服务,帮助企业解决信息孤岛,为决策提供价值指导,为企业从用户增长到商业增长提供助力。
凭借丰富的数据交互实践经验,全天智能将持续为各行业用户提供优质的大数据可视化服务体验。
点击文末左下角“阅读原文”,还可直达全天智能官网了解更多。
—— / END / ——
职位热招中
资深银行行业BD-华北/华东JD、资深非银行业BD-华东/华南JD、数据分析师JD丨点击“这里”了解详情
大数据架构师、Java架构师丨点击“这里”了解详情
大数据运维支持工程师、大数据研发工程师、SDK研发工程师、数据分析师、销售经理(上海、北京、深圳)、高级数据产品经理、测试开发工程师丨点击“这里”了解详情
均为实习生招募—研发类:数据研发工程师、JAVA工程师、前端工程师丨算法类:机器学习算法工程师丨产品类:数据产品经理丨点击“这里”了解详情
均为市场及品牌岗位:数据品牌管理、数据中台整合营销、数据中台内容运营、数据中台渠道策略运营丨点击“这里”了解详情
社招:JAVA开发工程师丨校招:数据开发工程师、JAVA开发工程师丨点击“这里”了解详情
了解第一波招聘点“这里”
了解第二波招聘点“这里”
了解第三波招聘点“这里”
2019数据猿年度榜单: