查看原文
其他

数据资源丨新冠疫情数据的发布、开放和利用

复旦DMG 数据Seminar 2021-06-03

本文来源于新京报4月22日,转载自公众号复旦DMG。


4月12日,郑老石在清华大学安全研究院、人民论坛网和知网组织的“公共安全与应急管理能力建设”公益大讲堂上做了题为“疫情数据的发布、开放与利用”的报告。4月16日,又在中国人民大学国家发展与战略研究院举办的“科技抗疫与数字战役:创新实践与政策启示”的线上论坛上做了同一主题的发言。我们将这两场活动的发言记录和视频整理成了一堂网课。这堂课有文字有视频语速快话超多,一分钟可以听到一分半钟的内容,简称:“老石超话之新冠疫情数据的发布、开放和利用”。


开场白
我们从1月底开始研究各地政府新冠疫情数据的发布、开放和利用情况,关注各地是否按照国家有关法律法规的要求及时、准确、全面、透明地发布了疫情信息。疫情暴发以来,各地各级政府发布的疫情信息包括领导指示、政策文件、防控动态、自我防护知识等文本性内容,而我们的研究重点是政府发布的动态的疫情数据,一是疫情统计数据,二是病例个案数据,我们对这类数据进行了采集和分析。根据我国传染病防治法要求:国务院卫生行政部门可以授权省、自治区、直辖市人民政府卫生行政部门向社会公布本行政区域的传染病疫情信息,所以我们重点研究了省级卫建委官网上发布的疫情通报中的数据,数据采集时间为1月20日至3月20日。


疫情数据的发布
研究内容包括整体发布情况、疫情统计数据发布情况、病例个案信息发布情况三个模块。整体发布情况包括整体的时效性、易得性和可读性;疫情统计数据发布情况包括对统计类数据全面性、持续性和覆盖层级的分析;病例个案信息是这次疫情数据发布中的一个特色,主要包括对公开率、精细度和隐私保护方面的分析。对于疫情统计数据,我们发现了三种形式:一是纯文字,文字之中包含着数据,比如XX区2例、XX区3例、XX区10例等。这种形式对于公众而言易读性较低;二是结构化的表格;三是可视化数据,后两种更便于观众阅读和理解。各地使用各种发布形式的比例分别为:文字为100%,表格为19%,可视化为23%。根据疫情统计数据之间的关系,我们构建了一个流程图,从疑似病例,到确诊病例,到对密切接触者进行医学观察,到确诊病例是否病情平稳或转为危重患者,直至出院和死亡等。在流程上的各个阶段,各地发布了相应的数据。疫情统计数据的发布应该覆盖全流程,这样既有利于保障公民对疫情发展全过程的知情权,也有利于专业人员进行分析利用。我们进一步对发布各项疫情统计数据的持续性进行了分析。有些数据各地每天在持续发布,有些则是间歇性发布,有些是早期发布过而后期不再发布,有些是早期不报但后期发布了。图表上的纵轴为日期,横轴为发布数据的持续性,可以看到,从1月20日到2月10日这20天,出现了一个三角形,这表明时间越往后推移,各地发布的数据字段越多,持续性也越强,说明各地的数据发布情况在不断完善。但2月10日后三角形又出现回缩,有些曾经发布的数据又不再发布了。这可能是由于有些地方认为,当天这项数据为0,就不用发布了。但对公众来说,无法区分当天是没有发布这项数据,还是当天这项数据的数值为0。所以政府应该持续发布各项数据,即使当天该项数据的数值为0,这才是规范的做法。发布病例个案数据成为这次疫情数据发布中的一个亮点,包括了每个病例的具体情况,比如性别、年龄、居住地址、工作性质、与其他病例的亲属关系、行为描述、有无密切接触史、交通工具详细信息、诊疗情况等。这类数据透明度和精细度更高。通过研究发现,很多地区发布了此类信息,发布最多的地区是陕西、西藏、贵州等地,但大部分地方并没有发布病例个案数据。但发布病例个案数据也存在泄漏个人隐私的风险,所以一方面可以保障公众的知情权,另一方面也要保护病人的个人隐私。研究发现,有些地方存在个案信息发布过度的问题,或是直接泄露了病人的隐私信息,或是同时发布了多项过细的数据,被关联起来分析后很容易锁定到病人。我们做的一个在线问卷调查发现,公民已具有病人隐私保护的基本认知。这次深圳在内地首先公布了小区清单、公共场所清单,这种做法使病人信息和居住小区不能关联起来,保持了公众知情权和病人隐私保护之间的平衡。对疫情数据发布,我们提出了几点建议:一是在时效上应保持及时性和持续性,不能间断性发布。二是发布的内容应力求全面性和精细度;三是要保证数据发布的规范性和完整性;四是数据发布在形式上应具有易得性和可读性;五是应守住数据公布的底线,确保公民隐私不受侵犯。





疫情数据的开放
上面讲的是疫情数据的发布,接下来讲数据的开放。之前提到这些发布数据的形式,无论是文字、图片格式的表格、或是可视化图表,虽然便于普通公众阅读和理解,但都还不能直接用来分析和利用。这次疫情期间,有些地方开始发布了可机读格式(比如Excel格式)的数据集,公众可以直接下载和调用。数据发布和数据开放的一个重要区别是,前者的目的主要是保障知情权,让大家能看到和知道数据就可以了,而后者的目的是让大家还能把数据拿来分析和利用。要做到数据开放,需要满足以下几个基本原则:完整性、一手性、及时性、可获取性、可机读性、非歧视性、非专属性等。我们发现,目前开放了疫情数据的省市共有15个,省级包括北京、天津、广东、山东、贵州和四川;副省级城市包括深圳、贵阳、济南、福州、银川、青岛、厦门、东营和日照。



疫情数据的利用
那么数据开放了之后,是被如何利用的呢?我们再来看看疫情数据的利用情况。举几个例子:疫情期间被大家广泛应用的丁香园,就是利用了政府发布或开放的疫情数据,做成了可视化图形;深圳的一家公司将政府发布的小区数据制作成疫情场所地图,使公众能了解身边各个小区的疫情情况;还有一个市场开发的应用,利用各地政府发布的确诊病例的行程数据,使民众可以查询自己是否曾与病人乘坐过同一个航班或高铁。还有一些社会上的专业团队根据疫情数据,制作了病例关系图谱,使病例间的关系可视化,便于公众解读;上海外滩一栋大楼上的大屏,根据政府发布的病人治愈数据,制作和展示了一棵“治愈之树”,这棵大树不断“长大”,给予公众抗疫的信心。深圳市政府的数据开放部门还主动与市场上的团队沟通合作,实现了数据开放的供需对接,构成了政府开放数据,市场利用数据,共同服务于市民和城市的闭环,实现了一种合作众创的治理模式。



总结一下
这次疫情数据开放,我们发现很多地方不仅发布了数据,还开放了数据,然后社会又迅速利用了这些开放出来的数据做成了各种应用,服务于社会公众。在内容上,许多地方不仅发布了统计数据,还发布了更细致的个案数据。各地发布和开放疫情数据的水平也呈现了一个逐步提升的过程,但各地之间仍然存在参差不齐的情况。各地在不断完善数据发布水平的过程中,有的是主动向其他地方学习,有的是被本地的公众需求倒逼。需要强调的是,在数据的发布和开放能力之下,还有一个关键词“数据治理”,也就是说一个地方的数据发布和开放能力,包括全面性、持续性、准确性等等其实反应了这个地方的疫情数据治理能力,数据治理能力上的短板会限制其数据发布和开放能力。但反过来,我们也同样需要思考,为什么有些地方的数据治理基础和能力都很强,但这次在疫情数据发布和开放方面表现欠佳呢?

·END·



点击搜索你感兴趣的内容吧

数据呈现丨使用pandas做数据可视化


机器学习丨从何开始学习数据科学?小哥用亲身经历告诉你如何少走弯路


点击登录丨新型农业经营主体大数据库展示平台正式上线啦!



数据Seminar




这里是大数据、分析技术与学术研究的三叉路口




转载:复旦DMG

推荐:青酱

排版编辑:青酱



    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存