政府信息公开:应当如何向民众公布疫情数据?
The following article is from 复旦DMG Author 数尔摩斯
(想要了解地方政府数据开放排名,请关注“健康智荟”公众号,在对话框回复“数据开放”,即可全文下载《中国地方政府数据开放报告》。)
编者按
新冠肺炎疫情暴发以来,按照《政府信息公开条例》要求,各省级、市级政府纷纷启动疫情数据的政府信息公开工作。
仅就个体病例数据公开而言,各地公布程度不一:有的仅公布确诊患者数据,有的还公布疑似感染者、密切接触区域数据;有的仅公布个人籍贯、居住地等静态信息,有的还公布其在返乡和复工复学期间旅途信息、市内乘坐交通等轨迹信息;有的数据颗粒度细到街道,有的细到建筑物,有的细到门牌号。
本文作者认为,数据是原料,数据可视化是成品。数据不应该只允许让政府自己用,而应该让全社会一起用。有的地方做了数据可视化产品,对推动数据的社会化利用来说,还不如公布原始数据集。与此同时,全国范围内,总有比本地政府更了解民众(数据用户)需求,有更好的技术能力、产品能力、创意能力的第三方机构,地方政府要允许获得数据授权第三方机构使用可机器读取的数据集。
本文作者预测,未来,政府不再是数据的唯一利用者和应用的唯一生产者,而是转型为一个“平台”的组织者、管理者和赋能者,通过开放数据吸引社会上的各种专业力量,来为公众提供更优质多元的数据产品。在这个平台上,政府负责制定平台规则、维护平台秩序和营造良好环境,而“能用好用”的开放数据则是这个平台的地基。
本文作者为复旦大学数字与移动治理实验室主任郑磊教授。本文仅代表发言专家个人观点,与编辑部立场无关。
正文
哪种数据是用来看,
但还不能用和不好用的?
目前,大部分地方是以在文字中夹杂数字的形式发布疫情统计数据,包括疑似病例、确诊病例、密切接触者、病情平稳病例、重症危重病例、死亡病例、出院病例数量等(如下图), 覆盖了疫情发展和治疗过程的基本环节。这些统计数据有助于公众了解一个地方的疫情总体状况。
然而,这些统计数据是对原始数据进行加工和归总后形成的结果,并不是细颗粒度的一手数据,数据的利用价值有限。
因此,有些地方又开始在疫情通告里以结构化表格的形式来展现数据(见下图)。这些表格比起文字更为直观清晰,便于普通读者阅读和理解。
但对于专业的数据利用者来说,这些以图片格式提供的表格,好看但还不好用,如要对这些数据进行分析,需要先将图片中的数据转化为机器可以读取和处理的excel或csv等格式。
而且,这些包含数据表格在不同的时间发布,呈现为碎片化、不连续的状态,如果想要分析某段时期内的趋势,就要把之前发布的一条条通报搜寻出来,然后再把其中的数据整合连接起来。
同样,对普通公众来说,这种图形化形式虽然生动形象,易于理解,但对专业用户来说,这些可视化图形并不是数据本身,而是基于原始数据制作的一种数据应用。对他们来说,这些图形往往还不如朴素简单的表格更为好用,他们还需要手工把这些图形上的数据再提取还原为数据表格后,才能做进一步的分析利用。
数据不仅要能看,
还要能“用”和好“用”
在大数据时代,政府在“发布数据”的同时,还需要进一步“开放数据”,前者是为了便于“看”,后者是为了易于“用”。
传统的信息公开提供的是文本形式的文件,或是经过归总分析后的统计报告,这种方式便于公众阅读和知晓结果,保障公众的知情权。但在大数据时代,公众的需求有了变化,他们不仅想要“知道”,还想对数据做些“利用”,他们不仅仅是数据的读者,也是数据的利用者。
从“知情”到“利用”,这正体现了从信息公开和数据开放的递进,并对政府提供数据的内容和方式都提出了新的要求,从而使数据既能用又好用。目前,政府部门发布的疫情数据虽然已在便于阅读上花了很大功夫,但大多还不便于被加工利用。
那么,怎样的数据才是真正能用和好用的?目前,在世界各国的政府数据开放实践中,开放数据通常呈现为以电子化、结构化、可机读格式开放的数据集。数据集是指由数据组成的集合,通常以表格形式出现,每一列代表一个特定变量,每一行则代表一个样本单位,总体上,这样的形式才能用和好用。具体而言,国际上普遍接受的数据开放基本原则包括以下八项:
完整的 Complete | 除非涉及国家安全、商业机密、个人隐私或其他特别限制,所有的政府数据都应开放,以开放为原则,不开放为例外 |
一手的 Primary | 开放从源头采集到的一手数据,尽可能保持数据的高颗粒度,而不是开放被修改或加工过的数据 |
及时的 Timely | 数据尽可能以最快速度发布,以保持数据的价值 |
可获取的 Accessible | 尽可能地拓宽开放数据的用户范围和利用目的 |
可机读的 Machine-readable | 对数据进行合理的结构化处理,使之可被计算机自动处理 |
非歧视性的 Non-discriminatory | 数据对所有人都平等开放,无需注册登记 |
非专属性的 Non-proprietary | 数据以非专属格式存在,从而使任何实体都不能独占和排他 |
我国哪些地方真正开放了
能用和好用的疫情数据?
【北京市】
目前,北京市政务数据资源网已开放了由市卫生健康委员会提供的数据集“新型冠状病毒感染的肺炎病例信息”。
网址:https://data.beijing.gov.cn/
该数据集可通过下载和调用接口两种方式获取(如下图):
此外,该平台还提供了地理空间可视化展示,可呈现新发病例活动过的小区或场所的空间地理位置信息(如下图):
【山东省】
这5个开放数据集的名称和包含的数据项如下:
数据集名称 | 数据项 |
山东省新型冠状病毒感染的肺炎疫情情况 | 日期、时段、地区、新增确诊病例、累计报告确诊病例、疑似病例、新增出院病例 |
山东省新型冠状病毒感染确诊病例信息 | 报告时间、地区、编号、性别、年龄、居住地、行程、发病时间、症状、就诊过程、信息来源、备注 |
山东省线上发热门诊的医疗机构名单 | 所在市、医院名称、公众号名称、网址 |
山东省新型冠状病毒感染的肺炎医疗救治定点医院名单 | 地市、定点医院名称、地址、24小时值班电话 |
山东省设有发热门诊的二级及以上医疗机构信息 | 地级市、医疗机构名称、服务热线 |
对于每一个开放数据集,平台都提供了基本信息、数据项、数据预览、数据分析、关联信息、文件下载、API服务等信息内容和服务功能:
这些数据集以EXCEL、CSV、XML、JSON等可机读格式提供。其中,山东省新型冠状病毒感染的肺炎疫情情况”将省内各地级市每天发布的数据都整合在了同一个数据集中(如下图),便于直接进行分析利用。
同时,山东省还开放了具体到每个已确诊病例的数据集“山东省新型冠状病毒感染确诊病例信息”:
(以上为部分截图,截至2月12日,共有497行数据)
上面这些数据集对于密集恐惧症患者来说可能会受到“惊吓”,但对数据利用者来说却会如获至宝,因为这一条条、一行行、细颗粒度、看似单调的数据中蕴藏着巨大的利用价值,有用且易用。
同时,为了便于普通公众阅读和理解这些数据,该平台还提供了数据分析功能,用户可根据自己的兴趣设置相应的条件,查看可视化的分析图表(如下图)。
【四川省】
这3个开放数据集的名称和包含的数据项如下:
数据集名称 | 数据项 |
四川省新型冠状病毒肺炎疫情情况 | 统计时间、确诊病例、危重人数、死亡人数、治愈人数、医学观察、解除观察、更新时间 |
四川省新型冠状病毒肺炎疫情情况(按市州统计) | 统计时间、市州、确诊病例、治愈、死亡、更新时间 |
四川省冠状病毒定点医疗机构信息 | 市(州)、定点级别、县(市、区)、机构名称、更新时间 |
同样,这些数据集也以可机读、结构化的方式提供。以下为数据集“四川省新型冠状病毒肺炎疫情情况”的截图:
济南公共数据开放网也同样开设了疫情防控专栏,目前已向社会开放了济南市卫生健康委员会提供的9个数据集(如下图)。
网址:http://data.jinan.gov.cn/
这9个开放数据集的名称和包含的数据项如下:
数据集名称 | 数据项 |
济南市新型冠状病毒感染的肺炎疫情情况 | 统计时间、现有疑似病例数、累计排除疑似病例数、新增疑似病例数、新增确诊病例数、累计确诊病例数、重症病例数、出院人数、追踪到的密切接触者数、正在接受医学观察人数、解除医学观察人数、备注 |
济南市新型冠状病毒感染的肺炎确诊病例信息 | 发布时间、编号、性别、年龄、居住地、行程、发病时间、症状及出现时间、就诊过程、新型冠状病毒核酸检测结果、患者状况、信息来源、备注 |
济南市新型冠状病毒感染病例确诊医院所在区县分布 | 时间、历下区、市中区、槐荫区、天桥区、历城区、长清区、章丘区、济阳区、莱芜区、钢城区、平阴县、商河县、济南高新区、南部山区、莱芜高新区、新旧动能转换区 |
济南市有确诊新型冠状病毒感染的肺炎患者的居住地址信息 | 区县、小区名称 |
济南市有确诊新型冠状病毒感染的肺炎患者的活动场所信息 | 时间、活动场所 |
济南市有确诊新型冠状病毒感染的肺炎患者的车次信息 | 日期、时间、区间、车次信息 |
济南市开设发热门诊的医疗机构名单 | 区县、医疗机构名称、地址 |
济南市新型冠状病毒感染的肺炎患者收治定点医疗机构 | 区县、定点医疗机构名称、发热门诊电话 |
济南市全市疾控中心24小时值班电话 | 单位名称、电话 |
以下分别为济南市新型冠状病毒感染病例确诊医院所在区县分布、有确诊新型冠状病毒感染的肺炎患者的居住地址信息、有确诊新型冠状病毒感染的肺炎患者的活动场所信息三个数据集的截图:
青岛公共数据开放网在平台首页开设了“疫情防控”专栏并提供5个可机读格式的数据集。
网址:http://data.qingdao.gov.cn/
这5个开放数据集的名称和包含的数据项如下:
数据集名称 | 数据项 |
青岛市新型冠状病毒感染的肺炎病例统计信息 | 区划、数量、重症、危重症、治愈、疑似、日期 |
青岛市新型冠状病毒感染的肺炎病例详细信息 | 年龄、性别、是否有湖北接触史、是否有其他省份接触史、初次就诊时间、确诊日期、籍贯、区划、信息、数据来源 |
新型冠状病毒感染的肺炎确诊患者行程信息 | 交通类型、日期、车次、车厢、出发站、到达站、车次附加描述、开始时间、结束时间、线索来源、提交时间、事件备注 |
青岛市开设发热门诊的医疗机构名单 | 行政区划、机构名称、机构地址 |
青岛市新型冠状病毒感染的肺炎定点救治医院名单 | 市/区市、新型冠状病毒感染的肺炎定点救治医院名单、医院地址 |
以下分别为青岛市新型冠状病毒感染的肺炎病例详细信息和新型冠状病毒感染的肺炎确诊患者行程信息的截图,后一个数据集搜集和开放了两千多条有关确诊患者行程信息的数据,十分详细,并动态更新。
(以上为部分截图,截至2月12日共有2058行数据)
深圳市政府数据开放平台在“疫情数据开放”专题下开放了由深圳市卫生健康委员会和市规划和自然资源局提供的疫情数据集。截至2月11日,已上线了有关疫情的9个数据集。
网址: https://opendata.sz.gov.cn/
深圳上线的9个开放数据集覆盖的内容和字段都十分丰富而全面,其名称和包含的数据项如下:
目录名称 | 数据项 |
深圳市“新型肺炎” 每日确诊病例来源统计 | 截至日期、截至时间、累计确诊总数、湖北输入、其他省市输入、本地密接者、本社区传播 |
深圳市“新型肺炎”每日确诊病例统计 | 行政区划、小区名称、发布时间、备注 |
深圳市“新型肺炎” 每日诊疗情况 | 截至日期、截至时间、累计确诊总数、重症、危重、累计出院、累计死亡、当前隔离治疗、接受医学观察
|
深圳市“新型肺炎” 每日确诊病例所属行政区 | 截至日期、截至时间、南山、福田、龙岗、宝安、龙华、罗湖、坪山、光明、盐田、大鹏、其他 |
深圳市“新型肺炎” 每日新增确诊病例个案详情 | 发布日期、发布时间、病例号、年龄、性别、居住地、与其他病例关系、在武汉时间(区间)、来深时间、发病时间、入院时间、染病原因、病况、备注(症状与途经地) |
深圳市“新型肺炎” 确诊患者曾逗留过的场所名单 | 行政区划、小区名称、发布时间、备注
|
深圳市“新型肺炎”确诊患者曾逗留过的场所位置坐标 | 行政区划、小区名称、发布时间、小区纬度坐标、小区经度坐标
|
深圳市“新型肺炎” 设置发热门诊的医疗机构名单 | 行政区域编码、行政区域、机构单位代码、机构单位名称、邮政编码、机构单位地址、类别、机构单位电话号码、机构单位网站或邮箱、机构单位所在地代码、机构单位级别代码、经济类型代码、企业类型代码、纬度1、经度1、纬度2、经度2 |
深圳市“新型肺炎”-每日新增出院病例 | 病例号、出院时间
|
对于每一个数据集,平台都提供了文件下载、元数据、关联信息、数据项、数据预览、可视化分析、API详情、数据纠错等信息内容和服务功能(如下图):
每一个数据集以XML、EXCEL、RDF、CSV、JSON等可机读格式提供。以下为深圳市“新型肺炎” 每日新增确诊病例个案详情、深圳市“新型肺炎”确诊患者曾逗留过的场所位置坐标、设置发热门诊的医疗机构名单等三个数据集的截图。
在逗留场所位置坐标和发热门诊医疗机构两个数据集中,还开放了经纬度坐标数据,便于用户开发利用。
(以上为部分截图,截至2月12日共有375行数据)
(以上为部分截图,截至2月12日共有222行数据)
贵阳市政府数据开放平台,在“疫情数据开放”专题下开放了市卫生健康委员会和市教育局提供的6个数据集。
网址:http://www.gyopendata.gov.cn/
这6个数据集的名称和包含的数据项如下:
目录名称 | 数据项 |
贵阳市每日新增的新型冠状病毒感染的肺炎疫情情况 | 截至日期、市(州)、县(市、区)、社区/街道、姓名、性别、年龄、类别、就诊医院、患者状况、累计确诊病例数、累计死亡病例数、累计治愈病例数、备注、数据来源 |
贵州省贵阳市新型冠状病毒感染的肺炎定点救治医院 | 市(州)、医院名称、数据来源 |
贵阳市各地设有发热门诊的医疗机构名单 | 县(市、区)、医疗机构、地址、数据来源 |
贵阳市疾控相关机构联系电话 | 机构名称、区划、联系电话、类型、数据来源、备注 |
贵阳市定点接待湖北籍旅客酒店名单 | 市(州)、县(市、区、特区)、酒店名称、酒店地址、酒店联系电话、数据来源 |
贵阳市教育系统公布各区(市、县)服务热线 | 市(州)、县(市、区)、机构名称、联系电话、数据来源、备注 |
这6个数据集可以在网站上一键全部下载,以下为贵阳市每日新增的新型冠状病毒感染的肺炎疫情情况(2月10日)和贵阳市定点接待湖北籍旅客酒店名单两个数据集的截图。
这些疫情数据开放出来后,
有人来用吗?用来做什么?
以上这些地方以可获取的、细颗粒的、及时的、连续的、可机读的、结构化的、无歧视的、免授权的方式开放的疫情数据,“能用”和“好用”,满足了开放数据的基本标准。
那么,这些疫情数据开放出来之后真有人来用吗?有什么用呢?
其实,最近大家已经在使用的类似“丁香园”这样的疫情实时动态应用就用到了这些数据,这类应用把从全国和各省市卫健委搜集到疫情数据整合起来制成了清晰直观的可视化展现,并对这些数据进行专业解读,帮助公众理解数据背后的含义和趋势(如下图)。
而且,不同的专业人士对于同样的数据也会做出不同视角的解读。例如微信公众号nCOV疫情地图指出由于表现目标、专业认知等方面的差异,疫情地图可能会“说谎”,并从这多个方面重新审视了目前全国疫情的地理格局,有助于读者更加理性地通过地图读懂疫情的当前态势。
在深圳率先开放了确诊患者曾逗留过的场所名单后,全国许多地方也开始开放类似名单。很快,全国就出现了多个利用这类数据开发的应用工具。
例如,“城市疫情场所地图”(https://mapmiao.com/ncov/)将来自各城市卫健委网站、公众号等官方渠道的疫情场所在地图上标注出来,便于公众直接在地图上查看疫情场所的名称和位置,并可按时间筛选出最新发布的场所。目前,已能展现广东省、河南省、江苏省、福建省等多个地方的疫情场所。
如果你发现你所在的城市还不在这个应用里,那很可能是因为你所在城市的政府部门还没有发布这样的数据。这个应用在其声明中提到其使用的数据来自该城市官方直接发布的确诊病例在发病期间逗留过的场所列表名单,官方公布的确诊病例中出现的活动轨迹暂未作为逗留场所信息来源。
“腾讯看点”也开发了具有类似功能的新冠肺炎小区查询,帮助用户查询身边有确诊病例的小区的名称地点、确诊人数和与目前位置的距离。
在各地发布或开放了患者的行程数据后,出现了一款叫“新型冠状病毒感染的肺炎确诊患者同行程查询工具”的应用,可帮助用户在输入日期、车次和地区等信息后,查询到自己是否曾与已披露的确诊患者同行,从而早预防、早隔离、早救治。这款应用就用到了来自各官方公众号/微博/网站发布的信息,许多网友参与了这些数据的搜集工作。
打通从“能用好用”
到“用好用活”的闭环
自新型冠状病毒肺炎爆发以来,面对公众对疫情数据的迫切需求,我国不少地方政府部门及时回应,开放出了许多能用好用的数据;同时,市场和社会上的专业组织和个人也迅速行动,把政府数据用好用活,为公众提供解读分析,并开发出了多种多样深受公众好评的应用,有利于消除公众的恐慌情绪,提高自我防护意识,配合政府防控措施,压缩谣言传播空间,提升政府公信力。我国的政府数据开放和利用也在此过程中取得了实质性的突破。
同时,还有一些企业和机构将这些政府开放数据与来自其他领域的数据或自有数据进行融合分析和深度挖掘,反过来为政府提供了决策支撑。
因此,数据开放和利用可为政府、市场、社会和公众各方都带来实际的经济、社会和政治收益(见下图)。
苹果公司的应用商店App Store上有无数个应用供用户下载,但这些应用绝大多数并不是苹果公司自己开发的,苹果公司只是平台的搭建者和维护者,通过这一平台来吸引各种各样的开发者为用户开发应用提供服务。
同样,当越来越多的市场开发者来利用政府开放的数据开发应用之后,就会逐渐形成一个由政府搭建的应用商店Gov Store,让各种数据利用者在这个平台上展示他们利用开放数据的成果,供公众下载使用。例如,深圳市政府数据开放平台上就已展示了多款由市场基于政府开放数据开发的应用(如下图)。
在本文发稿前,又看到了下面这条微博和粉丝留言。当数据以能用好用的方式开放出来后,这些数据利用者就“再也不用人肉抓取”,而是可以直接下载和调用数据了。隔着屏幕,我们都能感受到他们的惊喜和雀跃,而这正是数据开放的意义和价值所在。
(想要了解地方政府数据开放排名,请关注“健康智荟”公众号,在对话框回复“数据开放”,即可全文下载《中国地方政府数据开放报告》。)
作者:
郑磊
复旦大学数字与移动治理实验室主任
国际关系与公共事务学院教授
梁嘉琳 |责任编辑
龚子怡 | 视觉设计
征集启事
-疫情防控“金点子”征集工作-
闪耀中国大健康学人的智慧之光
疫情依然严峻。作为大健康行业第一个学术思想平台,“健康智荟”上线以来,在“卫生法学界建言支持地方依法行政”“专家呼吁公共卫生信息/数据共享”等方面引发相关领域领导、专家的共鸣,也很荣幸得到大家的宝贵关注与支持。
为更好的汇聚各学科、各行业的思想力量,实现“学术战疫”总目标,编辑部决定发起“疫情防控‘金点子’”在线征集计划。正如《发刊词》所说,在这个由大健康行业中青年学人业余运营的公益平台上,“没有等级制,没有‘鄙视链’,没有‘中间商赚差价’”。我们希望,围绕疫区治理的方方面面,每一个合理化建议都能得到充分重视,转化落地。
请点击屏幕左下角“阅读原文”,在问卷页面,填写建议内容。
“健康智荟”编辑部
2020年2月6日
往期推荐
1.学者:打通疾控中心与医院壁垒,留住优秀公共卫生人才(文末分享数据隐私报告)
2.独家 | 向“空降”湖北的王贺胜等同志反映:疫情危机与对策
4.独家 | 一批中西药抢在疫情应急审批期间上市,这样好吗?
联系研究成果团队
本文作者团队
加入读者社群
请长按扫码
点亮“在看”,与更多人分享你的看法