开年第一弹|十大政府部门数据公开质量测评(上)
政府部门掌握了大量涉及国计民生的基础性数据,无疑是最重要、最权威的一种信源。在2021年伊始,搜信源的五位作者特别策划了“十大政府部门数据公开质量测评“系列,旨在从五位普通公众的视角——即没有技术背景、只是需要查询、收集政府数据的用户角度,对十个最常发布数据的政府部门进行测评,看一看它们发布的数据是否好用。
商务部
国家统计局
国家卫健委
自然资源部
民政部
中国人民银行
海关总署
财政部
人力资源和社会保障部
香港特别行政区
为了使本次测评易于理解,我们设定了九个封闭式问题作为评价指标,以是(✅)或否(❌)来回答。
01
商务部
data.mofcom.gov.cn
测评人 刘怡迪
· 数据准确性是硬伤· 数据不可机读
· 数据库入口不明显
商务数据中心的数据乍一看上去是非常完善的,比如,它的类别比较详细,涵盖了大多数经济指标,而且还为某些数据提供了相应的图表;再粗略一翻,感觉数据本身也非常完整,且更新及时;时间序列清晰、格式工整。那么是不是有了它,我们就对国家的经济和商务数据了如指掌了?
图1.1 商务数据中心截图
(看着很清爽工整对吧……)
曾经,我也是这么想的,但是人工梳理了一些数据之后,我发现,这个数据库简直,是一个大坑……
和上图是同一张,看红框里的数据
以这个表——货币供应量来说,表格中不但有重复的月份,且同一月份数据还不一样;经人工核查后,发现该表的一些数据与数据来源(即中国人民银行)也不一致;数据的准确性让人堪忧。
最让我惊讶的是,当我梳理“中国对外承包完成营业额”数据时,商务部的首发数据简报里明明是下降的百分比——如下两图红框所示“下降5.3%”“下降3.8%”,但是到了商务数据中心,这两个百分比就变成正数了!这个问题是我人工一个个梳理数据后才发现的,那一般的用户怎么能发现这样细微的错误呢?真是让人防不胜防。
上两张图的简报里写的是“同比下降”,到表格里就变成了正数,真·大无语事件
人工梳理的“中国对外承包完成营业额”数据
(其中,蓝色单元格是发现商务部数据有误或缺失后手动计算的)
另外,商务数据中心的入口找起来也不是很方便。想要找到这个数据库,用户只能先进入商务部官网,依次点击“政务公开”→“统计数据”→红色小字“商务数据中心”,才能进入这个数据库。如下图:
红框处为商务数据中心入口
综上,商务部的数据准确性是硬伤,不能机读和数据库入口不明显也是扣分项。
商务部数据公开质量测评
02
国家统计局
data.stats.gov.cn
测评人 冯欣
· 国家统计局在数据结构化、可机读、可视化等方面领先于很多部委,但也有很多不足之处;· 同一项数据的查询入口分散、归类及维度不统一,容易给用户造成困惑;
· 新数据(以文章形式发布的)不能及时在交互数据库中更新。
国家统计局在两处公布数据,一个是主站的“最新发布”专栏(stats.gov.cn),另一个是子站:data.stats.gov.cn,该子站可以通过主站页面的“数据查询”专栏进入,这两个网站入口都较为明显。
入口如红框所示
统计局会根据年初制定的时间表,率先在主站的“最新发布”专栏准时发布各项经济数据。这些数据都以文章的形式发布,虽然有静态图表,但没有结构化表格,因此,如果用户想要进一步分析数据,或制作不同样式的图表的话,将会非常费力。随便点开一篇,如下。
与主站不同,统计局子站是一个巨大的交互式数据库,提供了关于国计民生的上千项数据,用户可以灵活地查阅、筛选、下载数据,还可以查看多种样式的交互式数据图表。值得一提的是,子站数据库中大部分数据指标前面都带有信息符号,点开便可查看指标概念。
统计局发布的数据纷繁众多,合理的归类尤其重要,但子站在网页归类上却存在同一项数据的查询入口分散、归类及维度不统一的问题,这容易给用户造成极大的困扰,非常不友好。
以国民经济重要指标之一的“固定资产投资(非农户)”数据为例,如果从子站首页的“快速查询”直接进入,我们将会得到如下这样一张表格,其中最重要的一项数据”总额“——是缺失的。
红框处为缺失
如果从导航栏的“月度数据”,再选择左栏的“固定资产投资(不含农户)”进入,我们却会得到不同的表格,而且这个表格完全没有总额这个指标,只有增长率。想要从一处进入就查询到完整的数据维度变得非常困难。
“月度数据”下的数据没有总额,只有增长率
另外还有一个大问题是:主站上的最新数据(以文章形式发布的)不能及时在子站中更新。经过作者亲测,子站有时需要1天左右才会显示新数据,有时就一直空缺着。还以“固定资产投资(不含农户)”为例,主站上每月都准时发布月度数据,但就是一直没有在子站的数据库里更新。
主站上2020年11月的最新数据
子站上的同一数据一直空缺
国家统计局是整个国家的数据门户,尽管在结构化、可机读性、有图表等方面已经做得比很多部门好了,但是我认为它应该被给予更高的期待,综上所述,我给出以下测评:
国家统计局数据公开质量测评
03
国家卫健委
nhc.gov.cn
测评人 龚一悦
· 数据入口不明显
· 数据全部为文本格式,非结构化、不可机读
· 数据只有粗略的分类
在国家卫生健康委员会官网首页简单地浏览后没有发现任何有关“数据”的字眼,那么卫健委的数据在哪里呢?疫情期间,疫情防控信息应该是大家最关心、最常查询的数据之一了,虽然卫健委网站很贴心地给疫情信息单独开辟了入口,但是它的标题却是“全力做好新型冠状病毒肺炎疫情防控工作”,看上去就像是一句标语,不点进链接其实发现不了这是一个信息与数据发布平台。
国家卫健委的疫情数据与信息页面
另外,卫健委的数据专栏必须从首页上点进“信息”后才能在一个角落里找到;点击某条数据后,才可以在页面右上角看到以小号浅灰色字体显示的“统计与监测”,点进去才能发现全部数据。
右上角红框处为“统计与监测”入口
此外,卫健委提供的数据无一例外都是文本式的,没有辅助的图表帮助理解数据趋势;偶尔出现的一张数据表也是图片格式的,如果需要获取数据,只能复制、粘贴或人工誊抄了。因此,我给“数据是否结构化”“数据是否有辅助图表”“是否提供可机读数据”这几方面均打×。
卫健委提供的数据大多为文本式的
除了及时更新疫情防控信息外,卫健委网站还更新 “全国二级以上公立医院病人费用情况”“全国医疗卫生机构数”“全国医疗服务情况”等三大类统计数据,近年来保持每月更新;但数据的发布完全没有考虑公众的使用需求,既没有对数据做更细的分类和呈现,更没有任何站内检索工具可以查询具体的细项数据。因此,卫健委在“数据的网页归类是否合理”与“数据是否容易查询”也只能拿到×。
卫健委发布的其他数据
国家卫健委数据公开质量测评
04
自然资源部
mnr.gov.cn
测评人 陈家欣
· 数据库庞大,但太多非结构化和不可机读的数据,可以说是PDF库了
自然资源部的数据库主要分为自然资源公报和数据服务两个板块,自然资源公报按照年份归类,数据服务则按照土地、矿产、海洋、测绘、地质、科技六个类别进行归类,内容相当丰富。网页布局规整,入口清晰,虽然没有搜索功能,但因为归类合理清晰,查找起来还是比较方便的。
但是,上述部分不过是先扬后抑的前奏。正如截图里显示的那样,自然资源部数据库里装的不是数据(狭义),而是各种系统、平台、图片和P!D!F!我好不容易发现有的公报提供了非PDF格式的文件,仔细一看,原来是Word文档。公报详情界面也是简洁到不能再简洁,没有统计公报的摘要和介绍,只留有一句温馨提示:“请下载附件阅读。”
一个例子
而且在历史公报部分,2016年及以前都是《中国国土资源公报》,2017年是《中国土地矿产海洋资源统计公报》,公报内容均涵盖土地资源、矿产资源、海洋资源等八大板块;2018年之后历史公报栏目下每年只发布《中国海洋经济统计公报》,作为用户的我不禁发问:土地矿产部分去哪了?我试图寻找关于这种变动的解释,以及这些缺失的内容可以去哪里查找的指示,但真的都没有找到……
历史公报截图
虽然说自然资源部的绝大部分数据能够及时更新,但由于有些数据或报告并未在页面链接后方标注发布时间,浏览者还是会不小心掉进赛博虫洞,穿越到10年前,温馨提示也充满了时代的气息。
我又仔细地浏览了页面,惊喜地发现“测绘”板块专门提供了【数据分析】,点进链接一看,还是熟悉的配方——熟悉的排布和PDF格式文件,最新报告的日期也停留在了2016年。
或许称之为“分析报告”最为准确
当然,自然资源部也确实提供了真正意义上的数据库——全国矿产地数据库,该数据库以交互式地图作为数据呈现方式,用户点击地图上某一点即可查看该矿产的详情,还可以在右侧菜单栏勾选具体的指标以查看对应数据,数据库也为用户提供了搜索服务。但是,这个数据库长这样(下图所示),直观感受就是……我国矿产地看起来挺多的?
全国矿产地数据库(密集恐惧症患者慎点)
综合整个数据库使用体验,我给出了以下评价……自然资源部数据库还有很大的提升空间啊!
自然资源部数据公开质量测评
05
民政部
mca.gov.cn
测评人 赵敏竹
· 仅提供按时间排序的数据,没有分类别的统计
· 提供的均为非结构化数据
· 月度数据出现缺失
从婚姻登记到养老服务,民政部分管各项社会福利事业,和国民生活息息相关。那么民政部提供的相关数据服务怎么样呢?点开部门官网,导航栏“民政数据”就映入眼帘,乍一看,民政部可是相当重视数据公开。
民政部官网首页
但.......点开内页,我就有些失望了。就...就...就这?民政部官网下只公开以时间为序发布的统计公报、统计季报和统计月报,却没有以事务分类划分的统计数据,如果你想了解最近五年每月婚姻登记的人数变化情况,那可得费点时间,挨个点开几十个统计月报,自行梳理。
数据专页
不过民政部的页面还算简洁清晰,在统计月报/ 季报/ 公报下,用户还可以通过子栏目浏览不同主题的数据,地理分类也细化到了省级。
可是,再进一步点开统计月报就不得不吐槽了......无可机读文件下载、无任何对术语的解释说明,用户得复制粘贴后自行整理才能得到可用的数据。另一个让人疑惑的点是,民政部的统计月报每年都会缺失3月、6月、9月和12月的数据,13年来从无例外。我原本以为这四个月的数据被归到了季度公报当中,但查证后发现,季报和月报在统计维度和精细度上都大不相同,要从季报中整理计算出这四个月份的数据虽然可行,但并不容易。
2020年10月民政统计数据
2020年第三季度民政统计数据
总体来看,本测评员还是很喜欢民政部的网页风格,简单清晰,一目了然;公开的部分统计数据也非常精细。不过,不可机读的数据格式对用户来说实在不太友好,缺失的数据也让人挠头;数据专栏下没有检索功能,挨个翻页浏览查找得花不少时间......不过,考虑到民政部数据的总量不多,手动翻页尚且可以接受。综合以上,我给出如下测评:
民政部数据公开质量测评
总结
以上五个政府部门的测评结果
SUMMARY
五个政府部门数据公开质量测评
目前,商务部和国家统计局各通过6项指标,暂时领先;综合五个部门的测评情况来看,数据的完整性和可机读性是政府部门数据公开质量的两大短板。
剩下五个政府部门测评明天将会发布在《开年第二弹|十大政府部门数据公开质量测评(下)》中,读者可以关注搜信源公众号,在第一时间收到最新推送。
END
【信源雷达】是搜信源公众号每周更新一次的栏目,旨在搜集与分享高质量的公开信息及数据。如果您愿意分享您知道的优质信源,欢迎您给我们留言;如果您愿意参与撰写本栏目,欢迎您给我们投稿,我们将以稿酬表示感谢。过往的信源雷达可在石墨文档:https://shimo.im/sheets/Ktg8ktdyVvVvJyqK/MODOC获得