宏论|开放政府数据的价值与实践
从信息公开说起
上世纪中期,美国政府的会议记录,包括国会议员们的讨论记录,只要不涉及国家安全、个人隐私,都会在网上公开。人们可以通过每位议员的发言,进行政策分析。这是早期信息公开的体现。
2009年,金融危机之时,美国也在救市,通过Recovery.gov上的地图,人们可以看到各地公共财政资金的流向,点进去可以看到每笔政府资金的地点、数目、签约方,以及钱是怎么花掉的。从整个美国地图看,投入最多的是加州和纽约州。这些也属于信息公开。
环保领域有个项目叫“AirNow”。从这个网站,人们可以看到全美的空气质量。图例从绿色、黄色到红色代表从优到差。点进去可以看到纽约州,进一步点击,可看到某一区域、某市的空气质量。
上海环保局空气质量检测中心在2010年世博会时也推出了此类平台。
在公共服务方面,上海还有“上海公厕指南”这个软件,通过公厕的位置定位,你可以像使用大众点评找饭店一样找周边的厕所。点开软件,你可以了解厕所的基本情况,有几个蹲位,有没有纸,等等。
但以上所有这些,都不是开放政府数据,而是属于政府信息公开。
开放政府数据
奥巴马2009年宣布就职时,签署了一个关于开放政府的备忘录。到了2010年,美国开放政府指令进一步明确提到了数据层,确定了相关要求,其中包括:政府机构推出开放数据网页;要求落实到一个具体的联络人,而非只有联系方式;减少《信息自由法》积压的工作;发布更多数据库。之后,美国推出了世界上首个国家级的开放政府数据平台data.gov。
目前,美国联邦政府已在此平台开放了来自多个领域的13万个数据集。这些领域包括农业、商业、气候、生态、教育、能源、金融、卫生、科研等十多个主题。
一些国家政府之间合作,发起了OGP(开放政府合作组织),目前已有70多个国家参与这个合作伙伴组织,其中一项工作就是开放数据。
不过,开放政府不完全等同开放数据。开放政府的要求包括,官员财产是公开的,财政类数据是公开的。大数据时代到来,引出了开放数据的概念。但开放数据也不完全等同于开放政府数据,开放数据还包括其他数据,如开放科学数据、商业数据等。
开放政府、大数据、开放数据这些概念汇到一起,就引出了开放政府数据的概念。
刚才我讲过,我一开始举的那些例子,更多属于政府信息公开,政府信息公开与开放政府数据不完全是一回事。
第一个差别是,政府信息公开更多是在信息层面,开放的是一些文件、已进行过加工处理的数据,而非原始的数据集。
最底层的数据是原始的、还没有被赋予意义的。对数据进行加工分析,发现了一些意义,找到了一些规律,就成了信息。而当信息能指导决策时,就变成了知识,这些知识能告诉你应该怎么办。
而开放政府数据意味着,只要不侵犯国家安全、隐私和商业机密,人们可以对数据进行利用、再利用,不同的人可以分析出不同的结果。
第二个差别是,政府信息公开与开放政府数据的目的不同。政府信息公开的主要目的,是保障公众的知情权。因为政府拿纳税人的钱,应该让公众知情、公众参与、公众监督,更多地是政治和行政上的责任。公开了信息之后,公众知情了,政府的工作也就完成了。
而开放数据不仅要让人“知情”,更要让别人“利用”这些数据,尤其是再利用,让社会根据自己的需求来使用数据,更多是出于经济和社会发展的考虑。
政府在履行行政职能过程中,采集和储存了大量数据。这些数据同公众的生产、生活以及城市方方面面息息相关。需要挖掘大数据,发现规律,以此做出基于数据驱动的、更好的决策。政府有责任将这些数据开放给社会,让其再利用,产生更大的社会价值、经济价值、公共价值。所以,开放政府数据本身没有意义,只有当社会利用这些数据时,才有意义。
这张图从左到右,是知情权和利用权;从上到下,是数据层到信息层。开放是信息层,主要是为了知情。在政府网站上发布数据,仍然只是为了让你知道,你能查询相关数据,但不能下载和利用。
而政府开放数据是在利用层。政府信息资源再利用,虽然也强调利用,但还是有限度,是在授权范围内给特定对象的,可能信任谁、和谁关系好就把数据给谁,而非公平地开放给全社会。
开放数据意味着,大家有平等的权利,可以对数据进行利用,而不是给了B不给A。不是要因为靠拥有资源获得竞争力,而是鼓励企业将资源开发利用得更好,拼创意和服务,而不是拼谁和政府关系好。
政府开放数据的基本原则
到底什么样的数据符合政府开放性数据的原则?
1、这些数据是完整的:除非涉及国家安全、商业机密、个人隐私的数据,理论上要求所有的政府数据都要开放,开放是原则,不开放是例外;
2、这些数据是一手的:不是整合或者修改过的数据;尽量保证一手性;
3、这些数据是及时的:必须以最快的数据更新和发布数据,将过时的数据对外发布,会使数据的价值大打折扣;
4、这些数据是可获取的:有一个开放、可公开获取(数据)的平台;
5、这些数据是可机读的:不是简单在政府网站上开放pdf或word格式的数据,而是要开放API接口,让需要数据的企业用机读的方式下载和利用这些数据,使这些数据直接和企业和第三方的应用打通。政府每次更新数据,企业和三方提供的应用就能即时更新。
6、非歧视性的:政府要公平地将这些数据开放给全社会,数据一旦开放,就要对社会平等开放;
7、非私人所有的:任何使用这些数据的机构和个人不能排除其他人使用这些数据的权利,这些数据不为任何私人所有,而是公共产品;
8、这些数据无需授权使用:除非涉及到国家安全、商业机密、个人隐私的数据,所有人无需获得政府授权或很容易地获得授权后便可在政府开设的平台上下载和利用这些数据;
政府为什么要开放数据,价值何在?
大数据有多重来源:政府、社会、其他组织。有这样的研究,在一个国家或社会共同体中,最核心的数据70%—80%掌握在政府手中。所以,大数据是建立在开放数据的基础上的,由政府开放出来让公众利用。
开放数据不是政府归拢数据,只由政府利用,进行开发决策。如果是后者,那这不是大数据,而是从big data变成big brother——后者意味着,我们在政府面前没有任何隐私。
真正全社会的大数据,是政府开放数据(在不涉及国家安全商业机密和个人隐私的前提下),让全社会充分利用,做到大众创新,万众创业。
国外这些开放数据平台,如之前提到的美国的data.gov ,不仅开放数据集,还提供链接,展现和推广社会基于政府数据开发的创新应用,鼓励大家利用数据。
那么,基于政府数据,到底可以产生怎样的结果?2012年,纽约市“艾琳”台风,许多非政府救援组织使用政府公布的“飓风疏散区域数据”来制作地图,引导市民疏散应急。这些疏散区域的数据早在一年之前就向公众开放,艾琳台风到来之时,基于这些数据开发的各种应用起了很大作用。
大家可能要问,为什么不是纽约市政府门户网站发挥作用呢?事实上,当时纽约市政府门户网站因巨大访问量面临瘫痪,同时 ,政府也难以基于不同地区、不同特色、不同人群的需求做开发。实际上,在把握用户体验和市场方向方面,商业机构、社会组织等会比政府网站做得更好一些。
比如,气候公司(Climate Corporation)需要制作保单来弥补联邦农作物保险和因气候造成的农民损失之间的差额,会通过庞大的传感器网络来分析和预测2000万英亩美国农田的气温、降水、土壤湿度和产量,在知晓高温天的天数以及土壤湿度数据之后,建立模型帮助保险公司预判农民需要的天气保险金额以及公司需要的保费等。政府开放气象数据,气象数据导入系统就会计算出更精准的农作物收成保单上的保费。
还有一个应用是“别在这里吃!”。政府已经发现了一些餐馆的风险,要对其查封。但老百姓并不知道。以前,政府在网站上发布清单,但公众在大街上吃饭时,能记住是哪家餐馆吗?难道还会上食品监督管理局的网站上查找吗?
纽约在开放数据之后,就有公司基于数据开发“Don't Eat At”,只要你带着装这个APP的手机走到上了黑名单的饭店门口,这个APP就会向你发送警示信息,提醒这家餐馆有严重问题,正在调查。很多饭店并不怕政府罚款,反正吃客不知道,交完罚款后继续做生意,而“别在这里吃”这样的应用,要的就是这种效果:让吃客来淘汰犯错的饭店,而不是靠政府罚款,饭店犯一次错,成本就无法承受,让良币驱逐劣币。
另一个应用是“Superheros”(城市中的超级英雄)。当我们需要时,拨打120,120接到电话后,救护车才呼啸而来抢救,这是呼叫中心模式。这当中有中间体:打电话,由呼叫中心调配救护车。而在等待救护车的时间内,你不知道楼上就住着一位医生,会简单急救和人工呼吸。
针对这种情况,有人做了“Superheroes”。一方面将就近的公共卫生和医疗急救的设施和位置开放出来,另一方面受过基本医疗训练的人也可以在上面注册。当求救者按这个红键,不仅向120发布信息,还向周边发布求救信号。或许,附近百米之内,就有人能来帮助你,离你最近的医院,能直接收到急救信号,可以不必通过调度,更快地进行急救。也就是说,政府开放数据,民众也可以登录注册来贡献自己的数据,这个平台将这些数据汇集起来,提供急救服务。
还有一个关于消防栓的案例。在美国东北部地区,冬天雪量很大,导致消防栓被埋,影响消防部门救援。之前的一种做法是,政府自己派人去维护消防栓。而后,有人开发了一个“领养消防栓”的应用。这不是政府主导的,而是市场基于政府开放的消防栓位置的数据开发的。
这个计划号召小朋友们领养消防栓,只要你把这个消防栓挖出来,这个消防栓就属于你。但如果你没有照顾好这个消防栓,被雪埋了,然后又被别人挖了出来,那么消防栓就归别人“领养”了。跟“偷菜”一样,孩纸们甚至半夜都会爬起来去挖消防栓,这就是发动公众参与,因此消防局不用再派遣人手去巡查消防栓了。
纽约大学实验室做了一个排名“open data 500强”(开放数据500强),对那些基于政府开放数据形成的创业公司进行排名,鼓励大家利用政府数据进行创新。美国政府开放数据后,已形成了一个产业:对政府数据进行加工、创新和利用。过去一些由政府自己来做事的模式,变成了政府开放数据、让社会参与利用的模式。
这个过程中,社会不是来给政府找麻烦的,而是来帮忙的。如果数据是大米,那么将数据开放,将由民众决定是做粥、白米饭、煲仔饭还是米粉。政府让民众自己去做,而不必自己做。
过去的模式,是政府开发应用。其中的问题在于,一是要花钱,二是政府做出来的应用,对用户体验、市场需求的把握能超过市场吗?更坏的结果是,生米煮成熟饭,政府做得很辛苦,社会还不领情,吃力不讨好。
社会已经越来越个性化,政府自己开发的服务已不可能满足这么多个性化需求,这也是开放数据兴起的一个原因。
经济模式的转型不能只依靠传统制造业,而是基于创新、创造、创意产业。一旦数据开放出去,会围绕它形成新的产业和服务,来促进经济增长、大众创业、万众创新。
其实,政府不必给企业丰厚的创业补助、政策帮扶,而是应该开放数据,推动企业创新,社会发展和服务提升,“智慧城市”的新思路由此而生,智慧城市不应只是自上而下的规划和政府主导的建设,而应由大众参与。让城市变成一个创新空间,人人参与、人人贡献,共同运用自己的智慧建设城市。
现在他们最缺少的核心资源是数据。最好的模式,是让城市成为活的机体,每个人都以共创、协同的方式,参与创建这个城市。政府的责任由自己做,变成培育和维护这个生态圈。实际上,政府仍在主导地位,但主导的方式不同,不再是一切都靠自己来做。
中国政府开放数据现状
开放数据不是看数量,关键是看它的价值。相比国外,中国开放数据总体还很少,现有的开放性数据价值并不高。
开放数据有国家层面和地方层面,但更重要的还是在地方层面。国家层面的数据更宏观,城市层面的数据更接近应用人群,对市民更有意义。国外是先开放国家层面的数据,现在则强调要推广到城市层面,而中国是反过来,这倒是我国开放数据的一个特色。
根据开放政府数据实践的成熟度、相关资讯完善度、行政层级和地域的多样性,我们选择了一些政府开放数据门户网站样本来研究,包括北京、上海、武汉、无锡、湛江、宁波市海曙区、佛山市南海区。
我们研究了哪些内容呢?一是看平台层。目前,各地方平台都包含三大模块:数据导引、数据获取、互动交流。其存在的问题包括,普遍交互便捷性差;缺乏高质量数据应用展示;沟通交流缺乏便捷性、有效性、公开性。
二是看数据层,主要存在如下问题:开放数据总量偏低,可机读的数据比例不高,大多为静态数据,不是动态的;数据按承诺更新比例低,当时上线时,政府承诺每月更新,但实际上很久才更新;整体都未严格符合开放授权的要求。
三是看基础层。中国地方政府开放数据,已从特大型城市扩展到不同地域、不同规模的地方;开放数据的地方相对集中于沿海一二线地区,经济通常较发达,政府信息化基础相对较好,IT产业具备一定潜力。但是,这些地方针对开放数据的专门政策和工作方案普遍缺位,管理体制大多不足以支撑工作推进,领导力支持尚不足。
对此,我们的建议包括:加强管理架构和体制机制建设,制定相关政策与工作计划;提高领导重视程度和支持力度;要基于社会需求,开放高价值数据,展现数据应用;提升数据开放性与可机读比例;规范数据更新周期,落实数据更新;完善数据授权协议;降低数据获取与互动门槛。
开放政府数据的难点
中国开放数据的现状令人并不满意,难点主要集中在以下几方面:
第一,对政府来说,第一个问题是,数据在哪里?有一些政府部门自身信息化的能力,并没有达到公众期望的水平,他们自己确实没有采集相关数据。但很多情况下,其实是政府部门不知自己有这些数据,因为这些数据不在这个部门——政府内部有很多部门,别的部门采集过的数据,这个部门不一定知道,也没有梳理过一个完整的数据目录清单。于是,政府对自己有什么数据资源并不清楚。
第二个问题是,需要考虑这些数据能不能开放,是否涉及国家安全、商业机密、个人隐私。如果涉及上述内容,这些数据就不能开放,因为会对社会造成危害,但要搞清楚是否涉及国家安全、商业机密、个人隐私,这并非一个简单的工作,法律法规有时比较模糊,甚至相互存在冲突。
第三个问题是,愿意不愿意开放?这些数据现在在部门手里,是有利可图的,部门拥有这些数据资源,相对其他部门和社会上的企业来说,就有很多优势,大家都想要数据。数据免费开放之后,部门利益可能会受到有形无形的损失,甚至部门地位会下降,这样有些部门就不愿意开放数据了。
第四个问题是,这些数据的质量有问题,数据质量并不好,不全面,不及时,不准确,数据之间可能还有冲突。那么,开放这些数据让社会利用,可能不仅不能带来收益,还会造成损失。这样,在开放数据之前,还需要对数据质量进行整体提升。
第五个问题是,政府部门有没有一整套制度和能力来开放数据?开放政府数据对政府来说,是一项全新的工作和挑战,应由哪一个部门来主管这项工作?这个部门能力如何?体制架构和工作机制是否到位?
开放数据的过程中,涉及很多管理、政策和技术的问题,所以开放政府数据还需进行能力建设,包括管理能力和人员能力。
第六个问题和政府部门的组织文化有关。对政府部门的工作人员来说,创新其实是要承担风险的,政府部门里有一句话叫:“多做多错,少做少错,不做不错”。不做开放数据这项工作,就不会犯错,也不会有人来说我,但开放了之后,一旦哪里出了问题,我就可能被领导批评,被其他政府部门发现这些数据有问题,就会被公众批评。那多一事不如少一事,还是别做的好。
开放政府数据是一个动态循环的生态系统
在数据开放过程中,相应的政策法规、组织管理、数据管理和平台开发水平,决定着政府数据开放的水平;而在数据开放之后,数据利用者的利用方式和利用能力,将直接影响数据利用的效果,两者间的动态互动关系,共同决定开放数据的价值创造过程。
从开放数据、利用数据到价值创造,是一个动态循环的过程。开放数据不是政府一个人的事。政府开放数据之后,由开发者来利用数据,为社会创造公共价值。政府开放的数据越多、价值越高、质量越好,数据利用者的数据利用能力越强,数据的利用效果就越好,创造的公共价值也越高,如此又促使政府开放更多高价值数据,形成良性循环。
反之,如果政府开放数据不足或不当,数据开发者没有兴趣利用数据或错误利用数据,数据就无法产生价值甚至造成损失,政府也失去开放数据驱动力,形成恶性循环。
国外有很多大赛,如纽约的Big Apps,鼓励你使用数据,用得好每年还有奖金。其实奖金不是最重要的,重要的是让社会都知道这件事,都来用你的数据。所以,开放数据的提供者和利用者,是共创的合作伙伴。
政府,是数据的提供者,需要有一套管理机制。组织架构上,需要有一个部门来推动这些数据开放,跟其他部门协调,因为数据在别人手里,所以这个部门要推动别人信息数据开放。需要一套流程、机制、方法、组织文化来支持开放数据。奥巴马在推动美国开放数据时,在文件里专门提出要建立开放数据的文化,即从采集数据的这一天开始,就准备好要开放。
还需要从数据层面保障数据开放。从数据层面而言,需要考虑数据格式与标准、数据质量、数据的可用性。有一个问题是,这些数据当时是政府行使行政职责而采集的数据,数据确实是正确的,但不一定对你有用。所以就要特别强调,开放数据时,要尽可能开放详细的元数据,也就是关于数据的数据,告知数据采集的背景,让利用者自己判断,这是否为自己所要的数据。
接下来是平台建设方面,是一站式还是分散式,平台的架构、界面、功能等。这是最后一步。这一步哪怕做得再好,上面没有高价值的数据,那还是没有干货。数据和平台,都要靠后台管理做支撑。
2010年左右,我去国际上参加各种会议时,发现他们更多在讨论“怎么开放”的问题,而后来各种国际研讨会上讨论的主题,更多是如何推动社会来利用这些开放的数据。
数据开放了之后,一方面要推动利用,发挥其价值。另一方面,还要规避风险,防止滥用。大概三四月份,我去台湾大学交流时,他们(台湾大学)说,正在重点研究隐私保护的问题——开放数据虽然对单个数据集做了去隐私化处理,但是,社会把几组数据集放在一块之后,是否还能遵循去隐私的原则?通过几组数据的整体分析,也许还是能锁定到某个人。他们已经在研究这些问题了,这是数据开放之后的问题。
另一方面,在数据利用这方,数据到底由谁在利用和开发?有普通公众,有机构客户,有增值开发者——即专业用户,还有科研人员,他们对数据会进行深度挖掘,甚至得出政策建议。也就是说,每个人使用的需求、利用的方式、利用的目的和能力都不一样。有些人可能只是拿去做可视化展现,有些人拿去开发实际应用。这些用户之间可以形成一种产业,一手的专业用户把数据拿去做开放应用,服务于普通用户。数据集不是每个老百姓都能看懂,需要专业人员进行挖掘分析,然后老百姓可以用起来。处在中间的数据开发者,就成了普通公众和政府之间的桥梁。
初级普通用户,对数据的使用能力很低。他们面临一个新的问题。我们以前有“数字鸿沟”的概念,所针对的是和信息化产品相关的应用。这里提出新的概念,叫做“数据鸿沟”,政府确实是平等开放了,但公众的使用能力不同。就好比,生态圈中有老虎、老鹰、大象,还有一些小兔子、小虫子,在猎物能力方面有差异。而数据的用户也一样,需要有各种中间体把数据的价值一层层开发出来,让整个数据生态系统可持续地发展下去。现在国外的很多的研究和政策都在这个领域。我们还没有真正开放数据,这些问题并未充分展现出来,应用效果也还没有出来。
纽约的Big Apps,2015年已经是第六年了。“城市即平台”,政府开放数据的平台,不是一个只在上面堆放信息的门户网站,应该是做成一个平台,我把数据放在上面,你们拿去用,用完之后还能把成果放在上面展现。
在某种程度上,它和微信、微博等社交媒体平台相似,里面的内容不是专业人员采集编辑好,而是让你们自己挖掘,我只是提供一个平台。当时的纽约市长彭博说,要让政府推出这样一个平台,就像Facebook一样,老百姓是可写可读又可以写的。他说,只要你们愿意用这些数据为社会服务,我就愿意把这些数据开放给你们。
最后就是环境,有内部环境和外部环境。包括法律法规环境、政治环境、社会经济环境、组织环境、技术环境。比如,法律法规的环境,能否足够有效地支撑政府开放数据,政治环境是否足够支持开放,社会经济环境是否已经到了支撑开放的地步。
开放出数据,能否形成创意的生态圈?总结起来是,政府开放数据,只完成了一半工作,数据被利用之后,才体现为效益与价值,包括经济收益、社会收益、政治收益,也可能有损失和风险。产生的价值反过来又会对社会技术、组织环境产生影响,如果开放数据的收益重大,环境会更有利。那么,相应的环境,是否有利于政府开放数据机制建设?机制一旦建立,又能否推动数据的管理、平台的建设?将数据开放到平台上之后,利用效果取决于用户的利用方式、利用能力。用户利用方式、利用能力的改变又取决于经济环境的支撑。
这些因素之间相辅相成,要以生态系统的思维来看待开放数据。政府不仅开放数据,还要维护、培育这个生态圈。政府不要干预生态圈的发展,只需提供一个公平的数据开放利用的环境。
在其中,政府不需要特意去扶持谁。现在实行“互联网+”,各地政府都和大公司签约,大公司已经足够大了,其实并不需要政府帮助扶持,只要给大家公平的环境即可。政府过于支持大公司,有可能会帮助大佬们踩死小兔子,破坏生态圈的可持续发展。
开放数据是一个生态系统。这是一个非常复杂的环境和动态的过程,涉及很多利益相关方,存在很多影响因素,这些影响因素之间也存在互动关系和因果回路。整个开放数据政策的制定和执行,要以公众需求为出发点,以创造公共价值为终极目标。
上海开放数据大赛
回到中国这里,去年、今年都有政府开放数据大赛。上海去年也做了类似比赛。借此机会,介绍一下八月启动的上海开放数据创新大赛SODA。
今年重点选了交通领域,让相关部门开放数据,开放了交通违章数据、公交数据、出租车的数据、气象数据,以及微博上老百姓对交通的评论等等。把这些数据开发出来,让所有参与者都来运用这些数据,做可视化的展现或利用,看能解决什么样的交通问题。还有来自市场的与交通相关的数据,放在同一平台上,一起来开发利用。
政府手中蕴藏着大量与生活息息相关的数据,就像一瓶苏打水,看上去悄无声息,但你只要一打开瓶盖,就瞬间迸发出无限的创意和能量。意味着可以把数据转换成温度,来温暖我们的城市。城市不是一个大公司,所有数据等待着经理来开发或分析,城市的智慧来自大众的智慧。市民可以一起来挖掘数据的价值,通过这些数据来深度理解、增值开发和创新运用,解决城市的问题,服务我们的城市。
最后,在这个公众参与的平台,开放数据、众创协作,把我们的城市建成一个活的有机体,城市的每一个人都是有机体的组成部分,人人可以提供数据,向他人共享。这样开放数据就把我们链接起来,把城市建设成包容有趣的创意空间。你心中对未来城市的想象,也许可以通过SODA来实现。让便捷、平等、高效、安全的城市愿景变成现实。
(作者系复旦大学国际关系与公共事务学院教授、数字与移动治理实验室主任,文章根据作者7月29日在上海市智慧城市大讲坛上的演讲整理而来,经过作者审订)