共治共创视角下的开放数据发展:趋势、挑战和反思
按:本文修改版刊发于《大数据》期刊,2016, Vol. 2(2)
1. 前言
开放数据运动的兴起,一般来说,被认为起始于2009年data.gov的启动。作为政府透明化工作的重要一步,奥巴马政府大力推进政府数据的开放,以此来推动政府内外人士对政府运作过程,特别是政府财政预算与开支的监管。也因此,开放数据在发展伊始,常常被认为是政府透明化工作的一环,是政府信息公开工作的自然延伸,通过提供可实际获取并易于使用的数据而非纸面或PDF文本信息,来加强公众对政府公信力的监管[1]。
而在各国不断接纳开放数据思维,推动本地政府数据开放的同时,我们也不难观察到,开放数据所扮演的角色正在悄悄发生变化。2013年麦肯锡研究院的报告[2]揭示,开放数据能够带来3-5万亿美元的经济价值,首次让人们把视线从政府透明化转向了开放数据的经济价值。透过美国纽约的BigApps大赛,英国开放数据研究院与Nesta的开放数据竞赛(Open Data Challenge)等政府牵头的共创平台,大量基于开放数据的创新应用得以被开发,并进一步得到资助、孵化,从而得以真正落地“政府即平台”[3]的理念,为社会提供基于数据的创新解决方案。而在中国,上海市经济和信息化委员会和交通委联合主办的上海市开放数据创新应用大赛也秉承着这一思路,通过开放1T的交通数据,激发社会创新力量,最终诞生了横跨“新能源车”、“交通保险”、“定制公交”等不同应用主题的优秀作品。
在这一系列以开放数据作为基础的共创活动中,开放数据所扮演的角色不仅仅是为共创提供了必要的数据资源,其本身也重塑了政府与公众间的交互关系,以数据为纽带,形成了共同协作的机制,一同解决社会问题。而在这个过程中,我们也观察到共治共创的实际需求,也在重新定义开放数据本身的运作机制和形式。政府在思考数据开放时,从原本“我有什么就开放什么”逐步过渡到“公众需要什么我先去开放什么”并进一步朝着“我和公众期望共同解决什么问题,我就先开放什么”的开放思路所演变。
而实际上,这场由政府所率先主导推动的开放数据运动,也慢慢影响着社会各界接纳开放数据作为跨界协商合作的渠道。共享经济的典型代表企业Airbnb,就在2015年底主动对外开展有限的数据开放[4],以期换来社会各界特别是政府对其共享经济模式的理解,并协商讨论可能的创新监管模式。无独有偶,专车模式的鼻祖Uber也采取相同的策略,主要面向政府做数据开放,以此来换取政府接纳专车模式,不再限制非经营性车辆的介入,并寻求协同治理专车的新模式。
面对这一系列的新变革,开放数据已然不再简单作为透明化的工具,更不仅仅是政府一端的事务,其正逐步成为21世纪社会协同治理和协同创新的基石,需要社会各界多元的参与及贡献。而在这个过程中,作为开放数据的实践者和研究者,我们也需要重新反思开放数据的定位、机制与形式,并探讨开放数据如何更好地服务于社会的共治共创。
2. 政府即平台:可读可写的开放数据接口
“政府即平台”并不是一个新鲜的概念,Tim O’Reilly提出政府即平台的概念是基于其对互联网的深入理解,从互联网角度来讲,即是政府应当成为社会运作的基础技术设施,对外暴露其读写接口,允许第三方基于接口获取政府基本服务,从而加值利用,建立起更为用户导向的对外服务。
而从这一点来看,实际上我们可以认为政府运作开放数据本身就是一个对外提供“读”接口的过程,虽然这个接口可能有的时候仅是一个数据下载而非真正的API接口。而基于开放数据平台所提供的数据,我们已经无数优秀的应用得以被开发为市民提供服务。最为人熟悉的当然莫过于交通类的应用,伦敦交通局在开放其交通数据后,有超过5000名开发者注册获取数据,有超过300多个交通应用帮助人们了解车辆的实时到站情况,超过4百万人每天在上下班时使用这些应用,规划自己的出行,无形中这为人们节省的时间可以换算为2千万到6千万英镑[5]。
然而,对于任何一个所谓的“平台”而言,绝不会仅仅让人“读”,而不能“写“。事实上,政府在现实治理过程中有大量面向公众的服务,这些服务过程从数据角度来看即是由公众向政府提供数据的过程。比如市民投诉热线12345服务,是政府接受公众对非紧急事务投诉的服务,公众投诉内容即是一种由公众向政府提供的数据,其包括了投诉内容、投诉针对地点、投诉种类等等,而这样的服务过程实际也可以接口化,面向开发者提供一个“写”API,使得数据可以通过API由公众端流向政府端。这一类型的政府服务数据接口化中,最为著名的就是美国Open311接口,它是一个由民间组织OpenPlans所制定并实现的接口标准,起初是为华盛顿311热线专门定制的一个API,帮助其拓展数据流入的渠道,并标准化数据流入标准。而之后,这个接口得到了不同州、市政府的欢迎,甚至开始有欧洲城市也加入使用该接口标准去实现自己政府的311接口。而311接口的实现,使得政府在接受市民投诉的过程中不再局限于电话热线,而是可以通过由市民自己选定的应用、社较媒体来获取详细的数据,不但包括更为精准的经纬度座标,还能获得额外的多媒体信息。这些都是原本电话热线时代所不具备的。
如果说,政府将数据通过接口方式提供给公众使用是开启了数据多元化呈现的大门,那么政府提供一个“写”接口,则是大大丰富了其数据获取的渠道,双向的数据接口开放,将政府真正的变成了可读可写的平台。
3. 加速“数据”到“服务”的转化:开放数据的标准化和互通性
对于开发者而言,开放数据虽然帮助他们获取了原先封闭的数据,并且确保了数据是提供在可机读格式下而非PDF或这Word格式下,但在面对不同地方所释放的同类数据采用完全不同的数据范式时,也是非常的头疼。
针对此,于2015年9月正式启动的国际开放数据宪章[6]就提出了开放数据必须保证互通性的倡议,其提出对于拥抱国际开放数据宪章的国家、地区、城市,都将努力“制定并实现统一、开放的数据标准,从而确保数据的格式、结构和通用标识符都具备互通性”[6]。而这一倡议,实际上是对于政府开展开放数据提出了更高的要求,不再是简单要求确保可机读格式,而是要求特定的数据能够满足特定的标准,从而保证其能够和其他数据发布者所发布的同类数据互通。
事实上,对于数据标准的探索美国政府和民间机构已经尝试了很久。其中最为经典的一个案例就是Yelp和旧金山政府共同合作的LIVES标准。这一标准的诞生起源于2013年初,Yelp和旧金山市开展的一项合作:由旧金山市政府向Yelp直接提供餐厅卫生检查结果数据,从而Yelp可以在其网站上展现餐厅的卫生情况,帮助消费者找到卫生健康的餐厅就餐。
这可能看上去仅是个简单的数据共享合作,但实际Yelp和旧金山市想的更远:如何让更多城市的卫生检查结果得以展示在Yelp上,以及其他的应用中?虽然在2013年不少美国的城市已经开展了开放数据的工作,餐厅卫生检查的数据也大多数已经开放在本地的开放数据门户之上,但若仔细检视各地的数据,就会发现数据的利用者,例如Yelp,想要直接使用各地发布的形式各异的数据是十分困难的,因为不同地方的数据中,所包含的信息并不一致,例如波士顿提供的数据中提供了对餐厅违例的具体说明、状态、等级,而其他地方并不提供这一信息。而即使多个地方都提供同一信息,其在数据库中的表示也会不同,比如同样是提供餐厅地理位置,有的地方仅提供其文字地址,而有的地方又是以经纬度表示的。
为此,旧金山市的科技部门联合Yelp和纽约市的科技部门一起提出了LIVES(“Local Inspector Value-entrySpecification”)数据标准,该标准对餐厅卫生检查结果数据应当包含的字段内容和字段要求标准化,其规定将原本复杂的餐厅卫生检查结果拆分成数张表,包括了餐厅信息的business表,检查结果的inspections表,检查违例详情的violation表。同时,其也要求各个提供该信息的城市同时提供数据源说明表feed,以及数值范围表legend。对于上述任意一个表内的信息,比如,检查结果inspections,LIVES都基于不同州市当前的数据采集标准和记录方式设定了标准化的字段(见下图)。
图 1 LIVES标准示例——Inspection表
同时,为了使得各城市能够以最低的成本,无论从时间上而言还是从财政上而言,完成工作并快速接纳LIVES标准,数据的提供方式上并未要求使用API,而是简单要求各城市能够按照标准要求将所有数据表打包入一个zip文件,以最简单的文件替换更新形式来完成数据更新。这样做的一个好处是,其操作方式简单,各地方仅需将数据按照要求制作成对应的数据表,而无需担心自己是否有能力去开发一个API,或者是否有足够人力去维护后续的接口更新。目前,已经有多达11个地方按照LIVES提供了数据,使得Yelp可以快速将卫生评价引入自身的平台。而在开放数据平台解决方案提供商Socrata的帮助下,LIVES将会接下来在一个州内的50个郡进一步推广,同期也将在英国食品标准署推广从而在多达英国350个地方被使用。
LIVES无疑是一个成功的数据标准,而在它的发展过程中,不难看出政府作为数据发布者、企业作为数据消费者都扮演着极为重要的角色,在标准的制定、推广、采纳、使用的生命周期中充分参与和积极反馈,才最终使得LIVES能够被迅速接纳。而LIVES之外,我们也看到了其他不同类型的数据标准(见表格1)通过类似的方式被制定、推广、接纳、消费,通过标准的制定,数据提供方和数据消费者之间终于说上了一样的语言。
表格 1各类开放数据标准示例
标准名 | 主题 | 说明 | 提出者 |
GTFS (General Transit Feed Specification) | 交通 | 标准化的公共交通时刻表及相关信息。GTFS-realtime版本则标准化交通实时信息 | Google与波特兰交通部门提出 |
Open311 | 投诉举报 | 标准化的居民投诉举报性数据及标准接口 | OpenPlans提出 |
LIVES(Local Inspector Value Entry Specification) | 餐饮 | 标准化的餐厅卫生检查结果数据 | Yelp联同旧金山和纽约市技术部门 |
House Facts Standard | 住房 | 标准化的居住性用房检查结果数据 | 旧金山市、Accela、Code for America 等多元群体志愿性参与 |
Open Contracting | 合约 | 标准化合约数据,特别是公共招标结果合约、基金会资助项目合约的数据 | Open Contracting Partnership,由基金会资助形成的非官方标准联盟 |
BLDS (Building & Land Development Standard) | 建设项目 | 标准化建筑项目许可和土地开发项目许可数据 | Zillow, Socrata, Accela 等多家企业、机构、政府单位合作提出 |
4. 清晰开放数据的目标:为应用成效而开放
2015年底,普华永道受雇于开放数据研究院和Nesta针对开放数据竞赛进行了影响力的评估。结果显示,在2013-2015年的3年间,由7个不同主题组成的竞赛成功孵化了21家游戏的创业企业,而大赛所投入的每一英镑都将收获5-10倍的回报[7]。同时,较之经济受益更令人振奋的是,竞赛完全达到了原有的应用成效的预期,通过竞赛成功吸引了社会力量,利用开放数据,为社会紧要问题提供了可能的解决思路。
回顾英国开放数据竞赛的组织,不得不提到的是其对应用成效的注重(见表格2),所谓应用成效即所期望开放数据能够被运用于解决何种问题,并能够取得怎样的对应成效,这个成效应当是一个可以量化评估的具体目标。而事实上,这一思路不仅适用于竞赛的组织,更应当被实际运用于政府规划数据开放优先级的策略之中。
表格2英国开放数据竞赛系列主题及对应挑战问题
主题 | 挑战问题 |
治安和司法 | 开放数据如何能够提升群众在社会治安司法系统建设中的参与度,如何进一步为服刑人员有效改造教育提供指导,以及如何降低个人犯罪率。 |
教育 | 开放数据如何帮助家长为孩子的教育需要作出高效决策:包含如何高效择校、如何选择合适专业、如何参与孩子学习过程 |
能源和环境 | 开放数据如何帮助人们制定团购能源的策略从而节省开支、如何指导面向社区的节能项目,以及如何帮助人们自行生产能源 |
住房 | 开放数据如何帮助人们租借到最理想的房屋,这不仅针对在市场上租借市场房屋的人们,也包括向政府租借廉租屋的人群。 |
食品 | 如何利用开放数据帮助人们吃的更健康,更为可持续化/以及有更安全的食品供应链 |
文遗与文化产业 | 开放数据如何帮助我们吸引更多的不同背景的人来关注文化遗产和文化产业 |
就业 | 开放数据如何帮助人们找到更好工作或者帮助创造更多就业机会,这包括:帮助人们找到合适岗位或开始自己创业,协助职业晋升或改善工作环境,以及使人才市场运作更有效率 |
美国新墨西哥州阿尔布开克市的开放数据领导者Mark Leech近日也撰文[8]提倡在思考该开放什么数据时,除了应当思考人们需要什么,也同时必须清晰作为政府期望数据释放后能够带来怎样的可能成效。以应用成效为导向思考开放数据的释放规划有着三点好处:
第一, 作为数据的拥有者,政府部门可以更容易建立起数据开放和自身部门的利益联系。
事实上,一直以来开放数据推进过程中如何获取相关政府部门支持是一件很令人头疼的事情。拥有数据的政府部门通常并不认为开放数据是他们需要做的事情,至少听上去这更多是某一个主管开放数据的部门的主要任务而非他们的。但如果能够优先思考数据的应用成效,帮助部门从自身角度思考哪些问题期望得到解决,而释放数据可能可以找到合适的解决方案,那么这将不失为一个极大的推动力,去推动相关部门释放数据。
第二, 这使得数据将更具备故事背景,从而和不同数据更自然地聚类在一起。现有的开放数据门户通常通过数据发布机构、或者内容主题来分类数据,但事实上这样的分类方式往往会将解决同一问题的数据再次打散,增加了数据利用者寻找数据的难度,并且也同时丢失了一个绝佳的机会去启发开发者,如何将一些数据组合起来去解决一个具体的问题。如果能够提前思考数据的可能应用成效,然后根据应用成效将相关的数据组合归类,并提供相应的问题背景,那么数据的利用率将会大幅增加。
第三, 这将帮助政府更好的规划数据从释放到应用到真正落地发挥成效的路径和所需支持。数据从释放到被开发者加值利用并非是故事的结束,事实上,很多开发者并没有足够的能力去推广应用,或者使得应用真正的以被使用,特别是当一个应用是针对社会公共问题或者服务于政府部门的。为了使得应用能够真正落地,政府部门还是需要采用诸如PPP模式等方法协助应用落地,发挥真正的作用,才能达成预期的成效。若相关的部门从未在数据释放前对此有足够的认识和预期,那么自然不会去思考如何帮助开发者落地应用,这也正是问题的症结所在。也因此,我们应当鼓励数据发布的机构,去真正思考数据的应用成效,对其有所预期,并规划可能的支持,来实现相应的效果。
5. 以开放为核心的基础架构:展望多元数据开放与汇流
在前言中,我们回顾到,开放数据最初的主要定位是作为政府透明化工作的一环,作为政府信息公开工作的自然延伸而存在。而如今,开放数据则更多被视作是政府大数据战略的一部分,其主要目的是释放政府数据潜力,供公众特别是专业机构和企业加以利用创造价值。在这一过程中,开放数据的定位则更多是被视作是对当前大数据市场的数据资源补充。然而,开放数据不应当被狭隘的理解为仅仅是一种数据供应的手段,而更应当被视作是一种社会协作治理和创新的基础体系,其提供的不仅是数据资源,更是一种新的协作模式。
实际上,如若思考当前社会治理范式的革新,我们不难发现,当前的社会治理,因为大量新技术的应用和模式的创新,已经迈入了算法管控(algorithmic regulation)[9]逐步代替人工管控,多权力中心逐步代替单权力中心的新形态。共享经济的治理问题即是一个典型的代表,无论是Airbnb还是Uber,实质都已经摒弃了原本先准入后监管的传统治理模式,共享经济平台以数据为基础,构建信誉度算法,来实时监管评价并且奖惩进入平台的经营者。而这一过程,实际上也就演变为了由共享经济平台取代政府作为监管者对经营者做到了更为细致和实时的监管。这一根本性的变化实际反应了当前社会治理过程中,政府无法再垄断所有社会治理相关数据,而改由不同具备技术能力的企业和机构来分化这样的权力,使得原本的单权力中心演变为了多权力中心。
面对这样的变革,我们见证到是在过去的几年中不同国家的政府都试图去把共享经济平台重新纳入现有的治理体系,试图通过法令将非经营性的车辆、房屋重新排除在市场之外,从而使得监管问题重新回到既有的规则体系里。但实际这是错误锁定了问题点,问题的根本并不在非经营性车辆、房屋是否可以进入市场,而是政府如何能够像共享经济平台一样,监管好这些在既有政府监管体系之外的经营主体,而这也就直指问题的症结:如何确保不同利益相关体(政府、企业、第三部门等)对已经分散的经营主体监管数据拥有访问和利用的权限,从而可以基于数据去完成必要的监管。
为解决这一问题,政府需要做的不是试图去要求完全掌握企业数据或取代企业去采集相应数据,而是应当作为协调者去搭建一个用于社会治理的数据基础服务架构,使得各方的数据得以汇流,而在这个过程中,为了保障各方的均等参与和信任,开放应当是最为核心的理念,即各不同利益相关体应当将数据开放,使得任何第三方能够访问和利用数据。
在这一过程中,一个重要的问题是我们如何扩展和界定哪类数据应当予以开放汇流。现有的开放数据定义往往将开放的范围限定在开放公共数据,即由公共资金投入所产生的数据。而实际上,当前的社会运作过程中已不再仅仅是公机构掌握着社会治理的关键数据,我们应当拓展和延伸原有的定义,将事关公共利益和社会基本运作的数据纳入开放的范畴,界定哪些数据是社会运作过程中,最为基础的、关键的数据,其就应当予以开放,并纳入数据基础服务架构的体系中。特别的,当当前政府积极推进PPP模式吸引社会资本代替原有公机构提供公共服务时,我们要确保开放的理念予以贯彻,确保相应的数据能够得到及时的开放,从而确保政府本身能够有相应的数据做进一步的决策监管,同时也确保公众、第三部门等利益相关体能够在过程中掌握有关键的数据进行监督。
6. 结束语
随着社会多元主体积极投身于社会治理和创新中,数据开放的进化发展将是一个迫在眉睫的问题。本文中所提及的开放数据的双向接口化,数据标准化,应用成效导向规划数据开放,以及数据开放作为社会治理基础体系都是如今各国正在摸索中的新趋势。作为一个正在追赶西方各国的发展中国家,中国如何在这一过程中摸索出自己的路则是一个需要政府与企业、第三部门、公众共同努力的事情。
参考文献:
1.高丰,开放数据:概念、现状与机遇,大数据,2015(2)
2.McKinsey GlobalInstitute. Open Data: Unlocking Innovation and Performance with LiquidInformation.
3.O’Reilly Tim, Government as a Platform, OpenGovernment
4.Issac Mike, AirbnbReleases Trove of New York City Home-Sharing Data, New York Times, Dec 1 2015
5.Hogge Becky, OpenData Six Stories About Impact in the UK
6.International OpenData Charter, http://opendatacharter.org
7.PwC, Open DataChallenge Series Final Report
8.Leech Mark, Whyyou should consider ROI when releasing open data, SunlightFoundation OpenGovVoices, Nov 30 2015.
9. O’Reilly Tim, Open Data and Algorithmic Regulation,Beyond Transparency