查看原文
其他

【大数据专栏】大数据与开放数据的政策框架:问题、政策与建议

2014-07-18 bertot 科技杂谈
科技杂谈keji_zatan

新谈友,请点击题目下蓝字关注我

中国通信行业影响力最大的自媒体


文 / John Carlo Bertot,译者为郑磊,徐慧娜,包琳达,本文来源于大数据实验室(big-data lab)


  摘要:大数据与开放数据对电子公共服务、开放和透明政府以及政府公众与企业间的互动,都蕴藏着巨大的变革潜力。从“智慧”政府到变革政府,开放数据与大数据可推动协作,为农业、健康和交通运输等领域面临的挑战提出实时解决方案,推动更大程度的开放,并引领政策制定走向新时代。然而,开放数据与大数据也面临着一系列的政策挑战,如数据获取和发布、数字资产管理、归档和保存、隐私及安全等。本文以美国为背景,选择了有关开放数据与大数据的关键政策问题进行评论,并提出建议,以期推进数据驱动的创新。


  一、引言


  奥巴马在就任美国总统之初就颁布了一系列行政命令和计划,重申了构建一个对公民负责的开放透明政府的承诺。颁布的两项行政命令要求政府部门在依照《信息自由法》公开政府档案或总统档案时要更倾向于开放。最近,奥巴马政府又通过“开放政府联盟”(http://www.opengovpartnership.org/),以及公开“可机读”数据集等措施,进一步推动政府数据开放。奥巴马政府的科技重心在于利用技术提高政府的透明度,或至少增加可获取的政府信息总量。在此政策影响下,近年来出现的一个整体趋势是利用电子政府来更大程度地开放政府档案,并更加重视主动公开工作。奥巴马政府推动可获取、开放和透明度的努力围绕着两大技术——开放数据和社会化媒体。


  诸如www.data.gov这样的政府开放数据平台现已发展到可直接为用户提供海量的原始政府数据,并期待用户能挖掘这些数据的新的利用价值,从而以过去无法实现的方式加深我们对政府活动和更庞杂的社会事务的认知;社交媒体,如博客、维基、社交网站、RSS订阅、云应用、虚拟世界、手机APP应用和移动资源等,已被用于发布政府信息及与政府开展直接互动,这些工具还被用于鼓励公众为政府自创内容。这些技术方法推动了数据的可获取、开放和透明,同时又让公众、组织、社区和其他社会成员在现有数据的基础上产生新的创新性认知。


  然而,政府并非是创建大规模数据集的唯一实体。当前很多公司都围绕大数据的采集和利用能力来开展商业活动,并将这些活动作为其产品或运营后端的一部分。科研群体、政府和私营部门也正在加速生成各种主题的大规模数据集,包括气候变化、交通模式、健康和疾病数据、购买行为,以及通过社会化媒体互动表现出的社会行为。大数据的实践案例有:①Inrix公司和新泽西州运输部(NJDOT)之间的合作伙伴关系。Inrix公司通过汽车和移动电话GPS装置上的信号和数据,采集主干道上的车速数据,然后实时向新泽西州运输部警示任意主干道上的路况险情,同时向司机的车载GPS装置或移动电话发送警示来提醒司机注意路况险情。这个项目现已扩展为跨州服务,覆盖范围包括马里兰州和北卡罗来纳州。②气候公司(The Climate Corporation)是一家天气保险公司,他们制作保单来弥补联邦农作物保险和因气候造成的农民损失之间的差额。该公司通过庞大的传感器网络来分析和预测2000万英亩美国农田的气温、降水、土壤湿度和产量。在知晓高温天的天数以及土壤湿度数据后,建立的模型可以帮助其预判农民需要的天气保险金额以及公司需要支付的保费等.③纽约州能源研究和发展管理局(NYSERDA)运用一系列的大数据技术来评估气候变化对纽约州的影响,并为农业、公共卫生、能源和交通运输等领域提供应对气候变化的策略。这一应用也被美国疾病控制中心引入,正与美国其他10个州和城市一起开展“阅读州和城市计划”(Read States & Cities Initiative,http://www.cdc.gov/climateandhealth/climate_ready.htm),共同研究和


  应对气候变化,而大数据技术是其中一个非常重要的组成部分。


  大数据往往建立在开放数据的基础上,在催生新的科学研究成果,加快经济增长,为政策制定提供信息,以及制定为民服务新政策等方面都深具潜力。有关大数据的政策选择将对大规模数据集应用的创新和研究、政府开放和透明以及其他众多领域产生深远的影响。有关大数据和开放数据的政策决定则涉及如何在数据可获取、隐私、安全问题、数字资产管理、归档和保存等问题上寻求平衡。


  二、大数据的定义


  一般我们将大数据定义为不可能用常规软件和分析工具进行分析的巨大数据集。大数据有三个基础设施要素:①一个用于组织、存储并且保障数据可获取的平台;②能够处理大规模数据集的计算技术和能力;③结构化的、可使用的数据格式。此外,大数据涵盖多种数据类型,如文本、数字、图像、视频,并可跨越多个数据平台,如社交媒体网络、网络日志文件、传感器、智能手机的定位数据、数字化文档及归档的照片和视频等。


  大数据的概念,特别是政府数据的概念在美国并不新奇。出于透明和开放政府的理念,无论是以印刷还是电子形式,美国政府已采集并发布了大量的数据、出版物和其他内容。事实上,美国建国的核心原则之一就是保证政府信息的可获得和公开发布。多年来,政府的信息和数据在不断变化,采集和发布政府数据的方法和途径也同样经历了这些变化。在美国,这些里程碑主要包括:①打孔卡的使用及计算技术的早期版本,用于呈现1890年人口普查数据(https://www.census.gov/history/www/through_the_decades/overview/1890.html);②作为1935年《社会保障法》的一部分,社保制度的实施需要向2600万工人和300万雇主采集大量数据,IBM公司获得了该项目的合同以实施这一计划(http://www.ssa.gov/history/briefhistory3.html);③美国宇航局的研究人员考克斯和埃尔斯沃思首创“大数据”这一术语,指的是模拟飞机周围气流的大规模数据集,受限于当时的计算技术,这一庞大的数据集极难分析和处理;④作为奥巴马政府开放政府实践的一部分,2010年data.gov网站建立了向公众开放的“高价值”数据集(http://www.data.gov/about);⑤2012年3月奥巴马政府发布“大数据研究和发展计划”(http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf)。


  与以上最后一个实践相关,美国国家科学基金会(NSF)、美国国家卫生研究院(NIH)、国防部、能源部和美国地质调查局都在投资大数据创新。例如,美国国家卫生研究院宣布,在亚马逊网络云服务(AWS)上免费提供由“国际千人基因组计划”生成的数据(200TB),研究人员只需支付他们所使用的运算服务的费用即可。正如Lane和Braveman提到的那样,投资大数据创新使得我们有能力汇聚那些通常是分立的、过去不可能协作的学科,进而找出重大科学挑战之间的联系。


  大数据在美国的演进史可以追溯到一百年前,而其真正有新意之处是整体方法、规模和大数据处理技术的整合。本文回顾梳理并讨论美国大数据的关键问题和政策,尤其关注政府与大数据的互动和参与,然后基于美国的经验教训为大数据实践提出建议。


  三、大数据与目前的政策框架


  关于开放政府特别是大数据的一个关键问题是政府信息和数据的管理、使用、再利用和可获取政策(参见表1)。美国有一整套复杂且不断变化的信息政策(法律、法规和备忘录),用来管理信息的生命周期,从信息的生成、传播再到信息处理和归档。尽管这一政策框架不断调整,但仍落后于技术的进步。这一脱节使人们对美国现行政策框架是否足以应对大数据带来的问题产生了疑问,并提出以下几个关键问题:①在大数据时代我们如何保护隐私?②大数据时代我们能否发展有力的数据再利用政策?③我们如何确保数据的质量和准确性?④我们能确保数据的可获取性吗?⑤在目前的归档和保存条件下,如何管理我们的数字资产?下文强调了当前美国信息政策框架的潜在差距,并给出了弥合这些差距的建议。



  (一)数据可获取和发布


  美国管理和预算办公室(OMB)在数据获取和发布方面为政府机构提供了广泛的指导,他们确立了以下原则:①政府机构必须以适当的方式及时、公平、有效地把信息发布给公众;②政府机构必须建立和维护“信息发布产品清单”;③政府机构必须考虑到公民获取能力的差异,让那些不能上网的公众也能获得重要信息;④政府机构应制定多种策略来发布信息;⑤当使用电子媒体时,那些涉及妥善管理和文件归档的规定同样适用;⑥政府机构需要评估并确定最合适的方法来采集和保存文件,无论这些信息是在政府服务器上,还是托管在非联邦政府机构的服务器上。


  美国管理和预算办公室也为政府机构网站上与信息管理相关的问题提供广泛的指导,例如,《管理和预算办公室备忘录M-04-04》(联邦政府机构电子认证指南)要求政府机构对提供的所有在线应用进行标准化的风险评估;《管理和预算办公室备忘录M-03-22》(2002年电子政务法的实施指南)要求政府机构执行多项与隐私相关的措施,包括隐私影响评估。其他有关信息获取和传播的政策工具还包括:①《13166号行政命令》(为英语能力有限的人提供服务)。该法案要求政府机构对英语能力有限的人提供适当的信息获取方式,涉及所有的“联邦的项目和活动”,这一政策旨在解决公民使用电子政务的鸿沟,尤其是那些不以英语为母语的人。②针对残障人士的法案。《残障人士教育法》规定残障人士在公共教育中可平等获取所有的电子材料;《残障人士法案》规定政府在提供服务和福利以及开展政民沟通时,不得将残障人士排除在外;《康复法案》504条款建立了一系列标准,以保证残障人士平等地参与政府活动和获取政府信息,并确立他们获取信息和使用通信技术的一般权利;《康复法案》508条款规定,由联邦政府采购、维护或使用的电子和信息技术必须满足特定的获取性标准,以确保残障人士能够获取在线信息和服务。③1996年的《电信法》。该法案推进和实施了线上信息和通信技术的可获取性。


  (二)隐私、安全、准确性和归档


  政府网站正变成双向社区,增加了网络病毒或其他攻击载体侵入政府环境的可能性,同时也增加了信息意外泄露的可能性。政策框架也作出了相应调整以应对这一变化。比如,《管理和预算办公室备忘录M-05-04》(联邦政府机构网站政策)要求政府机构尽可能采取足够的安全措施确保信息不被篡改,并确保其准确性、保密性和可获取性,以符合政府机构的预期和用户的需求。


  然而,当前的相关政策并不能保证解决大数据所带来的大量使用不当问题。对个人身份信息、政府数据与信息的安全性以及对公开数据的准确性的担忧都与大数据相关。大数据的质量、可靠性和权威性是政府、科研群体、非政府组织以及私营部门最关注的问题。未经确认或验证的数据,或用错误方法采集到的低质量数据可能会导致错误的研究发现,进而严重影响一系列的决策和政策制定。用于管理data.gov运行的现有数据政策致力于解决这些问题,具体包括:①规定负责采集和发布数据的政府机构要确保数据的准确性、及时性和整体质量(根据2001年《信息质量法》);②要求政府机构进行版本控制,确保数据集具有明确的标签;③要求政府机构确保data.gov上发布的数据不涉及国家安全;④要求政府机构确保发布的数据符合保密和隐私保护的相关规定。


  沿着信息的生命周期继续往下走,大数据的使用、储存和保存等方面也面临各种挑战。推动大数据的开放和可获取与促进大数据的利用具有显著差别。此外,特定领域的数据应用(即只有某个特定领域的科学家们使用)和广泛的跨学科数据应用(即跨学科领域和跨常见研究领域的应用)之间也有不同。当与诸如社交媒体之类的新兴技术相结合时,它可以创造出基础更宽广的社区,以推动协


  作和参与、合作生产、众包和创新。


  最初的美国开放政府国家行动计划的一个重要内容是从根本上开放data.gov平台的源代码,以使世界各国都可以复制。作为一个面向公众的平台,它可成为一个促进协作、存储数据集、推动社区参与并提供参与机会的工具。除此之外,数据还可以通过这些平台以多种格式(例如CSV、XML和Excel等)储存和开放。每种数据格式都有其特定含义,可限制或促进数据的应用。而如果目标是使广大公众都能获取和使用数据,则常用数据格式就必不可少。


  同时,需要为大规模科研数据集建立专门的数据库。构建数据社区的一个要素是迫切需要整合和管理来自不同源头和不同部门的数据。已经开发的一系列基于传感技术的产品(如智能汽车、智能建筑和智慧家庭),以及日益普及的智能手机等技术可为交通运输、能源消耗、水利用以及其他领域源源不断地提供地理定位数据。很显然,这些数据流必须在政府、私营部门、公共事业公司、各种设备(如汽车、智能手机、家庭传感器、楼宇传感器等)和个人之间流动交汇才能真正有用,并为社区和国家发展提供信息。因此,有必要在各个实体之间建立、采用并遵守一套正式的数据管理标准和操作办法,以保障数据兼容性、命名规则和组织架构;而且,为确保研究人员对于数据集的知情使用,也需要制作具有明确定义的数据文件和编码本。


  “聚合”(Mashups)指的是用户将从不同网站得到的数据结合起来,大数据使当下信息政策环境变得更为复杂,而这不过是其中一个例子。《管理和预算办公室备忘录M-05-04》要求各政府机构的公共网站,在可行且对实现预期目标有必要的情况下,提供开放且符合业界标准格式的数据,使得用户能够整合、分解、操纵或分析数据以满足他们的需求。虽然“聚合”对于为研究者、政府、政策制定者和公众提供信息具有潜力,但经过聚合的数据往往缺乏正式的授权和验证程序。正如data.gov网站所提出的,“一旦数据从该政府机构页面被下载后,政府不再能保证其质量和即时性。此外,美国政府无法对取自Data.gov的数据的任何分析结果做担保”(http://www.data.gov/data-policy)。虽然这一免责声明限定了data.gov的责任,但二次数据使用问题仍需要解决。


  大数据的监管也是一个不可忽视的问题。数字化监管“涉及对电子研究数据的维护、保存和增值,并贯穿其整个生命周期”,同时“可信的电子数据库中的受监管数据可在更广泛的研究团体中共享”(http://www.dcc.ac.uk/digital-curation/what-digital-curation)。重要的是,数据监管更侧重于对数据资源的整个生命周期进行管理,例如:数字资产的概念问题,数字资产的创造、获取和使用问题,以及数字资产的评价和选择工作等。随着新的电子数据资产的持续增长,有必要为大数据的整个生命周期制定有效的数据管理策略。


  最后,在诸如data.gov社区这样的数字“开放空间”里,永久的、最终的“文件”越来越少,而几乎所有文件管理和归档工作都是基于这些“文件”建立起来的。由于现在使用的是非政府的第三方应用程序或软件,且数据调整和修改不断发生,使得数据所有权、储存进度以及归档工作都面临着巨大的挑战。


  四、建议


  大数据带来了一系列问题,而当前的政策框架却无力解决这些问题,这就需要一个大数据的治理模式。


  (一)大数据治理模式需要解决的问题


  ⒈隐私


  在个人、家庭、设备或其他层面,大数据包含了各种个人信息数据。隐私保护法律和政策可能会与大数据所带来的机遇相冲突,而与此同时,大数据正在侵犯个人或社区的隐私权。


  ⒉数据再利用


  数据通常是由政府机构或其他组织(如公用事业公司、电信运营商等)所采集的,一般与社会服务的被服务者密切相关。另外,个人、政府机构或公司常拥有在允许范围内使用数据的权利,以及采集和使用数据时的隐私保护政策。当大数据应用不断整合来自不同机构、政府以及家庭的数据集,以期发现新思路并为决策和政策制定提供信息时,向个人清晰地进行数据利用和再利用政策的指导也非常必要,有助于使个人在知情的情况下作出与其个人数据相关的决定。


  ⒊数据准确性


  由于新的数据集是由组合来自不同政府机构、研究人员、科学家、私人部门(如电信运营商、设备生产商、公用事业单位等)及公众群体的原本各不相干的数据而生成的,因此需要制定并遵守数据质量标准。因某一特殊目的而采集的数据并不一定与其他数据集完全兼容,而这可能会导致误差及一系列的错误结论。我们需要在保证数据质量的同时,开发一套系统来检验已被发布的结论。Data.gov(http://www.data.gov/privacypolicy)网站上的免责申明将这一责任交给了发布数据的政府机构,以及下载并使用这些数据的组织或个人。数据的使用会对社会、政策及科研项目产生巨大影响,而以上做法并不是对数据使用的恰当回应。


  ⒋数据可获取


  保障数据可获取的政策(如《信息自由法》、归档和保存政策)同样需要考虑数字化数据。由于大数据通常整合了来自不同部门的数据集,而这些数据的内容既不是完全公有的,也不是完全私有的,因而就产生一个问题,即用什么政策去管理这些新产生的数据集的可获得性并进行保存?此外,大数据使公众获取政府数据集成为一个问题,公开的门户网站(如data.gov)提供了基础的数据获取渠道,因此需要建立类似的数据获取平台。


  ⒌归档和保存


  关于大数据的归档和保存政策有一系列的问题需要考虑,包括数字化数据集的大规模特性、内嵌于特定技术或技能的分析和发现、原始数据文档等问题。硬币的一面是政府机构、合作伙伴和归档机构的档案管理和归档政策、要求和惯例;硬币的另一面是随着数据和信息技术的改变,数据集的长期保存和流传。大数据通常嵌入在专业技术、模型或具有知识产权的系统中(如预报模型、专业软件等)。如果脱离其所嵌入的技术和分析平台,原始数据本身不能保证导出相似的发现,因此,同时保护数据和用于分析数据以产生研究成果的技术就至关重要。另外,我们还必须考虑由非政府机构建立的研究数据集的归档和长期保存,例如由政府研究机构资助的大学和研究中心。需要制定整体数据管理战略,以确保较小数据集的可用性,使之能成为大数据的一部分。


  ⒍数据监管


  大数据创新的主要目标之一就是鼓励社区整合多个大规模数据集以创造新的知识。数据的每一种排列都是一个新的数据集,需要存档、管理及监管,因为大数据不一定生来就是大数据,而是通过对许多小的数据集的累积、修改、合并及加工而来。此外,重要的是,除了对这些大数据集的监管,较小的社区也需要提升能力来参与监管,从而能在数据集合之后获得最大收益。


  ⒎建立可持续的数据平台和架构


  为了组织、监管、储存并将数据集开放给科研群体、私有部门、其他部门及公众,需要建立强大的技术基础设施。这些平台需要同时在物理层面(技术)和智能层面(组织)将大数据开放,同时需要将一系列技术、分析技能及信息架构进行无缝隙整合。这些基础设施必须是像data.gov那样能够支持面向公众的通用平台,以及面向特别机构(如健康、环境等)的包含大量大规模数据集的专业平台。


  ⒏数据标准的建立


  大数据要求在技术层面能实现互操作,同时在数据层面遵守元数据标准。不同的领域可能会有不同的元数据标准,例如:ISO19115(国际地理空间元数据标准),适用于非地理空间数据资源的都柏林核心元数据要素集(http://dublincore.org/documents/usageguide/elements.shtml),已开始实施的适用于社会和行为科学的数据文档计划(DDI,http://www.ddialliance.org/),以及其他适用于数字图片的Z39.87标准(MIXXML图片的元数据,http://www.loc.gov/standards/mix/)和适用于生物多样性数据的达尔文核心标准(http://rs.tdwg.org/dwc/index.htm)。大数据数据集


  的生成、发展及发布需要考虑合适的数据标准格式,从而推进协作和数据的再利用。此外,对于对外发布的文档也需要建立文档标准,例如有关数据集的组织、数据元素、数据种类(如数字、文本等)的描述及其他有关数据集内容的描述信息等。另外,对数据的局限性也需要作出清晰的说明。


  ⒐鼓励跨部门数据共享政策


  由于大数据涉及到数据在不同系统、政府和部门之间的实时传递,这就需要建立一个数据共享和互操作的框架。上文介绍的新泽西州运输部(NJDOT)的实践提供了一个例子,采集到的数据(在汽车制造商的管辖下)能够发现诸如拥堵和交通流等问题,而这些功能通常是由当地或全国的政府交通运输部门负责。利用协作分析技术的大数据创新需要对数据采集和汇报系统进行无缝隙整合,正如上文所述,这就有必要调整信息和数据政策以反映这一整合的数据环境。尽管并不全面,以上建议为调整政策框架以解决政府在大数据实践中产生的重要问题开了一个头。


  (二)大数据模式的指导原则


  当政策制定者考虑、辩论并制定政策时,当私有部门、非营利部门与政府合作时,我们会发现,对开放数据和大数据立法或者制定一套政策和治理结构非常困难,不过,至少政府在进行数据开放并利用大数据技术的时候需要制定一套指导原则。


  ⒈不造成伤害


  众包项目,以及在政府、私有部门和公众社会之间共享数据可能意味着在部门和组织间共享私人的、敏感的个人信息,而这些组织中的大多数并不拥有相匹配的数据管理、利用和再利用政策。当非政府组织也是大数据合作项目的参与者时,个人不应该被强制或被要求将政府出于某种目的而采集的数据共享给这些非政府组织。


  ⒉长远眼光


  数据的长期共享、保存、检索及获取将要求超越当前技术水平,具有长远眼光。需要保证大数据及其附属产品能在未来的十或二十年乃至更长的时间里都能获得——虽然技术的寿命一般只有两到三年。从一开始就坚持遵守开放数据标准及技术标准可有效推动这一过程。


  ⒊数据表述


  我们需要保证数据元素、数据采集单位(例如,是个人层级还是社区层级)或数据的其他方面都被很好地界定,同时数据采集和使用政策能得到清楚的表述。


  ⒋承担责任


  虽然大数据对于提供信息和制定政策潜力巨大,但也可能造成损害。大数据通常包含了多种数据集的整合(通常被称为“聚合”),而这些数据集最初并不是出于整合的目的而生成的。在大数据创新中,政府需要对他人使用其数据所造成的损害承担责任,确保对公众的保护。


  上述指导原则只是一个开始,并非结束。随着对大数据创新理解的不断深入,我们需要建立并维持一个强有力的政策和治理框架。


  五、结语


  大数据创新对政策制定和决策有重大意义,可加深我们对重大科学和社会挑战的理解,推动政府、公民及企业间的合作,并引领一个新的电子政府服务的新时代。然而,正如本文所表述,我们也需要考虑与管理大数据相关的一系列政策问题,包括隐私、准确性、可获取性、公平和保存政策等,并建立整体性的大数据治理模式。未来的研究应该探索这样的模式,并在这样的情景下更好地思考大数据问题。


  由于篇幅限制,参考文献省略。


  欢迎大家加入科技杂谈菁英汇,交流思想、分享信息。仅限行业商端人士参与。参与方式:点击左下方“阅读原文”填写您的加入信息,科技杂谈通过审核后,会添加入群。


本文仅代表作者观点,科技杂谈授权刊登。

转载必须注明作者与科技杂谈,侵权必究。

科技杂谈文章,均同步发布于犀牛财经网。

已入驻搜狐新闻客户端,网易阅读客户端。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存