大数据开放共享?数据治理应先行 | 数据治理的政策议题及其挑战
大数据开放共享?数据治理应先行
物联网、云计算、社交网络等新兴技术的蓬勃发展,使得人类社会从IT时代走向了DT时代。如果说IT时代是以信息流为中心,DT时代就是以数据流为中心,DT时代的核心是关于数据驱动的创新,即是基于海量数据的巨大价值挖掘。但是在挖掘海量数据的过程中,大数据创新应用还面临数据安全、隐私保护、数据质量、运营合规等多个方面的挑战。
为解决大数据创新应用面临的问题,“数据治理”的概念应运而生。数据治理主要聚焦在治理目标、职能、范围、过程与规范等方面,核心是提升企业对数据的管理和利用能力。
ISO/IEC SC40 国际标准工作组对数据治理提出了EDM(Evaluate-Direct-Monitor:评估-指导-监督)方法论,从而满足数据完整性、正确性、一致性要求,为大数据的应用创新和价值创造提供支撑,保障数据安全隐私并满足合规性要求。
数据治理实施路径如下图所示
图 数据治理实施路径图
本文从提升政府决策水平和保障数据交易安全的角度谈一谈如何开展数据治理。
1. 数据治理提升政府智能决策水平
在公共决策领域,大数据不仅能够提高政策水平和质量,还能够提升政府决策的民主化和科学化。比如伦敦地铁公司向大学开放了地铁客流量监测数据,请大学的课题组通过大数据分析,为优化高峰和低谷的运能调配、以及规划新的地铁线路提供坚实的参考。由此可见,利用大数据来优化决策的前提是数据共享与开放,但是随之而来的数据风险问题不容回避。如何处理数据共享与开放过程中面临的安全风险,做到风险可控,是公共决策领域大数据应用需要关注的内容。
因此,我们提出:融入数据治理的理念,以数据应用为导向,全面考虑数据治理的顶层设计、促成因素、治理方法、治理域等等,以评估-指导-监督的治理方法为核心,从规划、实施、评估优化三个阶段着手,开展数据治理。
在规划阶段,明确政府大数据应用主管部门,并对政府机构数据管理和应用的现状进行评估。充分考虑政府数据目前存在的“不愿开放、不敢开放、不会开放”以及社会外部数据有待进一步汇聚等问题,在数据共享与开放必要性得到社会认可等促成因素的促进下,构建跨机构、跨部门的治理组织,并明确组织角色和职责、机制,指导数据治理的实施。
在实施阶段,从数据标准化、数据质量、数据安全合规等方面着手。对原始数据进行规范、分析、度量以及改进,实现数据标准化;统筹规划政务数据共享与开放,建立共享与开放目录,保障数据质量;同时建立符合法律、规范和行业准则的数据合规管理体系,保障数据应用安全,促进政府自觉规范和约束权力运行。
在评估优化阶段,大数据应用主管部门通过数据治理绩效评估、数据审计等方式,对治理实施结果进行评估分析。对尚未达到目标要求的指标制定改进措施,以监督指导治理工作的实施,优化治理结果并持续评估和改进。
2. 数据治理保障大数据交易顺利进行
不同于金融交易所和商品交易所,大数据交易所的交易产品需要被清洗、加工后才能进行交易。一方面,数据的需求方也需要高价值密度、规范化的数据,以降低不同数据源的整合成本,减少数据应用研发周期;另一方面,原始数据涉及数据提供企业的商业秘密和用户隐私,需要采用适当的手段和措施进行脱敏处理,确保用户隐私安全。因此,在大数据交易过程中,涉及的数据存储、数据传输、数据可视化等环节都会面临数据安全、隐私保护、运营合规等问题。
在大数据交易市场项目中,按照数据治理实施路径,对数据交易的过程进行评估、指导和监督。例如在大数据交易平台中,平台的运营管理团队通过EDM方法,为多源异构的数据建立目录体系、实现数据质量和价值的逻辑关联,并监督数据交易时带来的风险。由此可见,数据治理能够为数据交易过程中价值实现、风险控制提供有效保障,是大数据交易领域需要关注的内容。
同时根据数据安全和监管需求,定义数据安全策略、标准、控制和措施,划分信息密级,审计数据安全,以数据安全工具作为支撑,全面支持数据交易服务。大数据交易市场依托单位对所有数据交易过程中的合规性、安全性进行评估,监督防范不合规行为。通过数据治理理念和方法的应用,最终保障了大数据交易过程的顺利进行。
总的来说,数据治理通过一套持续改善的管理机制,包含一系列政策和流程,促进数据有效、高效、合理地被利用,最终达到数据安全合规、风险可控和价值实现的目标。在大数据时代,数据成为战略资源,实施数据治理必将能为政府、行业以及企业带来全新的决策指引以及业务创新,发挥数据资产的真正价值!
本文是上海市政府决策咨询研究项目 “大数据在本市政府决策中的应用研究”课题阶段性研究成果。
宋俊典,博士,上海计算机软件技术开发中心软件平台服务部主任。
杨琳,上海计算机软件技术开发中心软件平台服务部高级咨询专员。
数据治理的政策议题及其挑战
来源:学习时报,作者:贾开
伴随着信息技术的普及,以“软件嵌入世界”为特征的自动化时代已经转变为“世界嵌入软件”的数字时代,传统观念上物理世界与比特世界的分野也逐渐丧失其实际意义,所有信息都已被数字化。
“数据”主要来源于:个人生物信息的基因数据、包含物理信息的传感器数据,例如以摄像头、无人机为代表的普适计算(意指“无处不在的计算”,即以传感器、无人机等为代表的微小型计算设备遍布周围环境,无时无刻不在采集并处理数据);包含个体行为信息的数据,例如交易数据、搜索历史、通信数据、位置痕迹等;以及包含公共信息的政府数据,例如公共服务、基础设施分布、税收数据等。
围绕这些数据的治理,存在着下列四个维度的政策议题:个人隐私的保护、数据价值的生产激励与分配正义、数据安全、数据责任。
个人隐私保护是数据治理的政策起点。经典意义上的“隐私权”概念源自“不被打扰的合理期望”,而这种“合理期望”随着技术进步也在相应发生变化。由此引发的问题便是,数字时代我们应该如何对“数据隐私权”做出相宜界定?另一方面,考虑到数字技术的普遍性,所有信息都被数字化且被永久记录于网络之中,由此改变了传统意义上的规制体系,如何发展并革新法律规制的技术、理念和制度,同样是摆在面前的难题。
数据价值的生产激励与分配正义源于数字经济的商业模式变革。一方面,建立在知识产权基础上的生产激励在快速且低成本的数字流动过程中既缺乏有效的制衡手段,也阻碍了数据价值的充分挖掘;另一方面,源于互联网平台经济的崛起与创新,“长尾数据”被有效利用并在此基础上形成了“公地喜剧”,但价值分配却呈现出明显的两极化趋势。对于前者而言,激励机制需要创新;对于后者而言,平台规制需要加强。开源软件和同辈生产的治理模式值得更多的分析与借鉴。
数据安全是数据治理的又一核心议题。“9 · 11”事件之前,美国国内法律规制体系对于行政及司法机构在数据审查方面的有效约束,使得跨境数据流动的全球治理能够在接受不同国家差异性的前提下正常运转;“9 · 11”事件之后,特别是斯诺登事件的爆发,使得其他国家开始关注美国大规模数据审查的威胁,以及数据安全的重要性。数据本地化、向数据征税、加强国家监管等数据保护主义政策被提出。这一背景下,如何恢复国际信任、重塑跨境数据流动全球治理体系成为当前挑战。
数据责任是数据治理的未来议题,其主要指当最终形成基于数据的治理模式后,如何对算法/数据进行问责并提升其合法性。伴随着大数据、深度学习以及人工智能的技术突破,建立在大规模数据训练基础上的决策模式将反过来使数据开始塑造物理世界本身。由此自然引发对于其责任、合法性的质疑,以及对于其经济、社会、政治后果的思考。
链接
长尾数据:“长尾”是一个统计学概念,意指取值低的个体其总体数量却巨大,“长尾数据”则指不十分重要的零散数据,但这些数据加总在一起却价值显著。
公地喜剧:指对于某公共物品而言,使用的人越多,其价值就越大。例如在广场上举行的庆典活动,参加的人越多,其对于每个人的价值就越大。究竟能否实现“公地喜剧”,取决于具体的制度安排,尤其是公共产权制度的设计。
开源软件:意指源代码开放的软件,任何人都可以自由获取、使用、修改和发布,著名的开源软件包括Linux、Android等。开源软件是相对于闭源软件而言,后者例如微软公司的Windows操作系统,只有获得微软公司的授权才可以使用或修改该软件。
同辈生产:意指每一个个体都成为生产主体且形成巨大生产力的组织模式。例如维基百科,每个人都在此编辑并发布词条,由此形成的知识量比大不列颠百科全书的容量还大若干倍。
数据管理与数据治理的区别
来源:数据资产管理峰会(ID:jiagoushi2015)
作者:Jelani Harper,翻译:新炬网络梁铭图
【编者按】当我们谈数据资产管理时,我们究竟在谈什么?就目前而言,我们谈论得最多的非数据管理和数据治理这两个概念莫属。但是对于这两个概念,两者的准确定义是什么,具体区别又是什么,仍是困扰着许多人的关键问题。
数据管理和数据治理有很多地方是互相重叠的,它们都围绕数据这个领域展开,因此这两个术语经常被混为一谈。
此外,每当人们提起数据管理和数据治理的时候,还有一对类似的术语叫信息管理和信息治理,更混淆了人们对它们的理解。关于企业信息管理这个课题,还有许多相关的子集,包括主数据管理、元数据管理、数据生命周期管理等等。
于是,出现了许多不同的理论(或理论家)描述关于在企业中数据/信息的管理以及治理如何运作:它们如何单独运作?它们又如何一起协同工作?是“自下而上”还是“自上而下”的方法更高效?
为了帮助大家弄明白这些术语以及它们之间的关系,本文将着重定义它们的概念,并指出它们的区别,这些定义和区别源自于国际公认的以数据为中心的相关组织,同时还会在一些观点上展开详细的探讨。
数据管理包含数据治理
在说明数据和信息的区别之前,最好从“治理是整体数据管理的一部分”这个概念开始,这个概念目前已经得到了业界的广泛认同。数据管理包含多个不同的领域,其中一个最显著的领域就是数据治理。CMMi协会颁布的数据管理成熟度模型(DMM)使这个概念具体化。DMM模型中包括六个有效数据管理分类,而其中一个就是数据治理。数据管理协会(DAMA)在数据管理知识体系(DMBOK)中也认为,数据治理是数据管理的一部分。在企业信息管理(EIM)这个定义上,Gartner认为EIM是“在组织和技术的边界上结构化、描述、治理信息资产的一个综合学科”。Gartner这个定义不仅强调了数据/信息管理和治理上的紧密关系,也重申了数据管理包含治理这个观点。
治理与管理的区别
在明确数据治理是数据管理的一部分之后,下一个问题就是定义数据管理。治理相对容易界定,它是用来明确相关角色、工作责任和工作流程的,确保数据资产能长期有序地、可持续地得到管理。而数据管理则是一个更为广泛的定义,它与任何时间采集和应用数据的可重复流程的方方面面都紧密相关。例如,简单地建立和规划一个数据仓库,这是数据管理层面的工作。定义谁以及如何访问这个数据仓库,并且实施各种各样针对元数据和资源库管理工作的标准,这是治理层面的工作。数据管理更广泛的定义包含DATAVERSITY上大部分主题为数据管理的文章和博客,其中有一部分是特别针对数据治理的。一个更广泛的定义是,在数据管理过程中要保证一个组织已经将数据转换成有用信息,这项工作所需要的流程和工具就是数据治理的工作。
信息与数据的区别
在上文关于数据管理的第三个定义中,提到了数据和信息的区别。所有的信息都是数据,但并不是所有的数据都是信息。信息是那些容易应用于业务流程并产生特定价值的数据。要成为信息,数据通常必须经历一个严格的治理流程,它使有用的数据从无用数据中分离出来,以及采取若干关键措施增加有用数据的可信度,并将有用数据作为信息使用。数据的特殊点在于创造和使用信息。在Gartner的术语表中,没有单独解释数据管理和数据治理的概念,取与代之的是重点介绍了信息治理和信息管理的概念。
数据治理主要围绕对象:角色
与正式的数据治理流程相关的角色是有限的。这些角色通常包括高层的管理者,他们优化数据治理规划并使资金筹集变得更为容易。这些角度也包括一个治理委员会,由个别高层管理者以及针对治理特定业务和必要流程而赋予相应职责的跨业务部门的人组成。角色也包括数据管理员,确保治理活动的持续开展以及帮忙企业实现业务目标。此外,还有部分“平民”管理员,他们虽然不会明确被指定为数据管理员,但他们仍然在各自业务领域里的治理流程中扮演活跃的角色。
有效的治理不仅需要IT的介入,这是人们的普遍共识。尤其当业务必须更主动地参与到治理方式和数据管理其他层面(例如自助数据分析)的时候,目的是要从这些工作参与中获益。在更多的案例中,特定领域的治理可以直接应用于业务。这就是为什么治理仅需要IT的介入是一个过时且应该摈弃的观点。
数据治理主要围绕对象:领域
数据治理包含许多不同方面的领域:
元数据:元数据要求数据元素和术语的一致性定义,它们通常聚集于业务词汇表上。
业务词汇表:对于企业而言,建立统一的业务术语非常关键,如果这些术语和上下文不能横跨整个企业的范畴,那么它将会在不同的业务部门中出现不同的表述。
生命周期管理:数据保存的时间跨度、数据保存的位置,以及数据如何使用都会随着时间而产生变化,某些生命周期管理还会受到法律法规的影响。
数据质量:数据质量的具体措施包括数据详细检查的流程,目的是让业务部门信任这些数据。数据质量是非常重要的,有人认为它不同于治理,它极大提升了治理的水平。
参考数据管理:参考数据提供数据的上下文,尤其是它结合元数据一起考虑的情况下。由于参考数据变更的频率较低,参考数据的治理经常会被忽视。
虽然上述提及的是数据治理在数据管理中所负责的特定领域,但一个至关重要的问题在于,所有组织里的数据必须持续坚持数据治理的原则。
数据建模
数据建模是依赖于数据治理的另一个数据管理中的关键领域,它结合了数据管理与数据治理两者进行协调工作。可以说,为了将数据治理扩展到整个组织,利用一个规范化的数据建模有利于将数据治理工作扩展到其他业务部门。遵从一致性的数据建模,令数据标准变得有价值(特别是应用于大数据)。一个确保数据治理贯穿整个企业的最高效手段,就是利用数据建模技术直接关联不同的数据治理领域,例如数据血缘关系以及数据质量。当需要合并非结构化数据时,数据建模将会更有价值。此外,数据建模加强了治理的结构和形式。
关键的不同点
数据管理其他方面的案例在DMM中有五个类型,包括数据管理战略、数据质量、数据操作(生命周期管理)、平台与架构(例如集成和架构标准),以及支持流程(聚集于其他因素之中的流程和风险管理)。在此重申一点,数据治理和数据管理非常接近是有事实支撑的,数据质量经常被视为与数据治理相结合,甚至被认为是数据治理的产物之一。也许,情景化这两个领域的最好办法,在于理解数据治理是负责正式化任何数据管理当中的流程,数据治理本身着重提供一整套工具和方法,确保企业在实际上治理这些数据。虽然数据治理是数据管理中的一部分,但后者必须要由前者来提供可靠的信息到核心业务流程。
一网打尽系列文章,请回复以下关键词查看: |
创新发展:习近平 | 创新中国 | 创新创业 | 科技体制改革 | 科技创新政策 | 协同创新 | 成果转化 | 新科技革命 | 基础研究 | 产学研 | 供给侧 |
热点专题:军民融合 | 民参军 | 工业4.0 | 商业航天 | 智库 | 国家重点研发计划 | 基金 | 装备采办 | 博士 | 摩尔定律 | 诺贝尔奖 | 国家实验室 | 国防工业 | 十三五 |
预见未来:预见2016 | 预见2020 | 预见2025 | 预见2030 | 预见2035 | 预见2045 | 预见2050 | |
前沿科技:颠覆性技术 | 生物 | 仿生 | 脑科学 | 精准医学 | 基因 | 基因编辑 | 虚拟现实 | 增强现实 | 纳米 | 人工智能 | 机器人 | 3D打印 | 4D打印 | 太赫兹 | 云计算 | 物联网 | 互联网+ | 大数据 | 石墨烯 | 能源 | 电池 | 量子 | 超材料 | 超级计算机 | 卫星 | 北斗 | 智能制造 | 不依赖GPS导航 | 通信 | MIT技术评论 | 航空发动机 | 可穿戴 | 氮化镓 | 隐身 | 半导体 | 脑机接口 |
先进武器:中国武器 | 无人机 | 轰炸机 | 预警机 | 运输机 | 战斗机 | 六代机 | 网络武器 | 激光武器 | 电磁炮 | 高超声速武器 | 反无人机 | 防空反导 | 潜航器 | |
未来战争:未来战争 | 抵消战略 | 水下战 | 网络空间战 | 分布式杀伤 | 无人机蜂群 |
领先国家:俄罗斯 | 英国 | 日本 | 以色列 | 印度 |
前沿机构:战略能力办公室 | DARPA | Gartner | 硅谷 | 谷歌 | 华为 | 俄先期研究基金会 | 军工百强 |
前沿人物:钱学森 | 马斯克 | 凯文凯利 | 任正非 | 马云 |
专家专栏:黄志澄 | 许得君 | 施一公 | 王喜文 | 贺飞 | 李萍 | 刘锋 | 王煜全 | 易本胜 | 李德毅 | 游光荣 | 刘亚威 | 赵文银 | 廖孟豪 |
全文收录:2016文章全收录 | 2015文章全收录 | 2014文章全收录 |
其他主题系列陆续整理中,敬请期待…… |