所谓数据治理
在阅读本文之前,你需要了解:
那些年,我们一起踩过的坑
大数据时代,数据成为社会和组织的宝贵资产,像工业时代的石油和电力一样驱动万物,然而如果石油的杂质太多,电流的电压不稳,数据的价值岂不是大打折扣,甚至根本不可用,不敢用,因此,数据治理是大数据时代我们用好海量数据的必然选择。但大家都知道,数据治理是一项长期而繁杂的工作,可以说是大数据领域中的脏活累活,很多时候数据治理厂商做了很多工作,但客户却认为没有看到什么成果。大部分数据治理咨询项目都能交上一份让客户足够满意的答卷,但是当把咨询成果落地到实处的时候,因为种种原因,很可能是另一番截然不同的风景。如何避免这种情况发生,是每一个做数据治理的企业都值得深思的问题。数据治理之元数据管理
从关于元数据的三个概念谈起,讲到元数据的分布范围和如何获取元数据,最后从几个常见的应用出发,谈谈元数据的一些实际应用场景。一、元数据到底是个啥?
元数据是一个相当抽象、不易理解的概念,所以第一个章节,我们先把元数据是什么搞懂。这一章节共提出三个概念。1、元数据(Meta Data)是描述数据的数据。这是元数据的标准定义,但这么说有些抽象,技术同学能听懂,倘若听众缺乏相应的技术背景,可能当场就懵逼了。产生这个问题的根源其实是一个知识的诅咒:我们知道某件事情,向不了解的人描述时却很难讲清楚。二、元数据是从哪里来的?
在大数据平台中,元数据贯穿大数据平台数据流动的全过程,主要包括数据源元数据、数据加工处理过程元数据、数据主题库专题库元数据、服务层元数据、应用层元数据等。下图以一个数据中心为例,展示了元数据的分布范围:三、有了元数据,我们能做些什么?
这一章节我们主要讲元数据的几个典型的应用。先看一张元数据管理的整体功能架构图,有了元数据,我们能做些什么,从这张图里一目了然:数据治理之数据质量管理
数据治理的理论和实践不断向前发展,但数据质量管理始终是数据治理的初衷,也是最重要的目的。我会从数据质量管理的目标,质量问题产生的根源,质量评估标准,质量管理流程,质量管理的取与舍几个方面进行阐述。一、数据质量管理的目标
数据质量管理主要解决“数据质量现状如何,谁来改进,如何提高,怎样考核”的问题。为什么这篇文章的标题中有“不忘初心方得始终”这几个字呢。因为最开始的关系型数据库时代,做数据治理最主要的目的,就是为了提升数据质量,让报表、分析、应用更加准确。时至今日,虽然数据治理的范畴扩大了很多,我们开始讲数据资产管理、知识图谱、自动化的数据治理等等概念,但是提升数据的质量,依然是数据治理最重要的目标之一。为什么数据质量问题如此重要?因为数据要能发挥其价值,关键在于其数据的质量的高低,高质量的数据是一切数据应用的基础。如果一个组织根据劣质的数据分析业务、进行决策,那还不如没有数据,因为通过错误的数据分析出的结果往往会带来“精确的误导”,对于任何组织来说,这种“精确误导”都无异于一场灾难。根据统计,数据科学家和数据分析员每天有30%的时间浪费在了辨别数据是否是“坏数据”上,在数据质量不高的环境下,做数据分析可谓是战战兢兢。可见数据质量问题已经严重影响了组织业务的正常运营。通过科学的数据质量管理,持续地提升数据质量,已经成为组织内刻不容缓的优先任务。二、数据质量问题产生的根源
做数据质量管理,首先要搞清楚数据质量问题产生的原因。原因有多方面,比如在技术、管理、流程方面都会碰到。但从根本上来时,数据质量问题产生的大部分原因在于业务上,也就是管理不善。许多表面上的技术问题,深究下去,其实还是业务问题。我在给客户做数据治理咨询的时候,发现很多客户认识不到数据质量问题产生的根本原因,局限于只想从技术角度来解决问题,希望通过购买某个工具就能解决质量问题,这当然达不到理想的效果。经过和客户交流以及双方共同分析之后,大部分组织都能认识到数据质量问题产生的真正根源,从而开始从业务着手解决数据质量问题了。从业务角度着手解决数据质量问题,重要的是建立一套科学、可行的数据质量评估标准和管理流程。三、数据质量评估的标准
当我们谈到数据质量管理的时候,我们必须要有一个数据质量评估的标准,有了这个标准,我们才能知道如何评估数据的质量,才能把数据质量量化,并知道改进的方向,比较改进后的效果。目前业内认可的数据质量的标准有:准确性: 描述数据是否与其对应的客观实体的特征相一致。
完整性: 描述数据是否存在缺失记录或缺失字段。
一致性: 描述同一实体的同一属性的值在不同的系统是否一致。
有效性: 描述数据是否满足用户定义的条件或在一定的域值范围内。
唯一性: 描述数据是否存在重复记录。
及时性: 描述数据的产生和供应是否及时。
稳定性: 描述数据的波动是否是稳定的,是否在其有效范围内。
以上数据质量标准只是一些通用的规则,这些标准是可以根据数据的实际情况和业务要求进行扩展的,如交叉表校验等。
四、数据质量管理的流程
要提升数据质量,需要以问题数据为切入点,注重问题的分析、解决、跟踪、持续优化、知识积累,形成数据质量持续提升的闭环。首先需要梳理和分析数据质量问题,摸清楚数据质量的现状;然后针对不同的质量问题选择适合的解决办法,制定出详细的解决方案;接着是问题的认责,追踪方案执行的效果,监督检查,持续优化;最后形成数据质量问题解决的知识库,以供后来者参考。上述步骤不断迭代,形成数据质量管理的闭环。很显然,要管理好数据质量,仅有工具支撑是远远不够的,必须要组织架构、制度流程参与进来,做到数据的认责,数据的追责。五、数据质量管理的取与舍
企业也好,政府也好,从来不是生活在真空之中,而是被社会紧紧地包裹。解决任何棘手的问题,都必须考虑到社会因素的影响,做适当的取舍。第一个取舍:数据质量管理流程。前面讲到的数据质量管理流程,是一个相对理想的状态,但是不同的组织内部,其实施的力度都是不同的,以数据追责为例:在企业内部推行还具有一定的可行性,但是在政府就很难适用。因为政府部门的大数据项目,牵头单位无论是谁,很可能没有相关的权限。举个例子:你很难想像市经信委去跟市政府办公厅进行数据质量的问责。这与数据治理的建设方在整个大的组织体系中的话语权有很大的关系。这就是我们做数据治理必须接受的现实。遇到这种问题,我们只能迂回地做些事情,尽量弥补某个环节缺失带来的不利影响,比如和数据提供方一起建立起数据清洗的规则,对来源数据做清洗,尽量达到可用的标准。第二个取舍:不同时间维度上的数据采取不同的处理方式。从时间维度上划分,数据主要有三类:未来数据、当前数据、历史数据。在解决不同种类的数据质量问题时,需要考虑取舍之道,采取不同的处理方式。历史数据
总结
提升数据质量,是数据治理最重要的目标之一。做数据质量管理,首先要弄清楚数据质量问题产生的根源大部分在于业务管理出了问题。其次,我们要根据组织架构,建立一套数据质量评估的标准和数据质量管理的流程。最后,在做数据质量管理过程中,我们要充分考虑到现状,对历史数据、当前数据、未来数据分别制定不同的处理策略。数据治理之数据标准管理
一、大数据标准体系
根据全国信息技术标准化技术委员会大数据标准工作组制定的大数据标准体系,大数据的标准体系框架共由七个类别的标准组成,分别为:基础标准、数据标准、技术标准、平台和工具标准、管理标准、安全和隐私标准、行业应用标准。本文主要阐述其中的第二个类别:数据标准。二、关于数据标准认识的几个误区
数据标准这个词,最早是在金融行业,特别是银行业的数据治理中开始使用的。数据标准工作一直是数据治理中的基础性重要内容。但是对于数据标准,不同的人却有不同的看法:有人认为数据标准极其重要,只要制定好了数据标准,所有数据相关的工作依标进行,数据治理大部分目标就水到渠成了。也有人认为数据标准几乎没什么用,做了大量的梳理,建设了一整套全面的标准,最后还不是被束之高阁,被人遗忘,几乎没有发挥任何作用。首先亮明作者的观点:这两种看法都是不对的,至少是片面的。实际上,数据标准工作是一项复杂的,涉及面广的,系统性的,长期性的工作。它既不能快速地发挥作用,迅速解决掉数据治理中的大部分问题,同时也肯定不是完全没有作用,最后只剩下一堆文档——如果数据标准工作的结局真是如此,那只能说明这项工作没有做好,没有落到实处。本文主要的目的,就是分析为什么会出现这种情况,以及如何应对。而首先需要做的是厘清数据标准的定义。三、数据标准的定义
何为数据标准,各相关组织并没有统一的,各方都认可的定义。结合各家对数据标准的阐述,从数据治理的角度出发,我尝试着给数据标准做一个定义:数据标准是对数据的表达、格式及定义的一致约定,包含数据业务属性、技术属性和管理属性的统一定义;数据标准的目的,是为了使组织内外部使用和交换的数据是一致的,准确的。四、如何制定数据标准
一般来说,对于政府,会有国家或地方政府发文的数据标准管理办法,其中会详细规定相关的数据标准。所以在此主要讲企业如何制定数据标准。企业的数据标准来源非常丰富,有外部的监管要求,行业的通用标准,同时也必须考虑到企业内部数据的实际情况,梳理其中的业务指标、数据项、代码等,将以上的所有的来源都纳入数据标准是没有必要的,数据标准的范围应该主要集中在企业业务最核心的数据部分,有的企业也称作关键业务数据或核心数据,只要制定出这些核心数据的标准,就能够支撑企业数据质量、主数据管理、数据分析等需要。五、数据标准化的难题
数据标准好制定,但是数据标准落地相对就困难多了。国内的数据标准化工作发展了那么多年,各个行业,各个组织都在建设自己的数据标准,但是你很少听到哪个组织大张旗鼓地宣传自己的数据标准工作多么出色,换句话说,做数据标准取得显著效果的案例并不多。为什么会出现这种情况,主要有两个原因:一是制定的数据标准本身有问题。有些标准一味地追求先进,向行业领先看齐,标准大而全,脱离实际的数据情况,导致很难落地。第二个原因,是标准化推进过程中出了问题。这是我们重点阐述的原因,主要有以下几种情况:对建设数据标准的目的不明确。某些组织建设数据标准,其目的不是为了指导信息系统建设,提高数据质量,更容易地处理和交换数据,而是应付监管机构检查,因此需要的就是一堆标准文件和制度文件,根本就没有执行的计划。
过分依赖咨询公司。一些组织没有建设数据标准的能力,因此请咨询公司来帮忙规划和执行。一旦咨询公司撤离,组织依然缺乏将这些标准落地的能力和条件。
对数据标准化的难度估计不足。很多公司上来就说要做数据标准,却不知道数据标准的范围很大,很难以一个项目的方式都做完,而是一个持续化推进的长期过程,结果是客户越做遇到的阻力越大,困难越多,最后自己都没有信心了,转而把前期梳理的一堆成果束之高阁,这是最普遍的问题。
缺乏落地的制度和流程规划。数据标准的落地,需要多个系统、部门的配合才能完成。如果只梳理出数据标准,但是没有规划如何落地的具体方案,缺乏技术、业务部门、系统开发商的支持,尤其是缺乏领导层的支持,是无论如何也不可能落地的。
组织管理水平的不足:数据标准落地的长期性、复杂性、系统性的特点,决定了推动落地的组织机构的管理能力必须保持在很高的水平线上,且架构必须持续稳定,才能有序地不断推进。以上这些原因,导致数据标准化工作很难开展,更难取得较好的成效。数据标准化难落地,是数据治理行业的现状,不容回避。
六、如何应对这些难题
应对以上这些难题,最经济、最理想的模式当然是:做大数据建设,首先做标准,再做大数据平台,数据仓库等。但一般的不大可能有这样的认识,很多时候大家都是先建设再治理。先把信息系统、数据中心建好,然后标准有问题,质量不高,再建数据标准,但实际上这时候已经是回过头来做一些亡羊补牢的事情,客户的投资肯定有一部分是浪费。正因为其太过理想化,所以这种模式几乎是见不到的。在实践中,我们往往还是需要更多地考虑如何把数据标准落地到已有的系统和大数据平台中。数据标准落地有三种形式:源系统改造:对源系统的改造是数据标准落地最直接的方式,有助于控制未来数据的质量,但工作量与难度都较高,现实中往往不会选择这种方式,例如有客户编号这个字段,涉及多个系统,范围广、重要程度高、影响大,一旦修改该字段,会涉及到相关的系统都需要修改。但是也不是完全不可行,可以借系统改造,重新上线的机会,对相关源系统的数据进行部分的对标落地。
数据中心落地:根据数据标准要求建设数据中心(或数据仓库),源系统数据与数据中心做好映射,保证传输到数据中心的数据为标准化后的数据。这种方式的可行性较高,是绝大多数组织的选择。
数据接口标准化:对已有的系统间的数据传输接口进行改造,让数据在系统间进行传输的时候,全部遵循数据标准。这也是一种可行的方法。
事先确定好落地的范围:哪些数据标准需要落地,涉及到哪些IT系统,都是需要事先考虑好的。
事先做好差异分析:现有的数据和数据标准之间,究竟存在哪些差异,这些差异有多大,做好差异性分析。
事先做好影响性分析:如果这些数据标准落地了,会对哪些相关下游戏厅产生什么样的影响,这些影响是否可控。元数据管理中的影响性分析可以帮助用户确定影响的范围。
制定落地的执行方案:执行方案要侧重于可落地性。不能落地的方案,最终只能被废弃。一个可落地的方案,要有组织架构和人员分工,每个人负责什么,如何考核,怎么监管,都是必须纳入执行方案中的内容。
具体地执行落地方案:根据执行方案,进行数据标准落地执行。
事后评估:事后需要跟踪、评估数据落地的效果如何,做对了哪些事,哪些做得不足,如何改进。
七、总结
数据标准的建设大致可以分成两个阶段:1、梳理和制定数据标准。2、数据标准的落地和实施。其中后者是公认的难题。本文分析了其中的原因,提供了一些如何让数据标准更快更好落地的方法。数据治理之数据资产管理
数据资产与数据资产管理的定义
随着大数据时代的到来,人们已经认识到数据是一种无形的宝贵资产,谷歌、Facebook、阿里巴巴、腾讯等企业市值高达数千亿美元,不仅在于其独特的商业模式和市场垄断地位,更多的估值是给予了其拥有的海量用户数据里所蕴含的巨大价值。对于数据的拥有者和管理者来说,通过对数据的合理管理和有效应用,能盘活并充分释放数据的巨大价值。但如果数据的拥有者和管理者缺乏对数据的有效管理,数据就用不起来,或者即便用起来也用不好,在这种情况下,堆积如山的无序数据给企业带来的是高额的成本,数据成为一项棘手的“负债”。从这个角度来说,数据资产的管理能力,已经成为衡量一家企业能否成功的重要因素。在讲数据资产管理之前,首先需要厘清数据资产和数据资产管理的概念,区分数据和数据资产的区别。中国信通院联合多家企业于2019年6月发布了《数据资产管理实践白皮书4.0》,其中将数据资产定义为:由企业拥有或控制的、能够为企业带来未来经济利益的、以物理或者电子方式记录的数据资源,如文件资料、电子数据等。从这个定义可以看出,数据资产的三个特征为:1)“企业拥有或控制”。这个特征指明了数据是有其主体的,同时也说明了数据资源可能来源于企业内部的信息系统或者日常经营活动的沉淀,同时也有可能是企业通过外部的交换、购买等手段获取到的。2)“能带来未来经济利益”。这个特征清楚地表明了在企业中,并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。3)“数据资源”。这个特征表明了数据资产的存在形态,是以物理或者电子方式记录下来的数据。《数据资产管理实践白皮书4.0》中对数据资产管理的定义为:规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。从这个定义可以看出,数据资产管理的目的是通过一系列手段,以控制、保护、交付和提高数据资产的价值。数据资产管理的现状和挑战
在过去,国内大部分领先企业都陆续建设了ERP系统、人力资源系统、供应链管理系统、物流系统、电子商务系统、集成门户、协同办公、决策支持系统等各类信息化系统,这些系统在支撑企业经营活动的同时,也带来了数据量的高速膨胀。随着数据积累逐渐增多,大部分企业在数据管理方面遇到了诸多挑战:缺乏统一的数据视图:数据资源分布在企业的多个业务系统中,分布在线上线下,甚至企业的内外部,由于缺乏统一的数据视图,数据的管理人员和使用人员无法准确快速地找到自己需要的数据。数据管理人员也无法从宏观层面掌握自己拥有哪些数据资产,拥有多少数据资产,这些数据资产分布在哪里,变化情况怎么样。
数据基础薄弱:大部分企业的数据基础还很薄弱,存在数据标准混乱、数据质量参差不齐、各业务系统之间数据孤岛化严重、没有进行数据资产的萃取等现象,阻碍了数据的有效应用。
数据应用不足:受限于数据基础薄弱和应用能力不足,多数企业的数据应用刚刚起步,主要在精准营销、舆情感知和风险控制等有限场景中进行了一些探索,数据应用的深度不够,应用空间亟待开拓。
数据价值难估:企业难以对数据给业务的贡献进行评估,从而难以像运营有形资产一样运营数据。产生这个问题的原因有两个:一是没有建立起合理的数据价值评估模型;二是数据价值跟企业的商业模式密不可分,在不同应用场景下,同一项数据资产的价值可能截然不同。
缺乏安全的数据环境:随着数据的价值越来越得到全社会的广泛认可,针对数据的犯罪活动日渐猖獗,数据泄露、个人隐私受到伤害等现象层出不穷。很多数据犯罪是因为安全管理制度不完善、缺乏相应的数据安全管控措施导致的。
数据管理浮于表面:没有建立一套符合数据驱动的组织管理制度和流程,没有建设先进的数据管理平台工具,导致数据管理工作很难落地。
这些问题已经严重影响到数据价值的发挥,导致企业的数据越积越多,却逐渐成为企业的负担,大数据管理部门也成为企业的成本中心,而不是创新中心和利润部门。
数据资产管理的四个目标
数据资产管理是数据中台面向企业提供数据能力的一个窗口,数据资产中心将企业的数据资产统一管理起来,实现数据资产的可见、可懂、可用、可运营。可见:通过对数据资产的全面盘点,形成数据资产地图。从数据生产者、管理者、使用者等不同的角度,用数据资产目录的方式共享数据资产,用户可以快速、精确地查找到自己关心的数据资产。
可懂:通过元数据管理,完善对数据资产的描述。同时在数据资产的建设过程中,注重数据资产业务含义的提炼,将数据加工和组织成人人可懂的、无歧义的数据资产。具体来说,在数据中台之上,需要将数据资产进行标签化,标签是面向业务视角的数据组织方式。
可用:通过统一数据标准、提升数据质量和数据安全性等措施,增强数据的可信度,让数据科学家和数据分析人员没有后顾之忧,放心地使用数据资产,降低因为数据不可用、不可信而导致的沟通成本和管理成本。
可运营:数据资产运营的最终目的是让数据价值越滚越大,因此数据资产运营要始终围绕资产价值来开展。通过建立一套符合数据驱动的组织管理制度流程和价值评估体系,促进数据资产建设过程的不断改进,提升数据资产管理的水平,提升数据资产的价值。
数据资产管理与数据治理的关系
DAMA和DCMM对数据治理的定义都是:数据治理(Data Governance,DG)是指对数据资产管理行使权力和控制的活动集合(规划、监督和执行)。传统的数据治理内容通常包含:数据标准管理、元数据管理、数据质量管理、数据安全管理、数据生命周期管理等内容。本文沿用的中国信通院对数据资产管理的定义是:规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。从上面两段描述看出,数据治理和数据资产管理的定义有异曲同工之处,它们围绕的对象都是数据资产。而中国信通院在《数据资产管理实践白皮书4.0》中阐述的数据资产管理八大职能中,诸如数据标准管理、元数据管理、数据质量管理、数据安全管理等,同时也属于传统数据治理的必要工作内容。数据资产管理在传统数据治理的基础上,加入了数据价值管理、数据共享管理等内容。近些年的发展来看,数据治理的目标正从“以质量管理为主”,过渡到“质量管理与服务并重”。基于上面的论述,作者认为,数据资产管理就是传统的数据治理的升级版,可以认为是数据治理2.0。数据资产管理与数据治理之间的关系可以用下图来表示。数据资产门户
数据资产地图 数据资产地图为用户提供多层次、多视角的数据资产图形化呈现形式。数据资产地图让用户用最直观的方式,掌握数据资产的概况,如数据总量、每日数据增量、数据资产质量的整体状况、数据资产的分类情况、数据资产的分布情况、数据资产的冷热度排名、各个业务域及系统之间的数据流动关系等。
数据资产目录
数据资产检索