自己前段时间发表过一篇文章《为什么《DAMA数据管理知识体系》这么晦涩难懂?by 傅一平》,谈到了DAMA难以读懂的问题,除了框架方面的因素,主要还在于里面充斥着大量抽象的概念或术语,解释的也不够通俗和具体,同时受英文翻译、文化背景等的影响,让很多人望而却步。
有人跟我讲这种知识类书籍或者教科书,本来就不是给一般人读的,但我认为一本教科书写得深入浅出始终应是追求的目标,另一方面,数据治理是一门实践的学问,学习DAMA就是要学以致用,而DAMA由100多位专家编撰而成的,里面有大量的智慧结晶。
DAMA提到的数据治理的定义、驱动、目标,原则、政策、标准、程序、组织、角色、专员等概念,虽然相关文章已经做了一些阐述,但我觉得还是不够,要理解透彻,一方面要追根溯源,看看英文版的原意是什么,想想为什么这么写,是翻译的不够准确,还是自己的理解水平不够,亦或真的有瑕疵,另一方面,也要能用数据治理的实践来印证,无论是自己的,还是华为数据之道,诸如此类,只有这样,我们才能真正的理解DAMA,达到知行合一。
本文我详细解释了《DAMA数据管理知识体系第二版之数据治理》出现的那些关键概念,希望把我读懂的东西分享给你,如果你读过DAMA的数据治理章节,那么阅读体验会更好,考虑到篇幅和阅读压力,会分为上下两篇来进行阐述,此文为上篇。
1、数据治理的定义
虽然有时很难理解数据治理到底是什么,但治理其实是一个很常见的概念,按照DAMA的定义,数据治理即对数据资产管理行使权力、控制和共享决策(规划、监测和执行)的系列活动。
数据治理相当于将监督和执行的职责分离了,一个常见的类比是将数据治理等同于审计,数据治理专家制定管理数据资产的规则,这是规划,然后其它领域在数据资产管理中执行这些规则,这是执行,数据治理专家再对执行的情况进行检查,这就是检测,比如审计要求在数据资产提供对外服务的过程中增加系统操作日志的记录就是典型的数据治理。
要注意的是,数据治理的结果只跟数据本身有关,比如提升了数据的准确性和一致性,其跟直接的业务价值创造无关,这是数据资产管理活动的使命。有人为了强调数据治理的重要作用,往往会说成数据治理创造了业务价值,其实更精确的讲,应该是数据治理通过提升数据资产管理活动的效率来创造业务价值,数据治理直接改变的是数据,数据资产管理活动则依托改进的数据创造价值。
如果有人说我通过数据治理赚了一个亿,那么要么是它扩展了数据治理的内涵,要么就是没搞懂数据治理的本质,当然这仅是从狭义的数据治理概念来讲。
下图示意了数据管理和数据治理的区别,由于中文版翻译有误,因此我这里列出了英文版的图示。
我们经常会把元数据管理当成数据治理本身,这里存在一个谬误,其实元数据管理本身就是一种数据资产管理活动,它可以直接创造业务价值,即让人们简单易懂的使用数据,那么什么是元数据管理的治理呢,比如你发现元数据管理对于口径的描述不清晰,那么可以制定元数据描述的标准和规范,然后要求按此这行,这就是针对元数据管理的治理。
我根据DAMA的定义很自然的推出这个结果,但以前我一直一厢情愿的认为元数据管理就是一种数据治理,这导致我在拟定企业级数据治理体系的时候,画不好那张框架图,总在想元数据管理到底应该放在哪里,其实它跟组织、机制和流程等数据治理活动根本不在一个维度上。
2、数据治理的驱动
数据治理的一个核心问题就是驱动力问题,我曾经说过,当前大多数企业搞不动数据治理的原因很简单,就是驱动力不够,特别是管理层还不够痛,所谓的数据壁垒等关键问题在企业数字化转型还没有深入的时候,也不是什么大问题。
华为数据之道提到过其搞数据治理的起源,就是因为财务数据的质量问题已经严重到了影响决策,才让公司CFO牵头来搞一搞,银行业数据治理做的比较好,也跟外部的强监管分不开。
现在很多企业的数据安全治理驱动是很强的,显然跟国家颁布了“三法一条例”(《个人信息保护法》、《数据安全法》、《数据安全法》、《关键信息基础设施安全保护条例》)有很大关系,因为近些年的数据黑产、侵犯个人隐私的事情已经严重侵犯了个人权益,数据治理其实也是时势造英雄。
DAMA对数据治理的业务驱动力做了总结,共两大类八个方面:
(1)降低风险
1) 一般风险管理:监督数据对财务或声誉造成的风险,包括对法律(电子发现)和监管问题的回应。
2) 数据安全:通过控制数据的可获得性、可用性、完整性、一致性、可审计性和安全性来保护数据资产。
3) 隐私:通过政策和合规性监控来控制私人/机密/个人身份信息的泄露。
(2)改进流程
1)法规遵从性:高效且一致地响应法规要求的能力。
2)数据质量改进:通过使数据更可靠来提高业务绩效的能力。
3)元数据管理:建立业务术语表,用于定义和定位组织中的数据;确保组织中数量繁多的元数据被管理和应用。
4)项目开发效率:改进软件开发生命周期(SDLC)以解决整个组织的数据管理问题,比如将数据标准嵌入开发过程提升数据一致性。
5)供应商管理:控制与数据相关的合同,包括云存储、外部数据采购、数据产品销售和外包数据运营,我对这一点很好奇,后来想想也是,就以外包数据运营来讲吧,如果不对供应商的数据能力做很好的评估,将极大影响着企业数据支撑的效率,曾经就有好友跟我讲,由于所在的公司换了一个数据集成商,报表开发质量大幅降低,显然数据治理要在合同签订流程中显示权力。
在整个组织内澄清数据治理的业务驱动因素是基础性工作,并要将它与企业的整体业务战略保持一致,如果大家要做数据治理,可以从以上八点去发现业务的驱动因素,当然也不局限于此,比如我认为至少数据汇聚、数据共享开放这些关键流程也应纳入业务驱动因素,改进流程本质上就是数字化的范畴。
当然以上只是定性的讲业务驱动,在实际的数据治理中,还是要结合企业的实际进行具体的分析,找到真正的切入点,不能喊一句数据质量不行就启动一个数据质量的治理项目,因为以上的所有问题在每个企业或多或少都存在,我们不可能什么都做,下面示例了当初我们关于数据开放问题的一个剖析,大家可以看一下:
“对内数据开放具体职责未在制度层面宣贯落实,包括谁来开放、谁可申请、谁来监督等,以促进各参与方协同配合,共同促进全公司范围内的数据融合融通。比如:XX等地市需要A域XX预警、B域XX专家等数据,但找不到归口管理部门,需求辗转多个部门,最长耗费X个月时间才获得数据。当前A域和B域部门数据资产超过70%,但开放订阅仅有XX笔,订阅占比仅占3.5%,数据开放和共享的不充分不均衡问题还是比较大。”
3、数据治理的目标
DAMA提到数据治理的目标有三点:
(1)提升企业数据资产管理能力。
(2)定义、批准、沟通和实施数据管理的原则、政策、程序、指标、工具和责任。
(3)监控和指导政策合规性、数据使用和管理活动。
我感觉这个关于目标的描述更像是过程和手段,前面的业务驱动倒更像是目标,因此找了华为公司的数据治理的目标供参考,即:“打破数据孤岛、确保源头数据准确、促进数据共享、保障数据隐私与安全等。”
为了确保数据治理目标的达成,DAMA提出了三个导向:
(1)可持续性:就是说数据治理不是项目,而是一个持续性的过程,更是一次管理变革,需要公司领导、发起者和所有者的持续支持,个人觉得,除非有强监管的要求,否则要坚持还是挺难的,最终还是要依赖企业的数据文化,也许只有数字化或者强监管才能保障数据治理的可持续性。
(2)嵌入式:就是说数据治理不是额外增加一套管理流程,而是要嵌入到了数据管理活动中直接发挥作用,比如数据开发标准的要求应该嵌入到数据开发工具中强制执行,这样才能知行合一,从而避免两张皮现象。
(3)可度量:虽然数据治理的业务价值体现往往是间接的,但还是要能尽量量化数据治理的成果,我给大家看一页总结的PPT。
4、数据治理的原则
原则是企业数据治理的规则或行为准则,体现了企业对数据工作重要性的统一认知,DAMA给出了数据治理的六个原则:
(1)领导力和战略
这个很容易理解,数据治理做的是长期的事情,离不开一把手的支持,成功的数据治理始于有远见和坚定的领导力,同时数据治理要与业务战略要保持一致,否则驱动力不足,也很难产生价值。
(2)业务驱动
数据治理是一项业务管理计划,必须管理与数据有关的业务活动(比如规范营业厅员工录入客户信息的行为)与IT活动(比如对数据平台建设提出要求),从这个原则很容易推导出数据治理必须从源头抓起的结论,而抓源头意味着要介入业务流程,这意味着,数据治理要从OLTP抓起,OLAP能解决的问题是有限的。
(3)共担责任
在所有数据管理的知识领域中,业务数据管理专员和数据管理专业人员共担责任,数据治理是业务和IT共同的职责,现在IT部门主导数据治理工作的比较多,其实不是好事,因为很难解决业务部门真正关注的问题,IT部门会委屈的说业务部门不愿意参与啊,那只能说明level太低,你们做的根本不是公司关注的事情,最后大多变成了自己过家家。
(4)多层次
数据治理组织还可以具有多个层次,包括本地、部门和企业范围,以解决企业内不同级别的问题。
(5)基于组织运营框架
由于治理活动需进行跨组织职能的协调,因此对数据治理项目必须建立一个组织运营框架来定义各自职责和工作内容,DAMA在第二版不太愿意去提组织保障,改成了运营框架,但我觉得这没什么好避讳的,有些企业的数据治理组织所以形同虚设,不是组织出了问题,而是对数据治理的理解不够透彻,导致在执行的时候变形。
(6)基于原则
指导原则是数据治理活动的基础,特别是数据治理政策的基础,一般来来讲,为了解决特定的问题,组织会在没有原则的情况下制定政策,有时原则可以从具体政策通过逆向工程反推得到,但是,最好将制定核心原则作为政策工作的一部分工作,从而减轻潜在的阻力。
那么原则是如何落地的呢?下面让我们看下华为数据之道提到的具体的一些原则:
(1)信息架构管理原则
第一条:建立企业级信息架构,统一数据语言。
第二条:所有变革项目须遵从数据管控要求。对于不遵从管控要求的变革项目,数据管控组织拥有一票否决权。
第三条:应用系统设计和开发应遵从企业级信息架构。关键应用系统必须通过应用系统认证。
(2)数据产生管理原则
第一条:数据规划对齐业务战略,业务战略规划必须包含关键数据举措及其路标规划。
第二条:公司数据Owner拥有公司数据管理的最高决策权,依托ESC(变革指导委员会)决策平台议事。各数据Owner承担数据工作路标、信息架构、数据责任机制和数据质量的管理责任。
第三条:关键数据须定义单一数据源,一点录入,多点调用。数据质量问题应在源头解决。
第四条:谁产生数据,谁对数据质量负责。数据Owner负责基于使用要求制定数据质量标准,且须征得关键使用部门的同意。
(3)数据应用管理原则
第一条:数据应在满足信息安全的前提下充分共享,数据产生部门不得拒绝跨领域的、合理的数据共享需求。
第二条:信息披露、数据安全管理、数据保管和个人数据隐私保护等必须遵守法律法规和道德规范的要求。公司保护员工、客户、商业伙伴和其他可识别个体的数据。
(4)数据问责与奖惩管理原则
各数据Owner应建立数据问题回溯和奖惩机制。对不遵从信息架构或存在严重数据质量问题的责任人进行问责。
可以看到,华为的数据管理原则涉及了前面提到的战略、共担责任、组织运营框架等相关原则描述,同时增加了数据共享、数据安全、信息架构的一些原则,我认为这些也是很重要的,可以作为DAMA的补充。
5、数据治理的政策
DAMA并没有对数据治理政策给出具体解释,但政策这个词在DAMA里面出现多次,比如DAMA数据治理目标里就提到了"定义、批准、沟通和实施数据管理的原则、政策、程序、指标、工具和责任",我们很容易想,原则和政策有什么区别?政策和程序有什么区别?
原则是应该做什么,不应该做什么,是应遵循的公认的行为准则,政策着重于行动,说明要做什么以及由谁做,仅作为指导,是为权宜之计或便利而采取的明确行为准则,并且可以自由选择是否遵循这些准则。
比如华为的信息架构管理政策第一条是“公司数据Owner负责批准企业级信息架构,裁决重大信息架构问题和争议”,相比于信息架构管理原则第一条“建立企业级信息架构,统一数据语言”,进一步明确了由谁来具体负责什么事情,这就是差别。
数据治理的标准、程序则是对如何进行数据治理进行描述,即解决怎么做的问题,标准和程序的区别是前者是规范,后者是步骤。
6、数据治理的组织
数据组织跟IT的组织具有本质的不同,因为传统的IT组织是以业务流程和产品为核心的,数据只是其中的副产品而已,而数据组织是以数据管理为核心的,业务处理的目标就是为了得到高质量的数据,有效数据管理成为企业致力于通过分析获得洞察、制定决策时的高优先级事项。
企业为达到以数据为中心需要不同以往的思考方式,要理解管理数据不同于管理IT,转型并非易事,现有文化及内部制度、关于拥有权的争议、预算、历史遗留系统,都将成为建立企业级数据治理和数据管理的最大障碍。
数据治理可以从政治治理的角度来理解。它包括类似立法的功能(定义政策、标准和企业数据架构),类似司法的功能职能(问题管理和升级)和执行职能(保护和服务、行政职责),DAMA给出了一个通用的数据治理组织模型,如下图所示:
为了解释清楚这张图的意思,就得先把图中相关的组织和角色的概念理解清楚,由于DAMA的描述不够清晰,我基于自己的理解和实践做了补充,大家如有意疑问可以自己去比对DAMA原文:
数据治理指导委员会:数据治理最高权威组织,负责监督、支持和资助数据治理活动,我觉得一般可以通过企业的董事会,总经理办公会来替代这个组织。
数据治理委员会:数据治理各项重大事项的决策机构,负责审批和发布数据治理相关的管理制度、流程及相关标准规范,对企业数据治理重大事项进行决策(比如问题和升级),一般由公司管理层和部门老大组成。
数据治理办公室:负责制定、修订和发布数据治理相关管理办法,一般由公司分管数据的管理层、各类数据管理专员(或者称保管员)、各部门数据拥有者组成。
数据管理专员团队:管理专员(Steward,直译为管家)指其职责是为别人管理财产的人,数据管理专员就是以组织的最大利益为原则代表它人来管理企业数据资产的人员。数据管理专员团队一般由业务数据管理专员,技术数据管理专员、协调数据管理专员等组成,它们往往专注于一个或多个业务领域(或项目形式),与项目团队进行数据定义、数据标准等方面的合作和协商。
(1)首席数据管理专员:CDO的替代角色(或者是公司分管数据的管理层),担任数据治理机构的主席。
(2)高级数据管理专员:数据治理委员会的资深管理者,对数据治理负有规划、政策层面的责任。
(3)企业数据管理专员:负责监督跨越业务领域的数据职能。
(4)业务数据管理专员:是业务领域专业人士,通常是公认的领域专家,对一个数据域负责,他们和利益相关方共同定义和控制数据。
(5)技术数据管理专员:是某个数据技术领域内的IT专业人员,如数据集成专家、数据库管理员、商务智能专家、数据质量分析师或元数据管理员。
(6)数据所有者:他们是某个业务数据管理专员,对其领域内的数据有决策权。
(7)协调数据管理专员:领导并代表业务和技术数据管理专员参与跨团队的讨论,包括与高级数据管理专员的协商。协调数据管理员在大型组织中尤为重要。
DAMA定义了这么多组织和角色,那么这些组织和角色是如何协作的呢,我这里设想了一个企业数据开放治理的场景,方便大家理解:
1)公司一把手、首席数据管理专员(CDO)、高级数据管理专员(一般为各领域负责人)通过数据治理委员会决策通过数据开放管理办法的制定计划。
2)数据治理办公室负责具体的办法制定工作,首席数据管理专员(CDO)安排企业数据管理专员(一般在企业数据管理部任职)牵头,各领域的业务和技术数据管理专员配合进行草拟,当出现争议问题的时候,要求各领域的协调数据管理专员(一般为部门领导)进行协调,最终由企业数据管理专员提交数据治理办公室审核确定。
3)数据治理办公室将审核确定的办法提交数据治理委员会决策,审批通过后进行发布执行。
4)公司各领域对该办法进行学习并按要求执行,数据治理办公室安排企业数据管理专员组织人员提供相关的支持,包括但不限于整理数据目录、帮助制定业务规则、数据标准及数据质量规则、参与识别、解决数据质量问题,确保数据开放管理办法在日常工作或每一个项目中被遵循执行,并对各领域执行情况进行评估通报,以支持按照组织总体目标的方式管理数据。
有人会说没有数据治理,企业的数据开放也在正常进行啊,的确是的,但关键是现在的数据开放范围太小,速度太慢,安全还不可控,因此需要建章立制进行规范,就好比交通执法,古代没有红绿灯大家不照样过马路嘛,但关键是现在车多了,人多了,不搞个大家都遵循的过马路的规矩就要出事。
华为的数据owner制度也很容易跟DAMA的数据治理组织做映射,甚至可以说是其子集,企业数据owner就是首席数据管理专员,领域数据owner就是协调数据管理专员+数据所有者,业务数据管理专员+技术数据管理专员就是通常意义上的数据专员,企业数据管理专员一般存在于企业数据管理部。
以上就是《DAMA数据管理知识体系指南(原书第2版)》中第3章数据治理内容详细解读的上篇,如果你没看过DAMA,可能会觉得不知所谓,但只要读了,相信会明白我写这篇文章的原因。
下篇是关于数据治理具体活动中涉及的相关概念的解读,我会结合一些具体的案例来说明,最后,感谢刘晨先生关于DAMA内容的解惑!