对于数据治理更多的首先是一个组织和管理问题,其次才是一个技术实现问题。
数据治理本身就是对数据资产管理行使权力和控制的活动集合(规划,监督和执行)。同时目前很多理论书籍也提出数据资产管理是数据治理的升级版本,只是在传统数据治理基础上增加了数据价值管理和数据共享管理。
而在我国,由中国电子技术标准研究院牵头,又给出DCMM数据管理能力成熟度模型,提炼出组织数据管理的八大能力,并将这八大能力划分为八个关键过程域,即:数据战略、数据治理、数据架构、数据应用、数据安全、数据质量管理、数据标准、数据生命周期。
笔者在本文又将数据治理域单列出来,更多是谈组织,制度和流程的内容。
重新先回归下百度上对于数据治理这个词的一些标准定义。数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。国际数据治理研究所(DGI)给出的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。数据治理的最终目标是提升数据的价值,数据治理非常必要,是企业实现数字战略的基础,它是一个管理体系,包括组织、制度、流程、工具。前期对治理不重视导致后期大量管理行为,首先还是再回顾下数据治理为何越来越受到大家的重视。简单来说就是企业中的数据在支撑业务协同,支撑分析决策上出现了问题。这些问题包括了数据标准不统一,多个系统数据不一致,数据没有Owner和责任部门,数据质量不高导致最终基于数据分析结果也是错误的。哪怕一个采购订单,你会发现有些业务人员叫采购合同,有些叫采购订单;或者在采购系统里面订单名称长度50,而在ERP系统里面长度100。或者说同一个供应商你会发现在系统里面存在两个名字,导致产生了两套数据。所以你可以看到数据类的问题包括了数据本身的组织制度,标准规范体系,流程建设;也包括了IT系统支撑,更加包括了数据质量提升,数据集成和共享。如果数据出问题一方面是影响到业务协同,一方面影响到最终的基于数据的分析决策。在谈企业数字化转型的时候提到了三个关键点,即连接、数据和智能。可以看到数据在里面起到关键的承上启下的作用,智能化的产生必须依托数据,那么数据本身能否高效,高质量的满足要求就是必须要去考虑和解决的问题。所以参考了上面的数据治理,简单总结就是:数据治理是确定如何进行数据资产管理的组织制度,标准规范,流程支撑体系建设。即所有数据资产管理工作必须有章可循,这个依托就是数据治理体系和框架。对于当前大部分企业的数据治理,实际上可以看到两个关键的问题:- 其一就是数据治理属于问题驱动和后治理型,即都是数据在产生和使用,协同和共享的过程中发现了问题,才来考虑数据治理的内容,这种问题驱动方式很难构建完整的数据治理体系。更多的是建设大量的类似数据稽核类系统,个人任务数据稽核系统本身就是一个反治理下的产物。
- 其二是希望通过IT系统建设来规范数据治理,这个虽然有点用,但是不全。比如建设MDM主数据系统,会减少类似元数据管理,数据质量管理,数据创建变更流程等。但是要看到系统本身仅仅是治理规范要求的落地,如果你没有事先形成治理规范要求,那么系统再多也没用。
现在有很多做主数据管理或数据管理平台的IT其一给出数据治理架构,可以看到这些仅仅是系统IT功能的实现点,如果深究漏洞百出。也正是这个原因,需要重新来梳理和思考数据治理体系和框架问题,数据治理本身的核心究竟在哪里?其概念模型和核心要素是什么?(了解更多数据治理内涵和概念的内容,点击阅读:什么是数据治理?北大教授告诉你答案)要理解数据治理,还是要回归到对数据治理的一个狭义定义,即:数据治理组织包括组织架构、岗位设置、团队建设、数据责任等内容,是各项数据职能工作开展的基础。对组织在数据管理和数据应用行使职责规划和控制,并指导各项数据职能的执行,以确保组织能有效落实数据战略目标。简单来说就是先确定对数据进行管理的组织、岗位角色、人员和制度标准。大部分企业实际上对这块是缺失的,或者没有进行清晰的定义。任何一个数据首先要确定的是谁来产生,谁来使用,谁来管理的责权利问题;其次才是确定数据产生的时候基于什么标准和流程,最后才是这些标准流程是否通过IT系统来固化。也就是说,数据治理核心首先是建立数据治理管控体系,确定基于数据的责权利。
该图基本给出了一个完整的数据治理管控体系所涉及到的技术,标准,规范,流程支撑,同时也包括了执行和评估体系,以实现数据的持续改进和闭环管理。一谈到数据治理,必须先谈组织体系,在组织体系里面需要确定对数据进行管理的责权利,即数据的产生者,使用者,拥有者和管理者。比如经常看到的采购订单叫法不一致,现在订单名称长度不够需要进行扩展,这些究竟应该找谁解决?很多企业往往一个电话就让IT人员后台修改,这些都是属于严重不规范操作。其问题的本质还是缺失对数据责任边界的定义。数据的产生者往往不一定是数据的Owner或拥有者,比如供应商通过供应商门户系统录入了其相关的基本信息,这个时候供应商是数据产生者,但是数据拥有者是采购部门。其次对于数据拥有者和管理者往往也不一定统一,比如一个会计科目主数据,数据的拥有者是财务部门,但是最终对该数据的管理是独立的数据管理部门。数据使用者是另外一个关键内容,但个数据在自己业务系统或部门的使用往往自己就能够解决,因此数据使用更多谈的是跨部门,那么跨部门数据使用应该遵循什么标准,流程,安全控制要求。比如公司的采购订单数据,能不能共享给营销部门使用?这些就需要有明确的规则定义。比如在主数据项目实施里面,也经常提到首先要建立数据管控体系,建设数据管控委员会,并确定数据的产生者,使用者和管理者等,如下:
前面基本是从组织,规范和流程角度来谈数据治理体系的建设。数据治理本质是要解决如何对数据进行管理的问题。这个既涉及到数据标准规范,数据质量和数据安全的内容。同时也涉及到对数据进行创建,变更,废弃等内容管理的流程定义。在进行数据管理体系和数据技术体系制订的时候,基本也是围绕上面这些内容展开形成一个完整的数据管控框架体系。
DCMM由中国电子技术标准化研究院牵头,人民大学、清华大学、建设银行、光大银行、华为、御数坊、阿里巴巴等单位起草,是国内关于数据能力成熟度模型的一项国家标准,在制定的过程中充分吸取了国内先进行业的发展经验(以金融业为主),结合了国际上DAMA(国际数据管理协会)《数据管理知识体系指南DMBOK》中的内容。
DCMM是一个整合了标准规范、管理方法论、评估模型等多方面内容的综合框架,目标是提供一个全方位组织数据能力评估的模型。在模型的设计中,结合数据生命周期管理各个阶段的特征,对数据管理能力进行了分析、总结,提炼出组织数据管理的八大能力,并将这八大能力划分为八个共八个关键过程域,即:数据战略、数据治理、数据架构、数据应用、数据安全、数据质量管理、数据标准、数据生命周期,标准描述了每个过程域的建设目标和度量标准。整个DCMM模型将企业数据管理成熟度分为五个等级,分别从上面8大能力详细进行评估。当然在该书里面也给出了一个整体的数据管理成熟度等级说明如下:
这个等级实际上和CMMI标准的成熟度等级说明有差异,在这里关键说明下对于量化管理级,其中关键包括了两点:- 其二是基于KPI指标体系能够以数据驱动思维闭环持续改进。
对于数据治理组织和制度容易理解,对于数据治理沟通书里面描述为:数据治理沟通旨在确保组织内全部利益相关者都能及时了解相关政策、标准、流程、角色、职责、计划的最新情况,开展数据管理和应用相关的培训,掌握数据管理相关的知识和技能。在前面谈为何进行数据治理时候已经谈到,数据治理目标是为了让数据更好地服务于业务,服务于企业分析决策。因此从这个角度来说,数据治理体系本身不仅仅是数据管理体系,还应该包括数据应用体系。
数据价值体系解决的是数据如何以服务化方式应用和共享,创造价值的问题。同时数据价值体系,还需要转变思维,形成数据驱动的运营服务体系,即如何围绕数据持续运营来产生价值,持续改进。因此数据治理体系本身应该包括数据管理体系和数据价值体系两个方面内容。在DCMM模型里面可以看到数据服务和共享开放在数据应用域得到了详细描述。(了解更多DCMM的内容,点击阅读:DCMM是啥?)基于前面的分析可以看到,对于数据治理来讲核心仍然是涉及到组织,数据管理责权利的数据管控体系建设,即首先要回答谁来管的问题,其次才是回答如何管的问题。简单来说就是先搭建了数据组织体系,进行了岗位人员角色定义,那么接着就是对数据进行管理的执行层面。即可以理解为:静态+动态两个视角完成了对数据的基础管理体系建设。但是对于数据治理包括了数据管理体系和数据价值创造体系。因此在完成数据基础管理后,还得看数据如何进一步价值创造。数据在传统的单个系统里面使用,支撑最基础的业务协同和业务流程,这个当然也是价值创造。但是数据更大的价值,在于跨域的数据协同。这就涉及到数据的集成和整合,在数据整合后本身数据能够以数据服务的方式进行能力开放和共享。在数据朝上开放后,可以考虑进一步的数据应用,数据分析和决策,包括基于数据分析进一步指导运营过程改进,业务流程改进,形成数据驱动的闭环机制。而这个就是常说的数据价值创造体系。
在支撑体系层包括了数据治理的驱动源头,即数据治理组织体系和责权利建设,在明确这个后本身也分解为静态和动态两部分支撑。静态支撑包括了技术体系,标准体系,规范体系;而动态支撑包括流程执行体系,绩效评估体系等。在管理层首先要关注静态和动态两个维度。对于静态核心是数据架构,在数据架构中本身有包括了数据模型和元数据两个部分内容。该动态部分核心是数据生命周期管理,其中包括了数据创建,变更,废弃等流程管理。同时围绕静态和动态生命周期还需要做好数据质量管理,数据安全管理两个纵向维度内容。在数据管理层做好后,需要对数据能力进行集成和共享,将数据服务能力开放为更多的应用服务,进一步实现数据价值,即数据应用层。即数据应用层包括了数据集成共享,数据服务开放,数据应用分析三个关键内容。