最新发布的《数据资产管理实践白皮书4.0》,是学习数据管理的最好框架指引!
这是傅一平的第285篇原创
作者:傅一平
个人微信:fuyipingmnb
2019 年 6 月 4-5 日,由中国信息通信研究院、中国通信标准化协会主办,大数据技术标准推进委员会承办的 2019 大数据产业峰会在北京国际会议中心召开。在 6 月 4 日下午的大会上,《数据资产管理实践白皮书(4.0 版)》发布。
笔者仔细研读了一下,虽然自己从事数据管理工作很多年,但还是能从中获得很多启示,要感谢中国信息通信研究院大数据技术标准推进委员会的杰出工作。
那么,从这本《白皮书》我们到底能学到什么?这里就从背景、框架和概念三个方面谈谈我的理解。
注:以下黑色斜体内容直接引用《数据资产管理实践白皮书4.0》的原话,具体以《数据资产管理实践白皮书4.0》原版说法为准。
一、背景说明
相对于《DAMA》的数据管理,《白皮书》强调的是数据资产管理,后者增加了资产,更强调数据的资产属性,要求基于数据资产的价值、成本、收益开展全生命周期的管理,同时增加了数据标准管理、数据价值管理等职能,可以视作数据管理的升级版。
笔者觉得《白皮书》对于数据资产管理的重要性诠释的特别好,提到了五个痛点,是业界实践经验的总结:
1、缺乏统一数据视图
企业的数据资源散落在多个业务系统中,企业主和业务人员无法及时感知到数据的分布与更新情况,无法快速找到符合自己需求的数据,也无法发现和识别有价值的数据并纳入数据资产。
数据资源散落各地是老问题,但让业务人员感知并找到更是新的问题,比如在完成大数据平台的数据归集后,建立统一的高体验的可视化平台,建议一套数据的公开发布、宣贯、培训流程都是对于运营的巨大挑战。
浙江移动花了多年时间去搞DataMaster敏捷数据发布平台,花了巨大代价去打通流程让数据直达一线,都是为了这个目的。
2、数据孤岛普遍存在
据统计, 98% 的企业都存在数据孤岛问题 。而造成数据孤岛的原因既包括技术上的,也包括标准和管理制度上的,这阻碍了业务系统之间顺畅的数据共享,降低了资源利用率和数据的可得性。
3、数据质量低下
糟糕的数据质量常常意味着糟糕的业务决策,将直接导致数据统计分析不准确、监管业务难、高层领导难以决策等问题。根据数据质量专家 Larry English 的统计,不良的数据质量使企业额外花费 15% 到 25% 的成本 。
4、缺乏安全的数据环境
根据数据泄露水平指数 (Breach Level) 监测,自2013 年以来全球数据泄露高达 130 亿条 ,其中很多都是由于管理制度不完善造成。随着各个机构数据的快速累积,一旦发生数据安全事件,其对企业经营和用户利益的危害性将越来越大,束缚数据价值的释放。
不用多说,现在数据流通和变现最大的挑战就是安全,比如要基于双方的数据整合得到一个更好的预测结果,仍未有业界普遍认可的安全解决方法。
5、缺乏数据价值管理体系
大部分企业还没有建立起一个有效管理和应用数据的模式,包括数据价值评估、数据成本管理等,对数据服务和数据应用也缺乏合规性的指导,没有找到一条释放数据价值的最优路径 。
老板会问元数据的投入能带来多少显性的价值呢?《白皮书》与时俱进的提到这一点非常好,数据资产的价值运营才是王道,笔者2年前写的一篇数据管理的文章《思考|谈谈数据管理的原则》也思考了这个问题。
数据资产管理尝试通过解决释放数据价值过程中面临的诸多问题,以体系化的方式实现数据的可得、可用、好用,用较小的数据成本获得较大的数据收益,这就是《白皮书》的指导意义所在。
二、体系框架
要掌握一门学问,虽然自底向上实践出真知很重要,但自顶向下的看到全貌让你有拥有全局视野。通过《白皮书》,不仅能看到数据管理的全貌,而且还能理解清楚这些内容之间的逻辑关系,让你认识到数据资产管理是一门体系化的学问。
这里具体列出《白皮书》的一些框架,包括总体目录架构、数据资产管理体系架构、数据资产管理的实施步骤等等。
1、目录框架
编撰者最大的挑战就是拟定目录,因为需要对数据管理体系的知识进行归纳,总结和提炼,然后用及其精简的术语来表达。
读者不要总是对着目录一扫而过,而是要带着问题去看和反思:为什么是这些内容,为什么管理职能是这八个而不是那七个,为什么数据共享管理成为了其中的一个,如果让你去拟定,你会怎么做。
有经验的数据管理者是有底气的,但自己的水平怎么样,不是说读懂了就可以了,而是要问自己,让你写,能不能写出来,而且实践能获得的真知范围还是有限的,要怀着谦卑的心态去学习。
数据资产管理实践白皮书目录,引自《白皮书》
长长的编委会名单,让你知道这是各行业专家智慧的结晶,很多地方也许有争议,但这应是当前最大的行业共识,当然也有我的东家中国移动。
数据资产管理体系架构,引自《白皮书》
顺便提下中国移动的经营分析规范系列,可以说是当初最好的由一个企业编撰的数据管理类规范,这里的《白皮书》点到即止,而中国移动的经营分析规范为了能更好的指导项目落地,还有《元数据管理规范》、《数据质量管理规范》、《逻辑模型管理规范》等众多分册,其对于相关概念和案例有更详尽的说明。
2、数据资产管理体系架构
《白皮书》提到的数据资产管理框架如下所示,包含 8个管理职能和 5个保障措施。管理职能是指落实数据资产管理的一系列具体行为,保障措施是为了支持管理职能实现的一些辅助的组织架构和制度体系。
数据资产管理体系架构,引自《白皮书》
数据资产管理框架中的数据模型、元数据、主数据、数据质量、数据安全和数据共享六项管理职能是比较常规的,数据标准管理和数据价值管理则特别要提一下:
(1)数据标准管理
数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束,通常可分为基础类数据标准和指标类数据标准。
基础类数据标准一般包括参考数据和主数据标准、逻辑数据模型标准、物理数据模型标准、元数据标准、公共代码和编码标准等。
指标类数据标准一般分为基础指标标准和计算指标(又称组合指标),基础指标一般不含维度信息,且具有特定业务和经济含义。
数据标准一般包含3 个要素:标准分类、标准信息项(标准内容)和相关公共代码和编码(如国标、行标等)。其中标准分类指按照不同的特点或性质区分数据概念;信息项是对标准对象的特点、性质等的描述集合;公共代码指某一标准所涉及对象属性的编码。
笔者的理解是这里的数据标准是标准的标准,正如元模型相对于元数据一样,而诸如统一数据模型仅是一个实例,这个概念应该也是首次提出吧。
数据标准管理的目标是通过统一的数据标准制定和发布,推动数据的共享开放,这个意义是很大的。
(2)数据价值管理
《白皮书》提到数据价值管理是对数据内在价值的度量,可以从数据成本和数据应用价值两方面来开展,下面是它建议的评估维度:
数据成本和价值评估的维度,引自《白皮书》
当然它也提到当前对于数据资产评估的研究还处于早期阶段,评估方法手段还不成熟。可能的方法包括市场法、成本法和收益法三种,三种方法的优缺点如表所示。
数据资产价值评估典型方法比较,引自《白皮书》
应该来讲,这里的评估是有其局限性的,仅针对纯粹的数据交易场景,事实上,我们现实中主要的数据价值呈现形式是以数据产品、数据服务的形式体现的,对外市场定价是笔者较为看好的一个评估方向,对内由于交易成本等问题,活性评估也许是合适的,在笔者的文章《数据的价值到底如何评估?》有所阐述。
数据资产管理框架中的五项保障措施,针对最复杂的制度体系,《白皮书》给出了数据资产管理规范参考,如下所示,大家可以学习借鉴。
一种典型的制度体系架构,引自《白皮书》
当然每个企业要结合自己的实际情况制定,特别强调纯粹的自顶向下制定规范往往适得其反,要记住制定的数据管理规范务必在看得到的时间范围内能促进数据生产力的提升。
3、数据资产管理的实施要点
数据资产管理可参考按照统筹规划、管理实施、稽核检查、资产运营四个阶段的方法策略执行,每个阶段对应的管理职能如图所示。以业务应用目标为指引,企业可以按照自身数据及管理情况制定不同的实施步骤顺序。
数据资产管理实施步骤,引自《白皮书》
三、基本概念
看完《白皮书》后,如果觉得云里雾里,有两种可能,一个是缺乏实践,很多东西没有形象的东西去映射,理解不了,二是对于数据管理的一些基本概念模糊。
在《你真的理解什么是“财富自由”吗?》的文章里,李笑来老师先说了概念的重要性,绝大多人在追求某个东西的时候,可能连那个东西的定义都不清楚。
如果脑子里的一个概念不准确,或者没有准确、正确的定义,那么必然没办法准确、正确的继续思考下去,进而产生的连锁反应是,因为定义的不准确,所以思考范围模糊,选择依据缺失,进而行动错误.......进而影响整体。
记住,这种《白皮书》的读法不是那种一目十行的读法,而是要一个字一个字去细抠,每出现一个术语,就要努力推敲,不仅是理解表意,还要能举出案例,对于数据管理来讲,概念的理解是至关重要的。
首先,要理解清楚基本的概念内涵。
有次看刘晨老师的一篇文章,记得是谈数据治理和数据管理的区别,才知道以前的理解是错误的,数据治理侧重正确的做事,数据管理决定怎么做。
除了数据管理和数据治理,《白皮书》里有很多的概念,包括但不限于元数据管理、主数据管理、数据质量管理、数据资源、数据资产、参考数据、数据字典、数据目录、血缘分析、影响分析、数据地图、数据湖、逻辑模型、概念模型、物理模型、领域模型、元模型、数据地图、ER图、半结构化数据、数据集成、语义分析、ETL/ELT、数据分析师、数据建模师、数据工程师、算法工程师、数据科学家、数据价值评估、数据成本管理、数据架构、数据仓库,BI、维度建模、关系建模、数据开放、企业数据模型建设模式、主数据建设模式、统一数据平台模式、数据集市模式等等。
比如数据湖,上次我参加一个展会,展会上的讲师也没说清楚这是个啥玩意,而他们就贸然的画在了宣传手册上,很多概念也许天天碰到,但你不一定真的理解它,考你一下,半结构化数据的本质是啥?
其次,理解清楚概念的外延和关系。比如元数据的内容就可以用一本书来描述,以前中国移动的经营分析规范就有一本专门的元数据规范,细到各种技术元数据的具体案例,同时元数据跟各类数据管理系统有着千丝万缕的关系,比如浙江移动的数据开发就完全依赖于元数据的管理,而不是仅仅停留在业务口径的解释上。
最后,任何一个概念的理解都要在实践中去灵活应用和领会,实践反过来会让你对这个概念的理解更透彻,可以让你形成有关于这个概念的形象思维,而这种思维有利于别人更容易理解你讲的这个东西。
数据管理的核心是管理,管理就要沟通,而要把这个非常专业的东西跟领导说清楚,没有实践你架不住人家的刨根问底,比如CRM的领导问元数据是啥啊,你不要说是数据的数据,应该跟领导说就是类似局数据、代码解释的东西。
可以看到,《白皮书》给了我们一个理解数据资产管理相关实践知识的指引,笔者这里的阐述也是浮光掠影,但无论你是哪一类数据工作者,都建议好好读一读,它跟你每天的工作都息息相关,至于哪里下载,自行百度吧。
完
作者:傅一平 (微信号:fuyipingmnb)
可能错过的近期精选文章(点击链接即可阅读)
从芝麻信用分透露的详细数据设计,我们能从中得到什么启示?
传统的数据从业者,并不会从大数据中获得多少红利
十年的标签库建设经历,我得到了什么启示?
艰难的旅程,你的数据中台到底能为一线提供多少火力?
PPT,考验你的格局、能力和思维的方式,你得学会驾驭它!
如何避免成为一台取数机器?
哪些广为人知的数据挖掘案例其实是一地鸡毛?
数据的价值到底如何评估?
为什么我提交的数据分析报告总是被领导K?
我如何用统计学指导自己的生活?
从吴军的“算法的油水就那么多”说起!
一起成长,让我们与数据同行
忙完工作,偷得浮生半日闲,讲述自己的数据人生
大叔/电信博士/500强央企/大数据/人工智能/统计取数/数据挖掘/数据产品/数据管理/数据仓库/数据变现