“数据价值量化”驱动的数据体系建设在企业的实践:让数据建设变的可治理、可运营
The following article is from 数据老铁匠 Author 张彦龙001
在国家“互联网+”战略的主导下,行行业业都在积极备战企业数字化升级;再加上如日中天的中台宣传与加持,大家就把企业数字化升级的筹码纷纷投向了中台。
对于这些转型中的公司:
是幸福的,因为遇到了数字化升级的风口,可以大干一场;
也是痛苦的,因为好像被人架着胳膊走路一样,脚底下软绵绵的力不从心。实际情况还没摸透,就直接被要求实施中台战略。结果就是想办法撮合自己的客户和中台....
朋友们倒都很务实,也都明白用“疗效”来衡量立项的必要性、结果的成败。
问题是:如何衡量,尤其在大数据项目中。
眼下,很多互联网的大数据团队,都在为把自己存在的价值说明白而挠头。
前几年,也就拿工作量当业绩了:我加工了多少张表、起夜处理故障多少次、支持了几条业务线、数据故障率如何下降了....
这很危险!
这说明你的团队正在慢慢退化成公司的一个职能部门,我们的数字化转型战略必然不是把数据科学家们转型成职能部门的办事员。
那么,为啥大数据团队的价值这么难说明白呢?至少有如下的原因:
舍本逐末。错把数据系统的建设当成数据建设核心目标。须知数据系统本身不产生价值,是数据才产生价值。
对业务赋能不够。数仓也建设了,但是用户的反馈是:找数跑断腿、用数全靠嘴(问别人)、口径要问鬼(指标口径不明、更不统一)。
没有愿景。被动应对业务线的新需求和挑战,在企业数据化升级战略中,没有发挥出领导力,甚至连破局点都没找到。
其实这也是近十年互联网快速发展造成的必然结果:
当年,我们部署个hadoop就声称构建了企业数据仓库,开发完基于web的工具链,就宣称大数据平台诞生。
这种平台团队重系统轻业务的思路,在价值导向的今天,必然会面临灵魂拷问 -- 你的价值到底是什么?。
所以说,我们需要从数据赋能的角度来重新审视数据体系、数据中台建设。至于支撑系统、业务赋能、重塑数据文化,这林林总总,让它 凯撒的归还凯撒,上帝的归还上帝好了。
注意,我没有说系统建设不重要,相反,系统建设是夯实基础设施的关键!只是,咱们需要从更全局的视野、战略的角度来看待企业中台建设。
说起数据赋能,那我们至少有如下的问题需要解答:
如何让业务同学快速、准确的发现和使用最合适的数据?
在资源受限时,如何识别出重要的数据,重点保障业务使用、提升数据服务质量?
要重塑公司数据文化,如何让各团队都有参与感,他们的各自价值怎么定量体现?
从全局来看,公司是否有管理的抓手?是否可运营?是否有全局一盘棋的视野。
带着这些问题,加上我在公司内的一些实地实践,谈一下数据价值量化,在现代化数据体系中的重要作用。
想要用价值来驱动数据建设,第一步就是要把数据的价值进行量化。然而,数据价值如何量化,是个谜。
这是因为,我们试图把数据和业务的营收联系起来,但这种极其场景化的直观价值,是由业务场景赋予的。从工程角度来说,我们需要做进一步探索才能摆脱这种场景化的困惑。
考虑一个现实的问题,度量数据价值时,我们更想讨论的其实是数据的重要程度。
这个重要程度可以体现在方方面面:如对业务贡献的重要程度、在SLA保障时的重要程度、成本优化是重要程度等。
度量数据的重要程度,我们是在数据间拓扑结构的基础上来进行的。这个方案或算法,称之为DataRank,它的特点是:
打破了孤立的、从数据本身考虑其价值的方式
通过数据间的依存关系,树立了一种新的价值度量方式
为什么要从数据的依存关系来度量数据重要程度呢?原因很简单,并且已经挂在咱们的嘴边多年 - “数据流动产生价值”。
那么数据流动本身的含义是什么呢?简单总结下来有两种形式:
数据间的生产关系,描述的是数据与数据的关系
数据的访问关系,描述的是数据与人的关系
(一) 在大数据领域,数据的生产关系是最基本的数据流动形式。如:
表D经过计算,生成表A
表C、D、E和F,经过计算生成了表B;
表B和表C又互相依赖
表E经过计算,生成表D
关系拓扑图大致就是这个样子:
注意:上面的数据实体,可以是数据表、也可以是报表、API提供的指标等,通过生产血缘能够串联起来的任何实体都可以纳入。
(二)数据的访问关系:
描述的是:谁、在何时、何地直接或间接访问了哪些数据。这种访问由人通过某些工具来实现,一般不再生成新的数据表。一般是数据血缘关系的末梢。
有了拓扑之后,接下来的重点是每份数据都归属到一个owner,这一步很关键,有了owner,就可以知道这份数据所属的部门、数据加工时都使用了其它哪些部门的数据,数据的流转关系就直接在行政部门层面体现出来了。
数据找到owner不是那么简单的,至少对互联网类公司来说,是这样。
但给每份数据找到owner,又是数据体系建设中,非常重要的一环,数据连负责人都没有,何谈治理!因此这个算法,是可以与数据体系的目标关联起来的,推进数据归属是共同的目标。
通过DataRank算法的计算,每个人、每个部门都会得到自己的分数。并且还能知道不同部门之间互相贡献了多少分。
DataRank是价值驱动的数据体系的核心,它是公司在数据建设上的雷达,并且可以通过组织来建设、产品来承载、运营来推动,是提升公司数据文化的一种有效途径。
DataRank算法与PageRank的思路有些类似,被使用越多的数据,越重要。算法可以抽象概括下:
观察每个数据实体的直接被使用情况,并计算数据实体的引用分。纳入考虑的指标有使用人数、使用次数、使用的部门数。
部门数,由一、二、三级部门来衡量,部门间跨度越大,说明这份数据在全局层面影响力越大,计算时权重越高。
如果拓扑图中有环,则把环解除,形成依赖树。由叶子节点开始,由第1步计算得出的节点的引用分,逐级加到它的父节点中。即子节点的价值要向父节点传递,因为它使用了父节点的数据。
解环的方式有多种,和具体场景也有些关系,不赘述了
子节点的分数不是直接加给父节点,而是有个衰减因子,如每一级衰减1/2,否则基础表(尤其是ODS层)由于其独有性,它的分数会非常高,失去了量化数据价值的意义。
上一步已经计算出了各数据节点的DataRank分数。接下来就是计算个人和部门的DataRank分了:个人或部门DataRank,就是把所属于它的所有数据的DataRank分按某种方式求和。
最高级别的部门,就是公司。公司有一个DataRank分,衡量的是公司整体数据运转情况
数据治理的目标之一,就是解决用户找数难、不好用、不敢用、不能用的问题。
很多时候,数仓同学不是不想支持,而是实在没有精力面面俱到,他们没有办法一眼看出哪些数据值得投入更大精力:大部分时候,只能是人工梳理,找出自己认为重要的数据来保障。
通过DataRank价值量化算法,得分越高的数据,要么直接使用的人多、要么间接被依赖的多,出事后影响面大,因此必须优先保障。保障内容至少包括:
元数据信息的完善,达到让人能充分理解的程度。
服务质量的完善,比如产出时间、数据的质量等
一个基于价值量化的数据保障解决方案如下:
对每份数据的服务质量(如元数据产出时间等)进行打分,例如每月20天按时产出,就得100*2/3=67分...
引导大家去优先比较重要的数据:在面向个人或部门汇总分数时,以数据的DataRank作为权重,权重越高的表,对部门或个人得分的影响越大
到这里还没有结束,有意思的是,这个方案是可运营的。
从公司层面规划出阶段性整体目标。
通过运营活动,向公司宣传这些目标,以及对应的奖惩措施,并给出提升团队或个人竞争力的途径。
面向个人和部门,设置排行榜、明星榜、红黑榜,全员公示。成绩与绩效挂钩。这也是组织保障的内容。
游戏规则应该尽量简单而有效,员工通过努力,能提升自己的排名,不能让员工手足无措。
在实际工作中,不同部门的同事,不是不想在数据上贡献力量,而是自己的贡献没有被认可。
自己付出了不少劳动,如我运维的数据开放给其他部门使用,我并没有从他们的成果中受益,数据故障后,反倒还要背上一个处分。心寒...我的数据还是我自己用用算了....
这套价值量化算法的优势就是,它知道数据价值在不同团队之间的流转关系:你给我贡献了多少分,我给你贡献了多少分,都是有据可查的。
一个桑基图可以对公司内各部门在数据上的贡献了然于胸,作为CTO/CDO的你,要做的就是,从公司全局奖优罚劣,为组织升级随时随地提供事实参考。
数据驱动,要表达的就是以目标为导向,通过客观指标来及时掌握业务情况、灵活调控业务节奏。
然而在大数据建设上,我们却迷失了,光顾着怎么用数据衡量别人了,恰恰缺少了衡量自己的数据指标。因此才通过个人的实践,总结了这套价值驱动的数据体系建设方法。
另外DataRank价值量化算法只是基础能力或框架,因此在解决不同问题的时候,需要灵活适配,切忌生搬硬套!
例如,资产保鲜与成本优化采用的产品和运营策略肯定不一样
某些情况下,需要人为干预某些数据的重要程度,此时,就需要引入人工评定环节。
(欢迎加入数据工匠知识星球获取更多资讯)
联系我们
扫描二维码关注我们
微信:DaasCai
邮箱:ccjiu@163.com
QQ:3365722008
热门文章
我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。
我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。
我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。
了解更多精彩内容
长按,识别二维码,关注我们吧!
数据工匠俱乐部
微信号:zgsjgjjlb
专注数据治理,推动大数据发展。