查看原文
其他

从DAMA出发,一个指标库到底是如何炼成的?

傅一平 与数据同行 2021-10-15

点击上方蓝字关注公众号

请您点击“与数据同行”以“关注”,关于数据的实践与思考,每周一我在这里等你!

作者:傅一平  博士  浙江大学毕业 目前就职于浙江移动

在数据管理领域,我们通常将数据分为:主数据、交易数据、参考数据、元数据和统计分析数据(指标), 指标是BI里面核心的概念,是一个企业数据运营关注的核心数据,一般以KPI和报表的形式体现。

从笔者的实践看,一个企业要进行数据治理,涉及了架构、安全等诸多层面,但最迫切的是提升数据质量,其中指标质量则是重中之重,一般业务上90%以上关于数据的疑问都从指标的质疑开始,只要你从事数据相关工作,就应深有体会。

“这个指标好像跟业务发展实际不符,快去查查”,估计这是报表取数人员听到的最多的一句话了。

笔者就来谈谈如何从根本上去提升指标的数据质量,即实现指标的标准化,作为一个数据管理人员,不管你有多少能力,曾经解决了多少问题,当过多少回救火英雄,都应该从更为长远的角度来思考这个问题。

指标标准化的核心价值在于实现“书同文,车同轨”,即通过针对指标的一系列管理过程,去提升指标准确性、一致性、敏捷性及开放性,在笔者以前的文章《如何才能做好一张报表》中对此有详细的阐述。

DAMA将数据治理放到核心地位,指标的标准化就是个典型的数据治理问题,治标是容易的,治本的代价则太高,但如果要实现进阶,还是要站的高一点,多思考一下,想想是否有更好的方法,就从笔者多年前做过的指标标准化项目开始吧,分为组织保障报表梳理指标整合实现方式功能架构可视化引擎管理流程等七个方面。

1、组织保障

指标库这类数据管理项目,或称BI项目,一般业务部门参与的力度是不大的,这是大多BI项目实施效果不佳的一个深层次原因。

DAMA提到要实施数据治理活动,跨部门的数据治理委员会等是关键的组织,的确是这样,指标跟全公司每个单位都相关,对于其进行规范化改造当然应该获得大家的一致同意。

可惜的是,大多企业没有这个理想条件,也不会有数据治理委员会,在数据还未成为真正的实质性资产前,比如纳入财务部的资产目录,很少有企业会设立这个数据组织,因为效益不明显,因此,哪个企业都不大可能为指标出一个规范并且通令全公司贯彻执行,对于数据管理人员,指标库这个事情也许意义不小,但对于全公司意义则小了,这是现状。

在没有公司层面的组织保障前,数据管理人员或BI部门大多得靠自己,通过自己来推动事情往前走, 这是应有的态度,你不提,公司也没有任何人会提,毕竟你是最大受益者,实施指标库这个事情非常复杂,谁都没有成功的把握,秉持小步快跑,试点探索的原则是不错的。

笔者的这个指标库项目获得了分管领导的强力支持,这是项目能进行的现实组织保障,其实这类管理项目设立之初,很难让业务部门和一线人员马上认识到其价值并充分参与进来,这个沟通管理成本太高了,但无论如何,一个数据治理项目能否成功,公司的支持是第一要务,不仅仅是IT部门的事情,DAMA的很早就在《DAMA数据管理知识体系指南》明确了数据治理的组织要点,以下是DAMA的数据治理组织架构图,非常超前:

当然笔者觉得现实的组织演进也许如下图更合适,但道理是一样的,相关利益方需要对这个事情达成共识:


2、报表梳理

指标的主要表现形式是报表,因此第一要务就是报表梳理,公司的报表浩如烟海,因此这个项目设立之初就限制了范围,主要针对一线市场部经理、终端管理、流量管理三类核心角色,共梳理了相关的39个彩信、48份邮件通报及数据集市上的733张报表。

3、指标整合

各类报表及相关指标表达各不相同,梳理前应该给出一个描述指标的标准框架,包括指标大类、子类、维度、周期、归属、命名规范等等,曾经由于框架漏了一些要素导致返工现象,这个顶层设计一定要做好,以下是示例:

命名规范:业务限定词+业务名称+量值限定词+量值描述(量、收、用)

举例1:两网有效用户到达数

举例2:自建有线宽带出账用户数

下图列出了大致的梳理步骤,主要以省公司报表和彩信KPI为基础确定基准指标,各地市指标剔除个性指标后,合并到省公司的基准指标中,形成本次的最终指标范围。

全省指标共计6841个(未剔重),经过归并整合,得到基础共性指标2306个,如下图所示:

此项工作耗时巨大,以下是成果的示意:

4、实现方式

根据指标性质不同可以分为3类,即基础指标1046个、计算指标652个和通用营销类指标303个。

5、功能架构

为了支撑指标快速,标准化实现,通过增强数据管理平台来实现指标的快速开发、部署和管理,主要包括指标信息维护、指标开发、运维管理、指标质量管理等功能。

比如指标库每月需要新增超过9. 5亿行的数据,存储周期按12+1,即123亿行,以传统关系型数据库的查询能力无法支撑,这里就采用Hbase架构支撑海量指标的快速查询。

6、可视化引擎

为了支撑指标组装报表与配置报表的快速开发,使用数据可视化引擎产品,主要包括指标组装、报表开发、报表展现功能,现在的这类产品很多了,但定制化给予一个创新性项目更大的自由度。

指标组装报表工具是区别传统基于SQL配置报表的灵活度更高的报表配置方式,主要提供基于指标选择组装生成报表。

7、管理流程

指标的建设只是走完了数据治理的第一步,为了确保指标库长期可用,必须要有一套针对的指标管理机制和流程,否则建设的结束就是混乱的开始,理想的做法当然是发布一套公司级别的指标管理规范,但这个时候时机往往并不成熟,比如系统可用性到底如何,因此,我们当时就确立了一个简单原则,一条开发铁律:不重复开发,能用指标实现的不允许单独开发报表,当然这非常考验数据管理的艺术,极大依赖于团队的业务和数据能力,但有主见的数据管理团队一定要懂得如何与业务人员进行博弈,记得你才是全公司数据的管理者,而不仅仅是个开发者。

笔者在关于指标库的实现简要谈完了,但我对于大多企业搞指标库却是持悲观态度的,传统BI部门面对浩海的数据需求时,往往是没有管理原则的,因为公司对你的数据管理授权是不明确的,我们不得不以牺牲长远来满足当前,其实BI每接收一个不规范(比如胡乱的指标命名和定义)的报表需求就要承担由此带来的管理成本,而不仅仅是开发成本,这为后续数据管理的混乱埋下了祸根。

但存在的又是合理的,因为搞个指标库在开始的时候,无论是管理及运维成本都不低,关键是短期来看效益还不明显,这也许是成功案例不多的一个原因。

因此,当我们在抱怨业务指标口径一塌糊涂的时候,要记得是企业没有数据管理的原则导致了这个现象,也是你的不作为导致了这个现象,这跟公司的文化、机制及流程是息息相关的,顶层设计没解决,也许只能将就了,或者,你就要付出百倍的努力去改变或优化这个设计吧,这需要巨大的决心和毅力。

DAMA谈数据治理首当其冲谈组织设置,显然是非常睿智的,奇怪的是在知乎上关于DAMA数据治理的讨论几乎没有,这倒是值得思考的问题。


历史足迹

传统BI的认知:

《我们需要什么样的ETL?》

BI一线管理者的二次创业?

《十幅图读懂BI自助取数系统!》

《为什么传统BI没前途?》

《为什么BI取数这么难?》

《BI自助取数是怎么炼成的?》

《报表系统的雄心? 》

《重新认识数据可视化》

《为什么数据挖掘很难成功?》

《如何才能做好一张报表?》


大数据的实践:

《从“培训计划”说起,传统企业要培养自己的大数据人才》

《为什么没人愿意为大数据洞察报告买单?》

《业务人员的革命:从大数据运营是一台“戏”开始》

《我们需要什么样的大数据培训?》

《大数据需要什么样的合作伙伴?》

《不忘初心,大数据不是IT的狂欢!》

《大数据,悟道2016》

《我们缺什么,一次大数据头脑风暴的启示!》

《一个大数据应用是如何炼成的? 》

《一只传统企业大数据平台团队的绽放!》

《大数据,为什么不是传统BI的简单升级?》


数据管理的领悟:

《一本数据字典的三生三世》

《思考|谈谈数据管理的原则》

《重装上阵-大数据管理的实践和思考》

《我如何完成一本企业数据字典的编写!》

《为什么数据管理工作很难成功?》

《七幅图读懂企业的数据字典》

《六把武器? 谈谈DT时代的大数据资产管理》


数据人员的修养:

《这五个灵魂问题,解决BI新人80%的困惑》

《数据分析师的自我修养》

《为什么有些人用3年的时间获得了你12年的数据分析经验?》

《经营分析师如何进一步提升自己的境界》

《数据从业者与PPT的进阶》


运营商大数据:

《运营商大数据运营的现状及思考》

《浙江移动发布手机终端大数据分析报告》

《联通的大数据反欺诈,依赖互联网公司靠谱吗?》

《电信运营商的反欺诈系统不会侵犯用户隐私!》

《DPI大数据之战,运营商的艰难抉择》

《PK BAT大数据?谈谈运营商大数据的价值》

《唯有数据创新,运营商才能实现大数据变现的突破》

《逆袭 | 运营商吸引大数据人才的七个优势》


我的读书笔记:

《理解深度学习的钥匙–参数篇》

《理解深度学习的钥匙 –启蒙篇》

《读吴军的智能时代

《如何清晰的理解区块链?》

《我如何理解深度学习?》

《进阶: 产品启示录》

《黑客帝国的前奏:工业大数据的崛起》

《互联网广告:大数据变现的颜值担当》

与数据同行

ysjtx_fyp

长按二维码识别,关注此号!


: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存