查看原文
其他

漫谈数据治理之二:思想上的体系化

晓阳的数据小站 晓阳的数据小站 2022-09-09

漫谈数据治理之二:思想上的体系化

数据的滚雪球效应

现代数仓体系中,数据数量的高速增长已经不是什么新鲜事了,在大数据的作用被业界所认知到后,几乎所有对于业务有价值的行为,都将以数据的形式被收集。虽然这些数据很有价值,但在体现数据的价值之前,数据存储的成本已经扛不住了。据可靠统计,大公司每年数据的存储量以60%的速度在增长,5年后业界的数据规模就将达到今天的10倍,数据的滚雪球效应正在体现。

数据暴增带来的系统风险

数据暴增不仅带来了存储成本的增加,还带来了一系列无法避免的体系风险:
  • 数据计算链路越来越复杂,带来了很高的数据质量风险,高危风险数据开始增多;
  • 组织协作难度增加,跨部分的协作周期增加至原先的数倍,对于企业研发效能而言是一种巨大的损失;
  • 数据孤岛逐步增多,安全合规的风险被放大,数据计算链路难以被完整的追踪。

数据治理的核心目标

数据治理不单纯是一个技术项目,而是一个体系化的机制,比较强的依赖于各个部门组织管理的能力。如果说我们一定要给数据治理工作一个核心目标,来体现做这件事情的价值,那么我们可以用“降本增效”的概念来定义它。“降本增效”有两个方面涵义:一方面是“降本”,能够守住数据问题的底线,包括数据质量风险、数据安全风险、数据规模风险及数据成本风险,切实的降低我们在数据治理上支出的时间和金钱成本;一方面是“增效”,让数据更加便捷的被使用、更加广泛的参与到业务系统的建设中来,让数据为产品注入灵魂,带回动力和金钱的价值。

数据治理的核心规则

数据治理在技术上没有什么难题,主要是在执行落实上会有很多的困难:新人不熟悉、老人不配合,由于不直接产生收益,很多人执行的动力其实是不足的。这个时候,我们就需要强调数据治理的核心规则:”法制“。“法制”就像我们社会的组织一样,并不是说你想做就可以做,而是我给你制定一个规则,明确的告诉你什么是“法律”,“法”所规定的内容必须无条件的执行。如果我们看业界对于数据治理所采用的方法,无一例外的都集中在建立“组织”、明确“权责”、制定“标准”这几件事上。事实上,数据治理的问题,根源只有一个:“无序”。平时我们制定各种规则,要求数据需求评审、code review、审核命名及口径标准,核心也是在于统一数据的标准,避免各方理解不同带来的分歧。落实到日常的细节上,就是坚持两种机制:
  • 一种是研发协作机制:产品的需求评审中不仅要有交互评审,也要有数据评审;多部门协作时,要按照专业归属的原则,将能够沉淀的数据放到一起,避免多方维护的情况;针对复杂的数据需求,学习拆解需求的方法论,沉淀可靠的数据模型。
  • 一种是部门协作机制:跨部门会增加数据的链路长度,对于指标的统一不容易把握,因此要明确各个链路所承担的职责,例如分析部门就不要去插手数仓的工作;针对可能存在的违规和安全问题,制定一个统一的标准,通常是表级别的,有余力也可以做到字段级别。

数据治理的根本保障

有了“法制”,定义“规则”,还要有可靠的“保障”,首先我们要搞清楚三件事:
  • 第一件事是有一份能够阐述业务概念和数据定义的文档,从业务角度讲明白数据的定义;
  • 第二件事是有一个平台能够支持分析数据的血缘关系,做到知晓数据的来龙去脉;
  • 第三件事是能够有一份清晰的数据流程图,对于数据的做出模型上的可靠分类。
有了这份保障,我们就可以开展两种工作:
  • 一种是数据治理战役:虽然从思想上我们能够将数据治理的工作体系化,但是它的落地需要一系列工作的支持,像数据血缘分析,没有平台的支撑,很难做下去。因此梳理清楚有哪些前置的条件要做,把这些事当作战役来执行,不求毕其功于一役,但求能够持续的推动问题的改善。
  • 一种是数据治理运营:由于数据治理归根结底不能是部门的长期任务,而是作为个人日常的修养习惯,所以我们还需要通过一系列的运营活动,来不断强化每个人的意识。例如数据治理标兵评选、数据问题团队公示等,让运营手段也能够参与到工作中。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存