查看原文
其他

元数据治理:解决用数难、用数烦的困境

NK冬至 首席数据科学家 2022-05-08

 大数据时代的到来,让越来越多的企业将数据视为企业的重要资产。如何提升数据价值是每个企业当下面临的一个难题。


元数据,应该是做数据治理的同学们最熟悉的内容了,但其他小伙伴可能不那么了解。今天分享一下元数据相关的内容。



01

什么是元数据


首先,什么是元数据呢?


举个例子,比如我们去图书馆借书。面对图书馆茫茫多的书籍,你怎么找呢?最便捷的方法就是去图书馆系统上,按照作者、书名,或者出版社等等信息,查询一下,然后找出这本书的存放位置 。


这些书我们就可以理解为是我们的数据,而图书管理系统上提供的这些作者、书名、出版社等信息就是我们的元数据。


正式点的定义:


元数据,其实是“用来描述数据的数据”,简单来说就是反映了数据的交易、事件、对象和关系。


另外,顺带补充一下什么是数据。大家通常理解的数据主要是狭义上的数据,都是数字、数值。但广义上,其实含义更丰富一些:


数据是以文本 、数字 、图形、图像、声音和视频等格式对事实进行表现,反映了真实世界的交易 、事件、对象和关系


02


元数据的类型


从具体的数据类型上,可以细分为模型元数据、生产元数据、实时元数据、指标元数据、标签元数据、维度元数据、API元数据等。


概念看似很抽象,其实我们之前也有所接触。


其中指标元数据,可以看看之前的《指标字典搭建》;标签元数据和标签系统也可以是结合在一起的,可以参考《海量标签如何系统化管理》。

和之前分享的最主要的差别在于,之前的系统更多的是从业务角度出发,元数据治理更多的从数据角度出发。所以两者其实是可以从某个程度上达到统一。


以上的几个元数据类型,可以再提炼成几个大类:


  • 技术元数据:一般包括物理数据库的表和字段,数据库的 ETL(抽取、转换和装载作业信息等。

  • 业务元数据:一般包括报表指标的定义说明、业务规则、数据标准等。

  • 管理元数据:也叫操作元数据,包括审计结果、错误日志、调度异常日志等。


其他的元数据类型,后面我们慢慢分享。

03


元数据治理的意义


元数据的治理,有什么价值与意义?


其实从上面举的例子中就能想到一二。有了图书的管理系统,找书的效率大大提升了,对不?也做了更好的图书管理,对不?所以,元数据治理的重要价值,主要有以下几点:


(1)解决用数难的问题

作为经常数据打交道的人,下面的场景应该不陌生:



总结起来,主要有这么几个难题:


  • 不知道有什么数据

  • 不知道数据到底在哪

  • 不知道数据应该如何使用


通过实施元数据的治理,可以很好解决以上问题


(2)提升数据价值


关于数据资产、数据治理、元数据治理有以下的关系:



大数据时代的到来,让越来越多的企业看到了数据的价值,将数据视为企业的重要资产,已经成为业界的一种共识。如何提升数据价值是每个企业当下面临的一个难题。


想要真正发挥数据资产的价值,就必须要对这些数据进行管理。而数据治理正是实现这一目标的一种手段。


数据治理中,元数据的治理是我们数据治理中最重要的一环,通过解决“用数难的问题,达到提升数据价值的目的。



04


如何进行元数据的治理


如何进行元数据的治理呢?


(1)元数据成熟度模型


下图是随着业务的发展,元数据管理的分阶段情况:



  • 初始状态(L0):元数据分散于日常的业务和职能管理中,由某个人或某一组人员在局部产生或获取,并在局部使用,其他人如果想获得该元数据需要找到相应的人进行沟通获取。


  • 从属业务系统(L1):在这个阶段,随着各个业务系统自动化构建完成,相应的元数据也随着需求整理、设计、开发、实施和维护等过程被各个业务系统孤立的全部或部分管理起来


  • 元数据统一存储(L2):中央存储库的构建,使得元数据在整个企业层面可被感知和搜索,极大地方便了企业获取和查找元数据。


  • 元数据集中管理(L3):在 L2 的基础上做了改进,增强了元数据的集中控制,局部业务单元或开发小组如不事先通知其他人,将无法对元数据进行修改。


  • 元模型驱动管理(L4):在 L3 的基础上,通过构建元模型以及元元模型,优化各业务单元之间的各种冲突和各种副本,创建、管理和共享业务词汇表和分类系统(基于主题领域的层次结构)。


  • 元数据管理自动化(L5):元数据管理实现高度自动化, 当逻辑层次元数据变更时,会被传播到物理层次,同样物理层次变更时逻辑层次将被更新。


(2)DAMA 国际的标准方法


按照DAMA国际标准的方法,可以将治理过程分为以下十个步骤:



(3)从元数据应用角度切入


从应用的角度出发,可以参考以下过程:



关于元数据的内容先分享这些,其他数据治理的内容,敬请关注


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存