元数据治理:解决用数难、用数烦的困境
“ 大数据时代的到来,让越来越多的企业将数据视为企业的重要资产。如何提升数据价值是每个企业当下面临的一个难题。”
元数据,应该是做数据治理的同学们最熟悉的内容了,但其他小伙伴可能并不那么了解。今天分享一下元数据相关的内容。
01
—
什么是元数据
首先,什么是元数据呢?
举个例子,比如我们去图书馆借书。面对图书馆茫茫多的书籍,你怎么找呢?最便捷的方法就是去图书馆系统上,按照作者、书名,或者出版社等等信息,查询一下,然后找出这本书的存放位置 。
这些书我们就可以理解为是我们的数据,而图书管理系统上提供的这些作者、书名、出版社等信息就是我们的元数据。
正式点的定义:
元数据,其实是“用来描述数据的数据”,简单来说就是反映了数据的交易、事件、对象和关系。
另外,顺带补充一下什么是数据。大家通常理解的数据主要是狭义上的数据,都是数字、数值。但广义上,其实含义更丰富一些:
02
—
元数据的类型
从具体的数据类型上,可以细分为模型元数据、生产元数据、实时元数据、指标元数据、标签元数据、维度元数据、API元数据等。
概念看似很抽象,其实我们之前也有所接触。
和之前分享的最主要的差别在于,之前的系统更多的是从业务角度出发,元数据治理更多的从数据角度出发。所以两者其实是可以从某个程度上达到统一。
以上的几个元数据类型,可以再提炼成几个大类:
技术元数据:一般包括物理数据库的表和字段,数据库的 ETL(抽取、转换和装载作业信息等。
业务元数据:一般包括报表指标的定义说明、业务规则、数据标准等。
管理元数据:也叫操作元数据,包括审计结果、错误日志、调度异常日志等。
其他的元数据类型,后面我们慢慢分享。
03
—
元数据治理的意义
元数据的治理,有什么价值与意义?
其实从上面举的例子中就能想到一二。有了图书的管理系统,找书的效率大大提升了,对不?也做了更好的图书管理,对不?所以,元数据治理的重要价值,主要有以下几点:
(1)解决用数难的问题
作为经常数据打交道的人,下面的场景应该不陌生:
总结起来,主要有这么几个难题:
不知道有什么数据
不知道数据到底在哪
不知道数据应该如何使用
通过实施元数据的治理,可以很好解决以上问题
(2)提升数据价值
关于数据资产、数据治理、元数据治理有以下的关系:
大数据时代的到来,让越来越多的企业看到了数据的价值,将数据视为企业的重要资产,已经成为业界的一种共识。如何提升数据价值是每个企业当下面临的一个难题。
想要真正发挥数据资产的价值,就必须要对这些数据进行管理。而数据治理正是实现这一目标的一种手段。
数据治理中,元数据的治理是我们数据治理中最重要的一环,通过解决“用数难的问题,达到提升数据价值的目的。
04
—
如何进行元数据的治理
如何进行元数据的治理呢?
(1)元数据成熟度模型
下图是随着业务的发展,元数据管理的分阶段情况:
初始状态(L0):元数据分散于日常的业务和职能管理中,由某个人或某一组人员在局部产生或获取,并在局部使用,其他人如果想获得该元数据需要找到相应的人进行沟通获取。
从属业务系统(L1):在这个阶段,随着各个业务系统自动化构建完成,相应的元数据也随着需求整理、设计、开发、实施和维护等过程被各个业务系统孤立的全部或部分管理起来
元数据统一存储(L2):中央存储库的构建,使得元数据在整个企业层面可被感知和搜索,极大地方便了企业获取和查找元数据。
元数据集中管理(L3):在 L2 的基础上做了改进,增强了元数据的集中控制,局部业务单元或开发小组如不事先通知其他人,将无法对元数据进行修改。
元模型驱动管理(L4):在 L3 的基础上,通过构建元模型以及元元模型,优化各业务单元之间的各种冲突和各种副本,创建、管理和共享业务词汇表和分类系统(基于主题领域的层次结构)。
元数据管理自动化(L5):元数据管理实现高度自动化, 当逻辑层次元数据变更时,会被传播到物理层次,同样物理层次变更时逻辑层次将被更新。
(2)DAMA 国际的标准方法
按照DAMA国际标准的方法,可以将治理过程分为以下十个步骤:
(3)从元数据应用角度切入
从应用的角度出发,可以参考以下过程:
关于元数据的内容先分享这些,其他数据治理的内容,敬请关注