查看原文
其他

数据治理体系之二-元数据管理

ruby ruby的数据漫谈
2024-09-27

 很多刚进入数据行业的从业者对于元数据经常会存在理解不了,或者不知道是什么的现象,本文简单从什么是元数据,元数据的定义,元数据的作用,元数据管理的功能,以及元数据在数据治理中的意义进行介绍元数据


元数据是指描述数据的数据,它包含有关数据的各种属性和特征的信息。在DAMA(数据管理协会)中,元数据的定义是指一组结构化信息,用于描述和管理数据资源。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业 务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。元数据可以帮助 组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管 理来说是不可或缺的。它有助于处理、维护、集成、保护和治理其他数据。通过准确、一致和完整的元数据管理,组织可以更好地管理和控制数据资产,提高数据的可信度和可用性,从而支持业务决策和创新看这个定义,元数据是什么还是相对比较抽象,下面进行详细的说明。




01

什么是元数据


前面已经结束了元数据的定义,下面我们以一个详细的示例来说明什么是元数据。例如:一张人员信息Personnel Information,里面包含字段:ID、Name、EnglishName、Gender、Contact、Post. 那么我们在数据库中看到的数据是这样的。


IDNameEnglishNameGenderContactPost
1李**Alice
1332342****技术经理
2赵**Bob1332342****工程师
3何**Alfred1353342****工程师


对于这样一张表,我们需要了解这张表的数据就一定需要了解这个表的元数据,那么元数据是什么了?元数据包含 业务元数据、技术元数据(包含操作元数据)、管理元数据三种类型。下面详细介绍元数据的三类元数据信息:‍‍‍‍‍‍‍‍‍‍‍‍


一、业务元数据业务元数据(Business Metadata)主要关注数据的内容和条件,另包括与数据治理相关的详细信息。业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义。业务元数据的示例包括:

1) 数据集、表和字段的定义和描述,例如表的描述、字段描述属性。

2) 业务规则、转换规则、计算公式和推导公式,例如指标字段的计算公式,转换规则等。

3) 数据模型(概念模型、逻辑模型),在模型设计阶段中的逻辑模型等。

4) 数据质量规则和检核结果,例如对某个字段的质量检查规则。5) 数据标准,例如对某个字段的数据标准。6) 数据的安全/隐私级别。

业务元数据主要描述的是数据业务属性,主要跟概念模型、逻辑模型相关,这些属性一般是定义的形势存在的,单独存储在库中,不会存储在数据库中,数据库层级是物理模型,物理模型是属于技术元数据的范围。‍‍‍‍‍


二、技术元数据技术元数据(Technical Metadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。技术元数据示例包括:

1) 物理数据库表名和字段名。

2) 字段属性。

3) 数据库对象的属性。

4) 访问权限。

5) 数据CRUD (增、删、改、查)规则。

6) 物理数据模型,包括数据表名、键和索引。7) ETL作业详细信息。8) 文件格式模式定义。9) 数据溯源和数据血缘,包括上游和下游变更影响的信息。10) 周期作业(内容更新)的调度计划和依赖。

11) 恢复和备份规则。

12) 数据访问的权限、组、角色。

操作元数据

操作元数据(Operational Metadata)描述了处理和访问数据的细节,例如:

1) 批处理程序的作业执行日志。

2) 抽取历史和结果。

3) 调度异常处理。

4) 审计、平衡、控制度量的结果。

5) 错误日志。

6) 报表和查询的访问模式、频率和执行时间。8) 备份、保留、创建日期、灾备恢复预案。10) 容量和使用模式。

11) 数据归档、保留规则和相关归档文件。

12) 清洗标准。

13) 数据共享规则和协议。14) 技术人员的角色、职责和联系信息。


三、管理元数据

管理元数据是指元数据属性中的管理属性,例如数据所属权,数据所有者,数据拥有部门等属性。表明数据管理权限等。

1) 利益相关方联系信息(如数据所有者、数据管理专员)。

2)数据所有权属性(如数据所有权部门、数据所有者)。


那么针对上面那个例子,我们详细列一下该表的业务元数据、技术元数据、管理元数据信息。


元数据管理的元数据模型信息具体根据实际使用需要参照以上的列出来的类别进行添加。以上就是元数据的模型,根据这个模型,建立元数据采集任务,将这些信息采集进入表中进行管理,即完成元数据采集的任务。



02

非机构化数据的元数据


相对于结构化数据的管理,元数据在非结构化数据的管理中发挥着更为重要的作用。以图书馆中的书籍和杂志为例,元数据在目录卡片中的主要用途是帮助用户找到所需的材料,而无需关注其具体的格式。

非结构化数据的元数据包括以下内容:

描述元数据:例如目录信息和同义关键词。

结构元数据:例如标签、字段结构以及特定的格式。

管理元数据:例如数据来源、更新计划、访问权限以及导航信息。

书目元数据:例如图书馆目录条目(如名称、格式、来源、版本、 接收日期等)

记录元数据:例如保留策略。

保存元数据:例如存储、归档条件和保存规则。

这些元数据的存在对于非结构化数据的有效管理至关重要。

非机构化数据的元数据主要应用对象是数据湖的数据,数据挖掘和数据科学家需要对数据探索的时候,需要通过元数据找到需要的数据,以及其他元数据定位到自己需要找到的数据,主要能通过元数据进行搜索和定位的能力。‍‍‍‍



03


元数据的作用


元数据的作用在数据管理中的重要性毋庸置疑,主要体现在三个方面。


一、数据的解读和理解


元数据可以提供数据的背景信息和上下文,使用户能够更全面地理解数据的含义和用途。通过元数据,用户可以知道数据来源、创建日期、所有者、数据类型等重要信息,从而更准确地使用数据并做出明智的决策。如果没有元数据的,数据库中存储的数据最终存储都是0和1,没有元数据,存储的数据没有意义,容易成为数据沼泽。完善的元数据让数据可以被解读、被理解,进而才能被管理、被使用。


二、元数据目录是提供数据管理的依据


通过收集和维护元数据,我们可以构建一个元数据目录。在这个元数据目录中,记录了企业的数据及其详细描述信息。元数据目录是数据资产管理和数据共享的基石,也是校验数据质量、制定数据安全策略和建立资产目录的依据。同时,元数据的补充还包括数据安全等级和安全策略等重要信息。例如我们建立数据资产目录是依据元数据建立的。‍‍‍

  例如我们建立服务市场和数据资产市场是依据元数据建立的。‍


三、数据开发过程中排查问题的依据‍‍‍


数据的技术元数据是大数据开发的基础,没有这些信息,大数据开发无法完成数据的任何工作。例如ETL 工作,需要了解表的结构,字段信息,需要从元数据中获取信息,例如大数据开发中出现字段问题,需要追溯问题来源,需要用到数据血缘功能等。元数据对于数据分析和挖掘也至关重要。通过元数据,可以了解数据的结构、字段和关系,为数据分析和挖掘提供重要的指导和支持。同时,元数据还可以记录数据处理和转换的过程,使数据的可追溯性和可信度得到保证。‍‍‍‍‍


综上所述,元数据是大数据管理和治理以及开发的基础,没有这个基础,其他上层的工作都无法开展。‍‍



04

元数据的管理功能


元数据管理的功能主要包含:元模型管理功能、元数据采集,元数据维护、元数据列表、任务监控五个功能。


元模型管理功能,可以自定义选择元数据采集的元数据项,不同公司可以根据当前使用需求,对元数据采集的任务项进行增删修改,自定义可视化修改元模型。


元数据采集,根据定义的元数据模型,添加采集任务,需要采集哪些库,哪些表的元数据信息呢,新建采集任务之后,由调度系统进行调度执行,更新元数据。

元数据维护,采集元数据有时候存在漏采,错采等情形,提供维护页面对采集的元数据进行修改。

元数据列表,采集元数据以业务维度、技术维度、管理维度、安全维度展示,同时管理采集的元数据版本,可以对比不同版本发生的变更。

任务监控,则是对创建的元数据采集任务进行监控,可以重新启动,或者立即执行,了解采集任务的采集成功或者失败情况。


欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,获取最新的行业信息




往期历史热门文章:

基于DataOps的数据开发治理:实现数据流程的自动化和规范化

数据平台:湖仓一体、流批一体、存算分离的核心问题及原因解析

数据治理体系该怎么建设?

实时数仓&流批一体技术发展趋势

数据仓库、数据中台、大数据平台的关系?

数字化转型如何促进业务的发展

数据中台中的核心概念解析

数据治理中的数据标准的作用?

全面数字化转型:打造全新营销模式





继续滑动看下一个
ruby的数据漫谈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存