数据治理体系之二-元数据管理
“ 很多刚进入数据行业的从业者对于元数据经常会存在理解不了,或者不知道是什么的现象,本文简单从什么是元数据,元数据的定义,元数据的作用,元数据管理的功能,以及元数据在数据治理中的意义进行介绍元数据”
01
—
什么是元数据
ID | Name | EnglishName | Gender | Contact | Post |
1 | 李** | Alice | 女 | 1332342**** | 技术经理 |
2 | 赵** | Bob | 男 | 1332342**** | 工程师 |
3 | 何** | Alfred | 男 | 1353342**** | 工程师 |
业务元数据主要描述的是数据业务属性,主要跟概念模型、逻辑模型相关,这些属性一般是定义的形势存在的,单独存储在库中,不会存储在数据库中,数据库层级是物理模型,物理模型是属于技术元数据的范围。
二、技术元数据技术元数据(Technical Metadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。技术元数据示例包括:1) 物理数据库表名和字段名。2) 字段属性。3) 数据库对象的属性。4) 访问权限。5) 数据CRUD (增、删、改、查)规则。6) 物理数据模型,包括数据表名、键和索引。7) ETL作业详细信息。8) 文件格式模式定义。9) 数据溯源和数据血缘,包括上游和下游变更影响的信息。10) 周期作业(内容更新)的调度计划和依赖。11) 恢复和备份规则。12) 数据访问的权限、组、角色。操作元数据操作元数据(Operational Metadata)描述了处理和访问数据的细节,例如:1) 批处理程序的作业执行日志。2) 抽取历史和结果。3) 调度异常处理。4) 审计、平衡、控制度量的结果。5) 错误日志。6) 报表和查询的访问模式、频率和执行时间。8) 备份、保留、创建日期、灾备恢复预案。10) 容量和使用模式。
11) 数据归档、保留规则和相关归档文件。
12) 清洗标准。
13) 数据共享规则和协议。14) 技术人员的角色、职责和联系信息。
管理元数据是指元数据属性中的管理属性,例如数据所属权,数据所有者,数据拥有部门等属性。表明数据管理权限等。
1) 利益相关方联系信息(如数据所有者、数据管理专员)。
2)数据所有权属性(如数据所有权部门、数据所有者)。
那么针对上面那个例子,我们详细列一下该表的业务元数据、技术元数据、管理元数据信息。
02
—
非机构化数据的元数据
相对于结构化数据的管理,元数据在非结构化数据的管理中发挥着更为重要的作用。以图书馆中的书籍和杂志为例,元数据在目录卡片中的主要用途是帮助用户找到所需的材料,而无需关注其具体的格式。
非结构化数据的元数据包括以下内容:
描述元数据:例如目录信息和同义关键词。
结构元数据:例如标签、字段结构以及特定的格式。
管理元数据:例如数据来源、更新计划、访问权限以及导航信息。
书目元数据:例如图书馆目录条目(如名称、格式、来源、版本、 接收日期等)
记录元数据:例如保留策略。
保存元数据:例如存储、归档条件和保存规则。
这些元数据的存在对于非结构化数据的有效管理至关重要。
非机构化数据的元数据主要应用对象是数据湖的数据,数据挖掘和数据科学家需要对数据探索的时候,需要通过元数据找到需要的数据,以及其他元数据定位到自己需要找到的数据,主要能通过元数据进行搜索和定位的能力。
03
—
元数据的作用
元数据的作用在数据管理中的重要性毋庸置疑,主要体现在三个方面。
一、数据的解读和理解
二、元数据目录是提供数据管理的依据
例如我们建立服务市场和数据资产市场是依据元数据建立的。
三、数据开发过程中排查问题的依据
综上所述,元数据是大数据管理和治理以及开发的基础,没有这个基础,其他上层的工作都无法开展。
04
—
元数据的管理功能
元数据管理的功能主要包含:元模型管理功能、元数据采集,元数据维护、元数据列表、任务监控五个功能。
元模型管理功能,可以自定义选择元数据采集的元数据项,不同公司可以根据当前使用需求,对元数据采集的任务项进行增删修改,自定义可视化修改元模型。
元数据采集,根据定义的元数据模型,添加采集任务,需要采集哪些库,哪些表的元数据信息呢,新建采集任务之后,由调度系统进行调度执行,更新元数据。
元数据维护,采集元数据有时候存在漏采,错采等情形,提供维护页面对采集的元数据进行修改。
元数据列表,采集元数据以业务维度、技术维度、管理维度、安全维度展示,同时管理采集的元数据版本,可以对比不同版本发生的变更。
任务监控,则是对创建的元数据采集任务进行监控,可以重新启动,或者立即执行,了解采集任务的采集成功或者失败情况。
欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,获取最新的行业信息
往期历史热门文章:
基于DataOps的数据开发治理:实现数据流程的自动化和规范化