数据治理 | 元数据管理实践
导读:元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。
企业数据治理的现状与问题
数据架构梳理
数据架构优化
数据实体关系
概念数据模型
逻辑数据模型
物理数据模型
业务流程与数据流向
业务功能/数据关系矩阵
应用/数据关系矩阵
数据架构展现与变更管理平台
数据分布管理 数据质量管理 数据容量管理 数据迁移……
数据架构失控
元数据管理混乱
数据标准缺失
数据质量参差不齐
数据增长无序
数据安全问题突出
企业数据运营的常见问题
怎样快速找到想要的数据:已存在系统,有哪些关键业务数据?它们在哪里?报表A指标值怎么算出来的?原始数据从哪得到的? 数据标准如何定义:关键业务数据在不同系统的业务定义?它们的数据结构是怎样的?同一实体在不同系统中的命名规则及其他属性一致?同一实体与本系统或其他系统对象是否存在依赖关系?具体的依赖关系描述是怎么样的? 如何梳理出上下游关系:随着业务快速发展,数据生产链路逐渐变长,生产关系越来越复杂,如何准确高效的梳理出数据间、任务间的血缘关系,识别出关键生产链路? 数据治理靠什么来驱动:如何驱动资源治理、规范治理等,以及如何衡量治理效果? 数据资产的管理问题:海量的数据资产的归属、分级分类,识别隐私数据等管理问题如何解决?一旦对象定义发生变化,其他开发团队会不会有影响?数据实体所有者是谁?谁作过修改或变更?
这些问题,或许元数据管理能够帮助到您!
元数据管理是数据治理的重中之重
数据运营之元数据的重要性
有用的数据在哪里
提供一份数据结构定义和元素的详细示意图
数据来龙去脉、关系
数据质量审计
减少数据冗余性,增加数据共享,
使应用开发过程更有效
参照性、引用性、血缘分析、影响分析、变化分析...
利用数据解决企业问题的能力
元数据管理范围和目标
数据接口:生产系统和操作型系统中采集到数据仓库或者数据平台中的各中数据接口信息。
元数据管理系统
接入层:适配不同元数据生产方,转换成标准定义,输出全种类实体、关系变更消息。
服务层:基于存储层提供单点、复杂查询服务,基于分析引擎提供分析服务。
存储层:基于图模型的实体、关系的存储与查询,支持统计与分析能力。
应用层:提供数据资产地图、数据搜索、全链路血缘等功能。
图:元数据管理架构(来源:快手)
图:数据搜索的原理(来源:快手)
图:全链路数据血缘(来源:快手)
除了上面应用场景外,元数据还有以下应用场景:
元数据查询:开发平台、指标模型管理、BI工具等通过元数据服务查询库表信息。 资产管理:通过系统采集的元数据信息,对数据资产进行集中管理,设置生命周期、安全等级等关键属性。 影响分析:支持查询当前节点全部下游,支持变更通知模块根据影响范围进行变更消息的发送。 价值评估:数据资产价值评估模型通过元数据中心提供的丰富的元数据得以落地。
元数据给企业带来的收益
提供一份企业级的详细应用、数据定义和元素的详细地图,有利于企业的数据应用人员进行数据分析。
制定企业元数据标准,减少数据冗余性,增加数据共享,使应用开发过程更有效,开发费用更低、避免异构结构定义、提高不同工具之间定义的重复利用率。
帮助用户理解数据来龙去脉、关系及相关属性,统一所有报表的统计口径,减少数据冲突。
数据血缘分析,为数据分析提供直观的数据处理先后逻辑,协助提升数据质量。
数据影响分析,帮助用户识别数据实体会影响的相关处理过程和报表,有利于增强企业运营效率、规避错误及风险。
通过元数据变更,自始自终确保元数据的准确性和权威性。
写在最后
扩展阅读:数据中台资料已为读者朋友准备好了,点击下方公众号“数据仓库与Python大数据”后台回复“数据中台”,即可下载。
回复:OneData,领取ppt资料
回复:06,领取阿里巴巴大数据之路pdf
【数据治理】:☟
专题系列
点击上面文字即可跳转
更多干货,请戳"阅读原文"到"合集"查看
!关注不迷路~ 各种干货、资源定期分享!