来源:谈数据,作者:石秀峰
全文共 3270 个字,建议阅读 6 分钟
中台概念,2015年诞生,2019年爆火,在最火的时候被很多人当成了“无所不能”的“万能药”,只要是IT的问题,就一个药方——上“中台”!于是乎,很多企业都争先恐后,纷纷走上了上中台的路。
但似乎“好景”不长,2019年末“中台”的大潮还未退却,就已经传出了对中台的质疑声——“中台,我信了你的邪!”。到了2020年对中台的质疑、唱衰、乃至讨伐的声音更是此起彼伏,中台似乎彻底跌下了“神坛”。而作为众多“中台”核心成员之一的“数据中台”,似乎成了“中台”家族的最顽强的那个,在经历过“追捧”和“质疑”等种种考验后,数据中台正在用事实验证其价值!
数据中台可以看作是数据的“公共服务平台”,即通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。在笔者看来,数据中台最重要的不是中台而是数据,但“纯粹”的源数据严格来说还也不是数据中台的一部分,需要将其加工、处理、标准化形成数据服务和数据产品,而这一过程中,离不开元数据的支撑。元数据——是数据中台的灵魂。
元数据(Metadata),元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据的数据。元数据与数据的不同之处在于元数据描述的不是特定的实例或记录,IT和业务都需要高质量的元数据来理解现有数据。元数据是一种数据类型,以数字方式描述企业的数据,流程,应用程序,资产,业务概念和或其他感兴趣的事物的人员,时间,地点,原因以及方式,元数据为企业数字资产的内容提供了上下文。更简单的说,元数据是对数据的结构化描述,使得数据更容易理解、查找、管理和使用。表1:元数据定义
知识类型 | 定义 | 技术示例 | 业务示例 |
Who | 谁 | 谁负责数据的接口的开发? | 谁是财务业务域的负责人? |
What | 干什么或是什么 | CRM和DW之间的数据血缘关系是什么? | 企业市场管理业务域的指标体系都包含哪些指标? |
When | 什么时候 | 提取,转换和加载(ETL)作业什么时候运行? | 我正在分析的数据上次刷新是什么时候? |
Where | 在哪里 | 在我们的IT环境中,服务器的运行容量不足40%? | 我们在哪里可以找到按营销活动显示我们的社交媒体分析的报告? |
How | 怎么样,怎么做 | 如何设置数据质量的管理规则 | 如何获得产品的竞争优势? |
Why | 为什么 | 数据质量问题的根本原因是什么? | 为什么老客户会不断的流失? |
03 元数据分类
根据数据的性质特点,业内一般将元数据划分为三类:业务元数据、技术元数据和操作元数据。业务元数据是描述数据的业务含义、业务规则等。通过明确业务元数据让人们更容易理解和使用业务元数据,元数据消除了数据二义性,让人们对数据有一致的认证,避免“各说自话”,进而为数据分析和应用提供支撑。常见的业务元数据包括:业务定义、业务术语、业务规则、业务指标等。技术元数据是对数据的结构化,方便计算机或数据库之间对数据进行识别、存储、传输和交换。技术元数据可以服务于开发人员,让开发人员对数据的存储、结构更明确,从而为应用的开发和系统的集成奠定基础。技术元数据也可服务于业务人员,通过元数据理清数据关系,让业务人员能够更快速的找到想要的数据,进而对数据的来源去向进行分析,支持数据血缘追溯和影响分析。常见的技术元数据包括:存储位置、数据模型、数据库表、字段长度、字段类型、ETL脚本、SQL脚本、接口程序、数据关系等。操作元数据描述了数据的操作属性,包括管理部门、管理责任人等,通过明确管理属性,有利于数据管理责任到部门和个人,是数据安全管理的基础。常见的操作元数据包括:数据所有者、数据质量定责、数据安全等级、数据访问权限,数据处理作业的结果等。
元数据类型 | 元数据 | 元数据描述 | 元数据实例 |
业务元数据 | 业务定义 | 数据的含义 | 客户的完整名称,并具有法律效力 |
| 业务规则 | 数据录入规则 | 企业的营业执照、组织机构代码证书,统一社会信用代码证书等具有法律效力的证明文件中的中文名称全称 |
| 识别规则 | 识别规则 | 企业的组织机构代码或者统一社会信用代码或者统一纳税号必须完全匹配,则认为是同一客户。 |
| 质量规则 | 质量规则 | 客户名称为非空,并且与营业执照的中文名称一致 |
技术元数据 | 存储位置 | 数据的存储什么地方 | ERP系统 |
技术元数据 | 数据库表 | 存储数据的库表名称和路径 | ERP/Customers |
技术元数据 | 字段类型 | 数据的技术类型 | 字符型 |
技术元数据 | 字段长度 | 数据存储的最大长度 | [200] |
操作元数据 | 更新频率 | 数据的更新频率 | 每年更新一次 |
操作元数据 | 管理部门 | 数据责任部门 | 客户管理部 |
操作元数据 | 管理责任人 | 数据责任部门 | 客户管理部业务员 |
04 数据中台元数据标准
以上我们回顾了数据中台和元数据的相关概念,接下来我们重点介绍下这份标准。
《数据中台 元数据规范》是由浙江省标准化研究院支撑、杭州玳数科技有限公司牵头起草的全国首个 《数据中台 元数据规范》团体标准正式批准发布,该标准作为我国数据中台领域第一个团体标准,填补了国内数据中台元数据的标准空白。
该标准通过了来自浙江大学、浙江省数字化与设计制造创新中心、阿里云等行业内专家评审,为推动数字行业标准化提供了样板,填补了我国数据中台元数据标准空白,也为困扰行业多年的“数据孤岛”问题找到了解决之道。该标准规定了数据中台元数据的元模型、描述方法、扩展要求、校验等,适用于数据中台的数据集编目、建库以及数据交换、数据集成等。本标准的发布和实施,将为有关企业、部门建设数据中台提供支撑,实现数据互联互通、资源协调,打破“数据孤岛”,充分发挥各类数据价值,助力浙江数字经济高质量发展。以下是这份标准的目录截图,文末附下载方式:
注:文中部分内容来自我的新书《一本书讲透数据治理》,机械工业出版社
1、微信扫描上边的二维码关注本公众号(谈数据)。
2、将该文章转发到您的朋友圈,发送截图到公众号后台。
3、在后台回复关键字“元数据规范”即可下载。
1、一文读懂元数据管理!
2、元数据管理在数据仓库的实践应用
3、关于元数据,全网最通俗易懂的文章!
4、数据中台为什么要建标签体系,分类它不香吗?
5、为什么说数据服务是数据中台的标配?
6、数据中台即服务——数据中台的四大支柱