查看原文
其他

实践指南:数据标准在数据治理中的落地实现

ruby ruby的数据漫谈
2024-09-27
摘要:之前写过一篇数据标准的文章,《数据治理体系之三-数据标准》这篇文章主要是介绍了数据标准是什么,以及主要作用,且相关的数据标准的内容不太全面,本文将从以下三个方面介绍数据标准如何在数据治理中落地实践,且如何应用到数据平台中。


  • 如何制定数据标准?‍‍‍‍‍‍‍‍‍‍‍

  • 数据标准的生命周期管理‍‍‍‍‍‍‍

  • 数据标准如何落地实践?‍‍‍‍‍‍‍



01

如何制定数据标准?‍‍


根据信通院发布的《数据标准管理实践白皮书》定义:数据标准(Data Standards)是指保障数据的内外部使用和交换的一致性和准确性的规范性约束。
但是对于我们在数据中台或者数据平台中,数据标准是将这一定义扩展了,从狭义的数据标准(指对基础数据本身的规范性约束,如数据格式、类型、值域等)扩充到整个数据中台层面的标准(包含治理各阶段的规范性约束)。

主要包含数据项标准、技术标准,其中数据项标准包括:数据元标准、编码标准、词根标准、数据项分类标准。技术标准分为:数据映射标准、DDL模版标准。‍‍

数据元标准:数据元标准简单理解是数据字段的标准,一般可以分为业务属性、技术属性、管理属性、操作属性。不同行业,不同企业可能参考的标准不同,而对数据元的标准分类不同。‍‍

编码标准:可以参考《数据治理体系之三-数据标准》的定义。

词根标准:词根在数据治理中的应用和管理方法非常重要。它们可以用于标准化和统一命名,尤其是用于字段命名或其他资产的命名。企业可以根据自身的需求和积累,收集和整理词根,建立自己的词根库。当制定数据元或字典时,可以根据输入的中文名称,通过词根库自动翻译成英文名称。

一个完整的词根信息包括英文简称、英文全称和中文全称三个部分。中文全称可以支持多个,这样可以确保在使用词根翻译时,具有相同含义的字段能够得到相同的英文简称。为了方便统一管理,还需要对词根进行编码和指定词根的来源。这样可以确保词根信息的完整性。

数据项分类标准:在数据治理中,数据项分类类似于数据目录,其目的是满足不同场景下对不同对象的分类需求。数据项分类是对字段级别进行分类。

在制定数据项分类方案时,需要分析用户的需求场景,为用户提供不同的分类方案。例如,从管理角度可以按照描述对象、来源文件进行划分;从业务使用的角度,可以分为不同的主题域,从数据安全角度可以按照敏感级别、安全级别进行划分等。同时,分类方案应支持用户在后期的管理过程中进行自定义扩充。
在实际应用中,可以将具体的分类值关联到数据元,再由数据元关联字段,以实现快速分类的目的。通过建立完善的数据项分类方案和关联机制,可以提高数据管理的效率和准确性。
数据映射标准:在数据同步的过程中,可能存在的数据源和目标源的数据库或者存储类型不同,所以在数据同步的过程中需要强制定义不同的数据映射标准,主要记录不同数据源间数据类型的映射关系,便于在数据传输、分发等场景下快速建表,提升数据传输任务的配置效率。
例如:‍‍‍‍

DDL模版标准:主要管理不同数据源的DDL语句模板,包含新增、删除、更新等,协助数据开发人员选择对应数据库节点时快速根据模板生成语
句。

而大家在制定不同的数据标准的时候,需要根据不同的行业和企业参考相关的国家、行业标准,例如:

或者是:

大家在规划标准的过程中,可以去收集这些国家或者行业标准,从全局到局部,逐步去完善标准,标准的制定不是一蹴而就的,而是一个逐渐完善的过程。



02

数据标准的生命周期管理


数据标准的建立可以帮助组织确保数据的一致性、准确性和可信度。以下是数据标准的常见步骤,可以作为组织进行数据标准化的指南。数据标准的建立一般是6个步骤:

1、数据标准规划

标准的规划首先需对企业业务和数据进行调研和分析,结合实际的数据标准需求,明确数据标准的范围。并确定与数据标准相关的利益相关者。同时,也应该明确数据标准的基本原则和准则,以确保数据标准的一致性和适应性。

2、数据标准制定

在这一阶段,组织需要定义和制定数据标准的具体要求和规范。也可以参考相关的国家标准和行业标准来制定具体的要求,这可以包括数据格式、数据命名约定、数据定义和分类、数据质量规则等等。制定数据标准应该通过与利益相关者的沟通和合作来确保其适应和可执行性。


3、数据标准发布

在这一阶段,将制定文档化的数据标准,落地到数据标准产品模块中,可以在数据中台或者数据平台中发布数据标准,通过审核之后发布。

4、数据标准执行

数据标准的执行,对于在数据中台或者数据平台中落地实践主要包含如下几个方面:元模型的定义、数据资产分类、数据质量的质量规则的建立、数据安全分类的依据项、模型设计对数据标准的引用、数据传输过程中对数据映射标准的引用。数据开发中对DDL模型标准的引用。

‍‍

5、数据标准检查

数据标准执行后,需要进行落标检查,确认标准执行的情况以及效果。可建立相关指标,从标准侧进行标准的引用统计、标准化率统计,从质量侧统计表及字段质量评分,多角度去判断指标执行情况及应用效果。

6、数据标准维护
在标准的执行过程中,如果发现标准和实际使用存在一定的分歧,则需要对标准进行修改,修改后重新发布。修订要严格按照生命周期流转要求,记录版本变化,评估变更影响,在进行重新发布生效。



03

数据标准如何落地实践?


从数据开发的整个流程来介绍数据标准的落地实践,数据开发流程分为需求阶段、设计阶段、开发阶段和治理阶段。


当需求调研完成之后,了解了整体的数据需求,此时通过数据需求调研的结果,以及需求,完成标准的设计,此时标准设计是需要参考国家和行业标准规范,然后将标准设计完成行程数据中台中具体可以执行的内容,包含:元模型、词根、数据元、数据字典、数据项分类、标准映射、DDL模型。


1、通过标准的设计,完成指标的设计,包含例如,通过数据项分类,完成主题域分类,通过数据元定义指标的计算公式、通过元模型指导指标元模型的设计等。


2、通过标准的设计,完成模型的设计、模型设计需要引用元模型,根据词根定义字段和表的命名规范,添加数据元,完成表的字段定义,通过引用数据字典,完成字段的取值范围的定义,通过数据项分类,完成主题域和数据安全的分类分级,通过标准映射完成模型创建的字段类型的定义。‍‍‍


3、在数据同步的过程中引用标准映射可以快速建表。在建立传输任务时,可根据映射关系快速生成目标表结构,达到快速建表、一键建表的能力。


4、在数据开发中,通过引用DDL标准,规范开发过程中的建表。SQL编辑时根据选择的输入输出表,通过表字段关联的数据元信息,将相同含义的字段自动进行映射,快速生成SQL,用户只需对生成的SQL进行确认即可。


5、在数据治理的过程中,数据标准是数据质量稽核规则的主要参考依据,通过将数据质量稽核规则与数据标准关联,一方面可以实现字段级的数据质量校验,另一方面也可以直接构建较为通用的数据质量稽核规则体系,确保规则的全面性和可用性。


数据标准在数据处理过程中的实践过程非常关键。数据标准的建设和管理是一项艰巨的任务,特别是随着数据开发应用场景不断扩展,数据标准也需要逐步丰富起来,从个别点逐渐扩展到整体。随着管理内容的不断丰富和管理流程的不断完善,数据标准将成为数据中台的基石,为各个模块和流程阶段提供规范性指导和监督。

‍‍‍‍



欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,商务合作加微信备注商务合作,AIGC应用开发交流入群备注AIGC应用




往期数据平台历史热门文章:

基于DataOps的数据开发治理:实现数据流程的自动化和规范化

数据平台:湖仓一体、流批一体、存算分离的核心问题及原因解析

数据治理体系该怎么建设?

实时数仓&流批一体技术发展趋势

数据仓库、数据中台、大数据平台的关系?

数字化转型如何促进业务的发展

数据中台中的核心概念解析

数据治理中的数据标准的作用?

全面数字化转型:打造全新营销模式

一图展示数据中台的数据流图

揭秘数据治理系统的数据流程图

往期AIGC历史热门文章:

AIGC系列之一-一文理解什么是Embedding嵌入技术

十大AIGC文生视频产品介绍

九大最热门的开源AI Agent框架

AutoGen零代码构建⾃⼰的智能助理


继续滑动看下一个
ruby的数据漫谈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存