查看原文
其他

数据治理体系之三-数据标准

ruby ruby的数据漫谈
2024-09-27


‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

数据治理系统另外一个重要的内容是形成数据标准体系,很多最近进入到数据行业的人对于理解数据标准是什么,数据标准的作用,数据标准如何使用,本文从以上几个问题介绍数据标准的作用。


01

数据标准的作用


建立数据标准体系的目标是通过制定和发布统一的数据标准,结合制度约束和系统控制等措施,实现企业内部数据管理的完整性、有效性、一致性、规范性、开放性和共享性,从而为数据治理工作奠定坚实的基础,并为数据资产管理活动提供规范有效的依据。

数据标准化的过程借助数据管理平台,通过对各个系统生成的数据进行清洗、转换,并加载到整合平台的数据模型中,从而实现数据标准化。

首先,通过要求数据语义遵循确定的规则,减少源数据的不确定性,降低数据交换的障碍。

其次,数据标准的兼容性为企业间的相互共享提供可能,使得在不同的场景和环境中使用数据产品或服务成为可能,使数据产品或服务能够正常流转和运行。

最后,数据标准是数据质量规则的基础,通过创建了数据标准之后,在创建质量规则的时间进行数据标准的引用和映射。‍‍‍‍‍‍

建立数据标准体系能够有效提升企业数据治理的效率,降低数据治理成本。‍


02


数据标准是什么?‍‍‍‍‍‍‍‍‍‍


数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束,通常可分为基础类数据标准和指标类数据标准。基础类数据标准一般包括参考数据和主数据标准、逻辑数据模型标准、物理数据模型标准、元数据标准、公共代码和编码标准等。指标类数据标准一般分为基础指标标准和计算指标(又称组合指标)标准。基础指标一般不含维度信息,且具有特定业务和经济含义,计算指标通常由两个以上基础指标计算得出。数据标准一般包含3个要素:标准分类、标准信息项(标准内容)和相关公共代码和编码(如国标、行标等)。其中标准分类指按照不同的特点或性质区分数据概念;信息项是对标准对象的特点、性质等的描述集合;公共代码指某一标准所涉及对象属性的编码。下面详细介绍一下两种类型的数据标准具体抽象实现方式。数据标准可以分为编码标准、命名标准和数据元标准三种类型,这三种类型即可以完成基础类数据标准的所有覆盖数据类型范围。编码标准是一种规范或准则,用于定义和规定特定领域内的数据或信息的表达方式。它是为了确保不同系统、设备或应用程序之间能够正确地交换和解读数据而制定的一套统一的规则和约定。编码标准可以包括字符集、编码方案、数据格式、通信协议等内容,其目的是确保数据的一致性、可读性和可解析性。通过遵循编码标准,可以提高数据交互的效率和准确性,减少因数据格式不一致而引起的问题和错误。‍‍编码标准的数据一般包括参考数据或者自定义标准,参考数据主要包含中国国家标准代码和行业标准数据,国家标准代码,简称国标码,亦被新加坡采用。国家标准强制标准冠以“GB”。推荐标准冠以“GB/T”。例如:‍‍‍GB/T 2260-1999//中华人民共和国行政区划代码GB/T 2659-2000/EQV ISO 3166-1:1997/世界各国和地区名称代码GB/T 4880-91/EQV ISO 639:1988/语种名称代码GB/T 16831-1997/IDT ISO 6709:1983/地理点位置的纬度、经度和高程的标准表示法等等,收集这些数据之后,入库,作为统一的编码标准,可以给到平台内部使用。例如世界各国和地区名称代码。‍‍
序号中文简称英文简称编码
1阿富汗AFGHANISTANAF
2
阿而巴尼亚ALBANIAAL
3,,,,,,,,,,,,,,
命名标准,主要包含库名称标准、表名称标准、字段名称标准,而字段名称标准一般是在数据元标准。库名称标准和表名称标准,为后期识别表建立好的基础例如数据仓库中的表命名规范:1、常规表:分层前缀[dwd|dws|dwm|ads]_部门_业务域_主题域_XXX_更新周期|数据范围2、中间mid_table_name_[0~9|dim]3、临时表:tmp_xxx4、纬度表:dim_xxx5、规范:dwd_业务域_manual_xxx数据元标准是指每个字段的标准,这时是包含业务属性和技术属性,通过详细的定义业务属性和技术属性,规范到表的创建和建模。在说明数据元标准之前,先说明一下数据元,数据元是指在信息系统中表示数据元素的最小单位,也可以称之为数据项或数据字段。数据元通常由一个名称和定义组成,用于描述和标识数据的含义和特征。数据元可以是数字、字符、日期、布尔值等不同类型的数据,也可以是复杂的结构化数据对象。通过数据元标准中的标准填写,完成每个数据元对应的业务属性和技术属性的定义,后期通过引用数据标准作为稽核规则的标准,形成质量规则。‍‍‍‍‍


指标类型的数据标准主要是指的是指标名称的命名规范,通过统一的命名规范,让指标名称得到统一命名,每个指标有唯一性解释。指标的命名规范结合指标的特性以及词根管理规范,将指标进行结构化处理。

1. 基础指标词根,即所有指标必须包含以下基础词根:

2. 业务修饰词,用于描述业务场景的词汇,例如trade-交易


3. 日期修饰词,用于修饰业务发生的时间区间

4. 聚合修饰词,对结果进行聚集操作


指标类型的分为基础指标、复合指标、派生指标、以及衍生指标。

基础指标,单一的业务修饰词+基础指标词根构建基础指标 ,例如:交易数量-trade_cnt。

复合指标:单一的业务修饰词+聚合修饰词+基础指标,如平均用户交易额usr_avg_tr_amt等。

派生指标,多修饰词+基础指标词根或者复合指标构建派生指标。派生指标继承基础指标的特性,例如:安装门店数量-install_poi_cnt。衍生指标,基于原子指标做二次多元计算的表达式。例如原子指标A和B,可以定义衍生原子指标C=A/B。这种指标不做标准定义。


03

数据标准如何使用


数据标准的使用可以分为三种用途‍‍1、作为数据共享的标准,业务系统在模型创建的时候进行引用标准。2、作为数据仓库模型设计的使用标准,数据仓库模型设计进行物理模型创建的时候引用标准。数据模型设计分为普通表设计和指标表模型设计,此时需要使用的是普通数据标准和指标标准。‍‍‍‍‍‍‍‍‍‍‍‍‍3、作为质量规则进行标准引用,在创建质量规则的时候也是需要分为普通数据的质量规则和指标的质量规则两个部分进行创建。‍‍‍‍‍‍
以数据加工流程来说明数据标准使用的过程:‍‍‍‍‍‍‍‍‍


1、数据建模     根据数据中台规范和标准,开展业务模型、数据模型的设计和管理,使开发落地与设计能更严谨的有机结合。2、指标体系     遵循指标体系的方法,定义各类业务指标(原子指标、派生指标等),明确的以业务需求为导向,同时也生成数据的语义定义,为数据的业务元数据提供基础。3、质量规范     在设计阶段对数据的一致性、准确性、完整性等制定规范要求,以便数据集成、加工过程中有明确的质量要求。


欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,获取最新的行业信息




往期历史热门文章:

基于DataOps的数据开发治理:实现数据流程的自动化和规范化

数据平台:湖仓一体、流批一体、存算分离的核心问题及原因解析

数据治理体系该怎么建设?

实时数仓&流批一体技术发展趋势

数据仓库、数据中台、大数据平台的关系?

数字化转型如何促进业务的发展

数据中台中的核心概念解析

数据治理中的数据标准的作用?

全面数字化转型:打造全新营销模式





继续滑动看下一个
ruby的数据漫谈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存