数据治理中的数据标准的作用?
1、数据标准是什么?
数据标准,也称为标准化数据,是指基于共同的商定规则和约定,在数据元素的定义、格式、命名、表示、处理、存储和共享等方面达成的一致性和可互操作性的标准。数据标准化有助于提高数据的质量、可靠性和易用性,从而提高数据的价值和应用程度。
数据标准可以包括以下方面:
1. 数据元素定义:包括数据元素的名称、定义、表示、取值范围等。
2. 数据格式规范:规定数据在存储和传输中的格式、长度、校验等信息,确保数据在不同系统之间的可互操作性。
3. 数据项命名规则:为数据元素、表、字段、文件等命名,遵循统一的格式和规范,方便数据交换和使用。
4. 数据处理方式:规定数据采集、处理、存储、共享和保护的流程和方法。
5. 数据安全和隐私保护:规定数据的安全管理和保护机制,确保数据不被未经授权的访问、修改、破坏或泄露。
6. 数据共享和交换规范:规定数据的共享和交换的技术和标准,使数据能够在不同系统之间进行合法、正确和高效的交换。
7. 数据质量评估标准:规定衡量数据质量的指标和评估方法,对数据质量进行监控、分析和改进。
目前可以在产品里面固化的标准主要是数据元素的定义,数据格式规范,数据项命明规则。对应于标准的分类,可以分为,编码标准、命名标准,数据元标准、编码标准定义了一个字段枚举值的取值范围,命名标准,包含库名标准,表名标准,数据元标准包含数据元素的名称、定义、表示、取值范围、数据类型,精度等技术属性等。而数据存储处理的分层规范则在数据模型的规范设计中。
2、数据标准作用是什么?
数据标准的主要作用有以下几点:
1. 提高数据的一致性和可互操作性:数据标准化可以使数据在不同系统之间相互通信和共享,从而实现数据的一致性和互操作性。
2. 降低数据处理成本:数据标准可以通过规范化数据的格式、命名和处理方式,降低数据处理的复杂度和成本。
3. 提高数据的质量和可信度:数据标准可以对数据进行规范化,从而提高数据的质量和可信度,减少数据错误和偏差的发生。
4. 便于数据管理和维护:数据标准可以使数据的管理和维护更加简单和有效,可以快速识别和解决数据质量问题。
5. 支持业务和决策分析:数据标准可以为业务和决策提供准确和完整的数据支持,使其更加科学和准确。
6. 促进信息共享和交流:数据标准化可以促进信息在组织间的共享和交流,有利于知识和技术的传播和创新。 总之,数据标准化是数据管理和应用的基础,对提高数据价值和实现数字化转型非常重要。
3、数据标准如何应用于数据质量提升数据质量?
数据标准是提高数据质量的一项重要手段。以下是数据标准应用于数据质量提升的几个方面:
1. 数据入库前的标准化校验:在数据入库前,进行格式、数据类型、数据值域等方面的检查,确保数据符合标准化规范,在数据入库后减少数据质量问题的发生。
2. 数据编码方案的标准化:规定数据编码方案的标准化,如代码表、数据字典等,避免数据存储在多个表中,增加数据冗余和不完整。
3. 数据规模和单位的标准化:规定数据的规模和单位,统一使用数据规模和单位,以避免不同数据之间的大小和数量的误差。
4. 数据命名规范:规定数据元素、字段名、表名等命名规范,避免不同名称或缩写名称的混乱,易混淆或重复出现的情况。
5.数据建模的时候引用数据标准,讲数据标准提前到数据生成之前,从事后校验变成事前控制。
6. 数据进行监督标准化:建立数据监督机制,及时监测、发现和纠正数据的错误,保证数据的准确性和正确性。 总之,在数据标准的基础上,可以有效提升数据质量,减少数据质量问题的发生,为企业提供更准确、完整和一致的数据基础,为业务决策等提供支持和保障。
4、数据标准和元数据的关系?
数据标准和元数据密切相关,二者之间存在着紧密的联系和相互依存的关系,可以从以下几个方面来理解:
1. 数据标准明确了数据的定义,格式,命名,表示,处理,存储和共享等方面的规范,而元数据则记录了定义、格式、属性、结构和关系等元素,它是数据的描述信息和数据的数据。
2. 数据标准在数据管理和应用中扮演了规范化的作用,而元数据则扮演了描述数据的作用,帮助人们理解和使用数据。
3. 数据标准定义了数据的基本规则和范围,而元数据则记录了数据的实际信息和属性,可以帮助人们更好地理解数据的含义和价值。
4. 数据标准可以提高数据的一致性和可互操作性,而元数据则为数据的共享和交换提供了必要的信息和支持。
5. 数据标准和元数据的结合可以帮助人们更好地管理和应用数据,同时提高数据的质量和价值,有助于支持业务和决策分析。
总之,数据标准和元数据是相互依存和相互促进的关系,两者共同构成了数据管理和应用的基础。数据标准和元数据的规范化和管理,对于提高数据质量、加强数据管理和优化业务决策具有重要的意义。
5、常见的数据标准举例,数据标准跟数据库类型相关。
5.1 mysql 的数据标准:
1、【强制】表达是与否概念的字段,必须使用 is_xxx的方式命名,数据类型是 unsigned tinyint( 1表示是,0表示否)。
说明:任何字段如果为非负数,必须是 unsigned。
正例:表达逻辑删除的字段名 is_deleted,1表示删除,0表示未删除。
2、【强制】表名、字段名必须使用小写字母或数字,禁止出现数字开头,禁止两个下划线中间只出现数字。数据库字段名的修改代价很大,因为无法进行预发布,所以字段名称需要慎重考虑。
说明:MySQL在 Windows下不区分大小写,但在 Linux下默认是区分大小写。因此,数据库名、表名、字段名,都不允许出现任何大写字母,避免节外生枝。
正例:aliyun_admin,rdc_config,level3_name
反例:AliyunAdmin,rdcConfig,level_3_name
3、【强制】表名不使用复数名词。
说明:表名应该仅仅表示表里面的实体内容,不应该表示实体数量,对应于 DO类名也是单数形式,符合表达习惯。
4、【强制】禁用保留字,如 desc、range、match、delayed等,请参考 MySQL官方保留字。
5、【强制】主键索引名为 pk_字段名;唯一索引名为 uk_字段名;普通索引名则为 idx_字段名。
说明:pk_即 primary key;uk_即 unique key;idx_即 index的简称。
6、【强制】小数类型为 decimal,禁止使用 float和 double。
说明:float和 double在存储的时候,存在精度损失的问题,很可能在值的比较时,得到不正确的结果。如果存储的数据范围超过 decimal的范围,建议将数据拆成整数和小数分开存储。
7、【强制】如果存储的字符串长度几乎相等,使用 char定长字符串类型。
8、【强制】varchar是可变长字符串,不预先分配存储空间,长度不要超过 5000,如果存储长度大于此值,定义字段类型为 text,独立出来一张表,用主键来对应,避免影响其它字段索引效率。
9、【强制】表必备三字段:id,gmt_create,gmt_modified。
说明:其中 id必为主键,类型为 unsigned bigint、单表时自增、步长为 1。gmt_create, gmt_modified的类型均为 datetime类型,前者现在时表示主动创建,后者过去分词表示被动更新。
10、【推荐】表的命名最好是加上“业务名称_表的作用”。
正例:alipay_task / force_project / trade_config
11、【推荐】库名与应用名称尽量一致。
12、【推荐】如果修改字段含义或对字段表示的状态追加时,需要及时更新字段注释。
13、【推荐】字段允许适当冗余,以提高查询性能,但必须考虑数据一致。冗余字段应遵循:
1)不是频繁修改的字段。
2)不是 varchar超长字段,更不能是 text字段。
正例:商品类目名称使用频率高,字段长度短,名称基本一成不变,可在相关联的表中冗余存储类目名称,避免关联查询。
14、【推荐】单表行数超过 500万行或者单表容量超过 2GB,才推荐进行分库分表。
说明:如果预计三年后的数据量根本达不到这个级别,请不要在创建表时就分库分表。
5.2 hdfs 数据标准:
1、所有目录名、表名、字段名都全大写;
2、所有hive表都要建成外表;
3、所有建表COMMENT 后面跟的字符串是给表字段或者表内容添加注释说明的,虽然它对于表之间的计算没有影响,但是为了后期的维护,所以实际开发都是必须要加COMMENT的。
4、为保持兼容性,尽量少使用arrays, maps,structs,union等复合类型。
5、表的location关键字对应hdfs目录中不能有特殊字符(只能包含字母、数字;
6、日期类型字段由于格式多样,造成在信息加工处理过程中的格式转换复杂且易出错,因此对日期类型字段统一制定如下格式"yyyy-MM-dd"。时间类型格式为"yyyy-MM-dd hh:mm:ss",或用时间戳存储。
7、hadoop和hive都是用UTF-8编码的,所有导入文件字符必须是UTF-8格式。
8、原始数据表名命前缀ODS_、ETL 数据表名命前缀 ETL_、临时表 数据表名命前缀 TEM_,数据服务层数据表名命前缀 DM_.
9、数据划分与命名规范建议针对业务名称结合数据层次约定相关命名的英文缩写,这样可以给后续数据开发过程中,对项目空间、表、字段等命名做为重要参照。 按业务划分:命名时按主要的业务划分,以指导物理模型的划分原则、命名原则及使用的ODS project。例如,按业务定义英文缩写,***电商平台的英文缩写可以定义为“ODS_UA_”。按数据域划分:命名时按照CDM层的数据进行数据域划分,以便有效地对数据进行管理,以及指导数据表的命名。例如,“交易”数据的英文缩写可定义为“TRD”。按业务过程划分:当一个数据域由多个业务过程组成时,命名时可以按业务流程划分。业务过程是从数据分析角度看客观存在的或者抽象的业务行为动作。