其他
政务数据治理与数据质量管理
一、数据采集汇聚流程
数据需求调研:根据建设目标及要求,与数据使用方进行数据需求的对接,明确目标数据建设范围和要求,由数据使用方提出数据需求清单,详细到信息项或维度值级别,对于需要进行二次加工的指标或信息项,明确业务规则和口径,同时,应明确目标数据所需遵循的标准及质量要求。 数据现状调研:根据数据使用方的数据需求,与外部数据提供方进行数据资源现状的对接,获取提供方的数据资源目录清单、数据字典说明(包括中文名称、字段类型、长度、单位、取值约束及代码表等)、样例数据,明确数据接入的方式、数据来源部门、数据安全等级等相关信息, 对用户明确的数据需求了解其来源,有计划地进行沟通并协调数据(样例数据)。
1、数据落标管控
库表交换:部门或系统之间通过中间数据库(前置库)进行结构化数据的抽取、转换和加载,如oracle、mysql、mpp、hive等。
文件交换:部门或系统之间通过共享文件夹(前置库)进行非结构化数据的共享交换,如txt、word、pdf等文件。文件交换过程中一般需要采用断点续传技术来提高数据交换速度。
服务接口:部门或系统之间通过API接口服务的方式进行服务接口的对接,如webservice、微服务等服务接口。
日志同步:业务数据库无法通过前置库采集,且需要实时采集的情况下,可以通过解析数据库日志的方式,实现数据库的增量数据捕获。该方式不需要在数据库中创建任何的触发器、临时表等对象。
消息队列:数据应用端对数据源有较高实时性要求的情况下,可以采用消息队列传输通道,由源端系统将采集的数据先存入高吞吐量的消息传输通道中, 如Kafka消息队列,可供应用端的业务实时消费。
可以提供给所有公民、法人和其他组织使用的公共数据属于无条件开放类。 可以部分提供或者需要按照特定条件提供给公民、法人和其他组织的公共数据属于有条件开放类。 涉及国家秘密、商业秘密、个人隐私和国家安全,以及其他不宜提供给公民、法人和其他组织的公共数据属于不予开放类。
数据字段描述:包括数据记录数、唯一记录数、唯一率、重复记录数、重复率、缺失记录数、缺失率、零值记录数、零值率、最大列长度、最小列长度、平均列长度等指标。 数据表描述:包括数据字段数、数据记录数、总存储空间大小、缺失数据元素数、包含缺失值的字段数、全部缺失的字段数、重复记录数、重复率等指标。 数据集描述:包括数据表数、数据字段数、数据记录数、总存储空间大小、数据表平均存储空间大小、缺失数据元素数、包含缺失值的字段数、全部缺失的字段数等指标。
数据字段的元数据信息探查包括:分析数据字段的命名及命名规则;分析数据字段的属性信息,包括数据类型、数据长度、精度等;分析数据字段值的变量类型;分析数据字段的数据类型;分析数据字段的数据元表示;分析数据字段的真实值是否符合定义的数据类型。 数据值分布探查包括:分析数据表中的主键是否唯一;分析数据字段的值是否满足指定阈值,分析数据字段值的统计量;分析各个维度值在总体数据中的分布情况;分析数据字段中是否包含缺失数据;分析数据字段中是否包含约定的异常数据;分析数据字段中是否包含特定的字符。 数据字段表示形式探查包括:从业务角度规定数据项值的格式要求,包括数据值的类型,允许的最大和最小字符长度,数据项值的表示格式等;分析编号类的数据字段是否符合特定的编码规范;分析枚举类的数据字段的唯一值列表是否符合特定的代码规范;分析名称类的数据字段是否符合特定的规则;分析日期时间类的数据字段是否符合特定的规则;分析数字类数据字段是否符合特定的规则;分析文本类数据字段是否符合特定的规则。 数据表探查包括:分析表中的外键是否都能在关联表中找到;分析数据字段之间,或数据表之间是否满足指定的业务规则;分析业务时间和更新时间,分析数据表中数据接入和更新的规则;分析数据表是否满足业务需求。
按照数据组织的单元,数据标准主要包括数据元标准和数据集标准,数据元包括基础类数据元和指标类数据元。 按照对数据具体特性的描述,数据标准还包括业务术语标准、代码标准、编码标准。
1、数据质量评价指标体系设计
评价对象:包括部门、数据集或数据表。 评价维度:参考GB∕T 36344-2018《信息技术 数据质量评价指标》,可划分为规范性、完整性、准确性、一致性、时效性、可访问性。 指标计算方法:一般按占比或按是否满足条件设置固定的分值。 权重设计:根据业务影响分析确定的数据重要性级别,设置相应的权重。 评价结果的表示:定量或定性的评价。
常见的技术规则包括:空值、重复、格式(如编号规则、异常字符等)、值域(数值值域、字符值域、日期值域)、参照完整性(待检数据是否全部包含在参照数据列中)、波动性(不同期指标数据的波动)、逻辑一致性(不同列之间的逻辑关系、明细记录汇总和汇总表一致性)等。实践过程中一般通过规则引擎实现技术规则的封装。 业务规则是技术规则的具体实例化结果和组合。例如:针对某一数据表中的公民身份号码设置的公民身份号码检查规则可由:空值、重复、格式检查3种技术规则组合而成。
(本文摘自《政务数据开发利用研究报告》)
<END>
1、6000字详解数据中台架构体系
2、政务数据分类管理和数据资产目录管理思路3、华为数字化转型:从战略到执行(PPT)4、企业IT数据架构规划方案(PPT)5、数据标签的分类、设计及实现方法6、9000字详解企业大数据项目规划落地实施路线图7
9、8000字详解银行业数据治理架构体系搭建10、中国农业银行数据指标体系建设与运营实战11、企业数据资产盘点原则与方法12、
数据学堂