其他
华为数据治理及数据分类管理实践
持续提升数据质量,减少纠错成本:通过数据质量度量与持续改进,确保数据真实反映业务,降低运营风险。 数据全流程贯通,提升业务运作效率:通过业务数字化、标准化,借助 IT 技术,实现业务上下游信息快速传递、共享。
业务可视,能够快速、准确决策:通过数据汇聚,实现业务状态透明可视,提供基于“事实”的决策支持依据。 人工智能,实现业务自动化:通过业务规则数字化、算法化,嵌入业务流,逐步替代人工判断。 数据创新,成为差异化竞争优势:基于数据的用户洞察, 发现新的市场机会点。
数据消费层:数据消费层包括所有消费数据的 IT 产品团队,负责提出数据集成需求和集成接口实施。
主数据服务实施层:负责主数据集成解决方案的落地, 包括数据服务的 IT 实施和数据服务的配置管理。 主数据服务设计层:为需要集成主数据的 IT 产品团队提供咨询和方案服务,负责受理主数据集成需求,制定主数据集成解决方案,维护主数据的通用数据模型。 管控层:管控层由信息架构专家组担任,负责主数据规则的制定与发布,以及主数据集成争议或例外的决策。
用于报表项数据生成的事实表、指标数据、维度。 用于报表项统计和计算的统计函数、趋势函数及报告规则。 用于报表和报告展示的序列关系数据。 用于报表项描述的主数据、基础数据、事务数据、观测数据。 用于对报告进行补充说明的非结构化数据。
每个事实表由颗粒度属性、维度属性、事务描述属性、度量属性组成; 事实表可以分为基于明细构建的事实表和基于明细做过汇聚的事实表。
维度的数据一般来源于基础数据和主数据; 维度的数据一般用于分析视角的分类; 维度的数据一般有层级关系,可以向下钻取和向上聚合形成新的维度。
通常反映某一维度下指标的聚合情况、离散情况等特征; 其计算数值在报告中通常呈现为图表中的参考线。
通常将当期值与历史某时点值进行比较; 调用时,需要收集指标的历史表现数据; 其计算数值在报告中通常呈现为图表中的趋势线。
将业务逻辑通过函数运算体现,通常一个规则包含多个运算和判断条件; 规则的计算结果一般不直接输出,需要基于计算结果翻译成业务语言后输出; 规则通常与参数表密切相关。 序列关系数据:反映报告中指标及其他数据序列关系的数据。
规则数据不可实例化; 规则数据包含判断条件和决策结果两部分信息,区别于描述事物分类信息的基础数据; 规则数据的结构在纵向(列)、横向(行)两个维度上相对稳定,变化形式多为内容刷新; 规则数据的变更对业务活动的影响是大范围的。
规则数据的管理是为了支撑业务规则的结构化、信息化、数字化,目标是实现规则的可配置、可视化、可追溯。 不同于标准化的信息架构管理,规则数据的管理具有轻量化、分级的特点。重要的、调用量大、变动频繁的业务规则需要通过规则数据管理,使其从代码中解耦,进行资产注册;使用广泛的、有分析需求的规则数据需要通过注册入湖,实现共享和复用。 业务规则在架构层次上与流程中的业务活动相关联,是业务活动的指导和依据,业务活动的结果通过该业务活动的相关业务对象的属性来记录。业务规则通过业务活动对业务事实、业务行为进行限制,业务人员可以根据业务规则判断业务情况,采取具体行动。 业务规则包含规则变量和变量之间的关系,规则数据主要描述规则的变量部分,是支撑业务规则的核心数据(如图 10 所示)。
基本特征类:参考都柏林十五个核心元数据,实现对非结构化数据对象的规范化定义,如标题、格式、来源等。 内容增强类:基于非结构化数据内容的上下文语境,解析目标文件对象的数据内容,加深对目标对象的客观理解,如标签、相似性检索、相似性连接等。
基本特征类元数据流
内容增强类元数据流
合规优先原则:遵从法律法规、采购合同、客户授权、公司信息安全与公司隐私保护政策等相关规定。 责任明确原则:所有引入的外部数据都要有明确的管理责任主体,承担数据引入方式、数据安全要求、数据隐私要求、数据共享范围、数据使用授权、数据质量监管、数据退出销毁等责任。 有效流动原则:使用方优先使用公司已有数据资产,避免重复采购、重复建设。 可审计、可追溯原则:控制访问权限,留存访问日志, 做到外部数据使用有记录、可审计、可追溯。 受控审批原则:在授权范围内,外部数据管理责任主体应合理审批使用方的数据获取要求。
业务元数据:用户访问数据时了解业务含义的途径,包括资产目录、Owner、数据密级等。 技术元数据:实施人员开发系统时使用的数据,包括物理模型的表与字段、ETL 规则、集成关系等。 操作元数据:数据处理日志及运营情况数据,包括调度频度、访问记录等。
数据消费侧:元数据能支持企业指标、报表的动态构建。 数据服务侧:元数据支持数据服务的统一管理和运营, 并实现利用元数据驱动 IT 敏捷开发。 数据主题侧:元数据统一管理分析模型,敏捷响应井喷式增长的数据分析需求,支持数据增值、数据变现。 数据湖侧:元数据能实现暗数据的透明化,增强数据活性,并能解决数据治理与 IT 落地脱节的问题。 数据源侧:元数据支撑业务管理规则有效落地,保障数据内容合格、合规。
产生元数据:制定元数据管理相关流程与规范的落地方案,在 IT 产品开发过程中实现业务元数据与技术元数据的连接。 采集元数据:通过统一的元模型从各类 IT 系统中自动采集元数据。 注册元数据:基于增量与存量两种场景,制定元数据注册方法,完成底座元数据注册工作。 运维元数据:打造公司元数据中心,管理元数据产生、采集、注册的全过程,实现元数据运维。 元数据管理方案:通过制定元数据标准、规范、平台与管控机制,建立企业级元数据管理体系,并推动其在公司各领域落地,支撑数据底座建设与数字化运营。
SQL 子查询的优化
Hadoop和Spark技术分享.ppt
数据指标体系建设方法
关注大数据学习与分享,获取更多技术干货