浅谈数仓模型
背景
数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。
数仓架构的原则:
1、底层业务的数据驱动为导向同时结合业务需求驱动
2、便于数据分析
屏蔽底层复杂业务
简单、完整、集成的将数据暴露给分析层
3、底层业务变动与上层需求变动对模型冲击最小化
业务系统变化影响削弱在基础数据层(资金订单改造)
结合自上而下的建设方法削弱需求变动对模型的影响
数据水平层次清晰化
3、高内聚松耦合
主题之内或各个完整意义的系统内数据的高内聚
主题之间或各个完整意义的系统间数据的松耦合
4、构建仓库基础数据层
使得底层业务数据整合工作与上层应用开发工作相隔离,为仓库大规模开发奠定基础
仓库层次更加清晰,对外暴露数据更加统一
数仓模型不只是考虑如何设计和实现功能,设计原则应该从访问性能、数据成本、使用成本、数据质量、扩展性来考虑。
如何搭建一个好的数据仓库:
数仓设计的3个维度:
当前主流建模方法为:ER模型、维度模型。
1、ER模型常用于OLTP数据库建模,应用到构建数仓时更偏重数据整合, 站在企业整体考虑,将各个系统的数据按相似性一致性、合并处理,为数据分析、决策服务,但并不便于直接用来支持分析。缺陷:需要全面梳理企业所有的业务和数据流,周期长,人员要求高。
2、维度建模是面向分析场景而生,针对分析场景构建数仓模型;重点关注快速、灵活的解决分析需求,同时能够提供大规模数据的快速响应性能。针对性强,主要应用于数据仓库构建和OLAP引擎低层数据模型。优点:不需要完整的梳理企业业务流程和数据,实施周期根据主题边界而定,容易快速实现demo,而且相对来说便于理解、提高查询性能、对称并易扩展。
作为大数据板块,数据来源更加广泛,针对的业务域也更加宽广,所以维度建模相对来说更加灵活并适用。
在讨论维度建模之前,关注数仓和BI的基本目标是非常有意义的,在做日常的数据需求的时候,经常会遇到如下几个痛点:
收集了海量数据,不知道如何去做ETL;
不同来源的数据该如何去聚合;
如何方便业务人员快速方便的获取数据;
如何定义重要的数据指标;
如何确保数据准确性;
数据如何支持决策;
基于上面的痛点,就需要搭建一套DW/BI系统(当然现在市面上有很多类似的产品,例如:如:QuickBI、GrowingIO、神策、猛犸等等),但是对于公司而言,适合自己的才是最好的,大部分公司选择自己搭建或者利用开源的软件(例如MateBase),这个系统必须满足:
DW/BI系统能够方便的存储信息(或者说能跟现在主流的数据库打通)。也就是说系统展现的内容必须是容易理解的,对于业务人员必须直观而且好操作,数据结构和标示必须符合业务思维过程和词汇,用户能够以各种形式切割和分析数据,同时能够快速的将查询结果反馈。 DW/BI系统必须以一致性的形式展现信息(指标的唯一性)。也就是说数据必须是可信的,同一指标定义在不同的数据源中,所含的意义必须相同,既同名同意性。 DW/BI系统能够适应变化(模块的低耦合)。当用户需求、业务维度需要调整的调整的时候,设计的DW模型必须能够兼容这些变化,已经存在数据和指标不应该被破坏或修改,就算一些指标的调整,也要以适当的方式描述变化,并对用户完全透明。 DW/BI系统必须保证数据安全(数据安全)。能展示的数据必须是统计的结果数据,一些详单展现和下载必须和平台的权限系统挂钩,避免数据泄漏。 DW/BI系统成功的标示是业务群体接收并使用,而且必须配套一个展现模块的监控系统,能够让产品方知道各个模块的使用情况,对一些访问量比较少的模块可以适当的调整和优化。
介绍
业务过程是通常表示的是业务执行的活动,与之相关的维度描述和每个业务过程事件关联的描述性环境。 通常由某个操作型系统支持,例如:订单系统。 业务过程建立或获取关键性能度量。 一系列过程产生一系列事实表。
粒度传递的是与事实表度量有关的细节级别。 精确定义某个事实表的每一行表示什么。 对事实表的粒度要达成共识。
健壮的维度集合来粉饰事实表。 维度表示承担每个度量环境中所有可能的单值描述符。
不同粒度的事实必须放在不同的事实表中。 事实表的设计完全依赖物理活动,不受最终报表的影响。 事实表通过外健关联与之相关的维度。 查询操作主要是基于事实表开展计算和聚合。
星型模型:每一个维表都与都与事实表相关联。数据冗余量较大
雪花模型:有些维表可能不与事实表直接关联,而是通过其他维表关联到事实表。数据冗余量较小
星座模型:由多个事实表相组合,维表是公共的。企业中一般都是星座模型
维度表的唯一主键应该是代理健而不是来自系统的标示符,也就是所谓的自然健,因为自然键通常具有一定的业务含义,但日久天长,这些信息是有可能发生变化的,而代理健可以提高关联效率并将关系数据库设计和业务的解耦。 维度表和事实表关联的每个连接应该基于无含义的整数代理健。 固定深度层次在维度表中应该扁平化,规范化的雪花模型不利于多属性浏览,而且大量的表和连接操作会影响性能。 非完全独立的维度应该合并为一个维度,将同一层次的元素标示为事实表中不同维度是错误的,会增加查询和存储负担,最后变成蜈蚣表,例如:日维度、周维度、月维度等可以合并为一个周期维度。
案例
DWD:事实表(data warehouse detail) 数据仓库明细表,以业务过程作为建模驱动,基于每个具体的业务过程特点,构建最细粒度的明细层事实表。 DWS:事实表 (data warehouse summary) 数据仓库轻度汇总层,按照各个业务域进行轻度汇总成分析某一个主题域的服务数据,一般是宽表。 DIM:维度表,公共维度层,基于维度建模理念思想,建立整个业务过程的一致性维度,主要使用 MySQL、Hbase、Redis 三种存储引擎,对于维表数据比较少的情况可以使用 MySQL,对于单条数据大小比较小,查询 QPS 比较高的情况,可以使用 Redis 存储,降低机器内存资源占用,对于数据量比较大,对维表数据变化不是特别敏感的场景,可以使用HBase 存储。
轻度汇总层以宽表的形式存在,主要是针对业务域进行快速方便的查询; 高度汇总层由明细数据层或轻度汇总层通过聚合计算后写入到存储引擎中,产出一部分实时数据指标需求,灵活性比较差,主要做大屏展现。
端到端数据延迟、数据流量的监控; 故障的快速恢复能力; 数据的回溯处理,系统支持消费指定时间段内的数据; 实时数据从实时数仓中查询,T+1数据借助离线通道修正; 业务数据质量的实时监控;
首先,在技术上几乎没有难点,基于强大的开源中间件(例如:Flink、kudu等)实现实时数据仓库的需求已经变得没有那么困难。
其次,实时数仓的建设一定是伴随着业务的发展而发展,武断的认为实时数仓架构最符合当前公司的需求是不对的。实际情况中随着业务的发展数仓的架构变得没有那么非此即彼。
最后,如何顺畅的将传统的离线数仓+实时链路处理流程升级到实时数仓架构是个很大的问题,毕竟中间涉及到很多的数据模式、技术中间件、计算引擎都不太一样。
问题
维度建模之前需要进行大量的数据预处理,因此会导致大量的数据处理工作(ETL)。 当业务发生变化,需要重新进行维度的定义时,往往需要重新进行维度数据的预处理。而在这些与处理过程中,往往会导致大量的数据冗余。 如果只是依靠单纯的维度建模,不能保证数据来源的一致性和准确性,而且在数据仓库的底层,不是特别适用于维度建模的方法。
通过设置指标的组成要素来唯一精确定义每个指标(派生指标)。 通过指标在业务域内唯一的性质,解决指标重复定义,重复开发,部分数据对不上的问题。 通过将数仓中间层录入指标库为新制作指标提供指导性的 SQL 或库表推荐。 打通其他各数据平台: 打通数据开发平台和统一数据服务平台,为指标的定义,调度,在线使用提供一条龙服务,简化开发流程。 打通数据资产管理平台,沉淀指标的资产价值。 打通 BI 平台,提供拖拽维度,指标生成报表的功能。