所谓数据模型
ODS:
Operational Data Store,操作数据层,在结构上其与源系统的增量或者全量数据基本保持 一致。
它相当于一个数据准备区,同时又承担着基础数据的记录以及历史变化。其主要作用是把基础数据引入到MaxCompute。CDM:
Common Data Model,公共维度模型层,又细分为DWD和DWS。
它的主要作用是完成数据加工与整合、建立一致性的维度、构建可复用的面向分析和统计的明细事实表以及汇总公共粒度的指标。DWD:
Data Warehouse Detail,明细数据层。DWS:
Data Warehouse Summary,汇总数据层。ADS:
Application Data Service,应用数据层。
公共维度层:
基于维度建模理念思想,建立整个企业的一致性维度。明细粒度事实层:
以业务过程为建模驱动,基于每个具体业务过程的特点,构建最细粒度的明细层事实表。
您可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当的冗余,即宽表化处理。公共汇总粒度事实层:
以分析的主题对象为建模驱动,基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实表,以宽表化手段来物理化模型。
按业务划分:
命名时按主要的业务划分,以指导物理模型的划分原则、命名原则及使用的ODS project。
例如,按业务定义英文缩写,阿里的“淘宝”英文缩写可以定义为“tb”。按数据域划分:
命名时按照CDM层的数据进行数据域划分,以便有效地对数据进行管理,以及指导数据表的命名。
例如,“交易”数据的英文缩写可定义为“trd”。按业务过程划分:
当一个数据域由多个业务过程组成时,命名时可以按业务流程划分。
业务过程是从数据分析角度看客观存在的或者抽象的业务行为动作。
例如,交易数据域中的“退款”这个业务过程的英文缩写可约定命名为“rfd_ent”。
数据模型的作用
模型设计的基本原则
高内聚和低耦合
核心模型与扩展模型分离
公共处理逻辑下沉及单一
成本与性能平衡
数据可回滚
一致性
命名清晰可理解
一个模型无法满足所有的需求。
需合理选择数据模型的建模方式。
通常,设计顺序依次为:概念模型->逻辑模型->物理模型。
业务和管理决定上限,技术决定下限
背景调查时在调查些什么?
【大数据技术与架构】2021年大数据面试进阶系列系统总结