其他
数仓架构之数仓分层
关注回复:Flink, 领取资料!
“ 关于喜马拉雅首席数仓架构师-杰尼在长沙的往事 ”
首先应该说明的是,关于数仓如何分层的范畴,并没有统一的标准,具体分层应该视系统技术要求做规范。
01
—
ODS-操作数据层
抽取、清洗、加载这一过程,往往还匹配着一个岗位,ETL工程师。由于源数据存在例如不具有分析处理价值的脏数据和其他异常数据,所以在进行ETL的过程中,会进行必要的清洗、去重等过程,这样接入到ODS层的数据具有一定的规范性,为后续分层处理作为支撑。
文章太干货,注水防上火
02
—
DW-数据仓库层
Data Warehouse Detail DWD一般保持和ODS层一样的数据粒度,并且提供给一定的数据质量保证。同时,为了提高数据明细层的易用性,DWD层会采用一些维度退化手法,将维度退化到事实表中,减少事实表和维度表的关联。此外,在该层也会做一部分的数据聚合,将相同主题的数据汇集到一张表中形成宽表,提高数据的可用性。 可能这部分不是特别容易理解,但是基本上就是退化和聚合两个要点。
Data WareHouse Middle
在DWD层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表提升公共指标的复用性,减少重复加工,直观来说,就是对通用的核心维度进行聚合操作,算出相应的统计指标。
Data WareHouse Service
又称为数据集市或者宽表,按照业务划分,例如流量,订单,用户等,生成字段比较多的宽表,用于后续的业务查询,OLAP分析,数据分析等。
03
—
数据应用层-APP
应用层是根据业务需要,由前面三层数据统计而出的结果,可以直接提供查询展现,或导入至数据库中使用。
- END -
点个关注,一起进步↓
干货推荐
大批量更新数据mysql批量更新的四种方法
深入理解HBase Memstore
数据分析指标篇——指标解读
博主微信(空空|渣渣空)