其他
浅谈OLAP系统核心技术点
01
谈储存
列存的数据组织形式
列存的数据组织形式
储存格式
存储索引
分布式存储
shard1 shard2
+---------------+ +---------------+
|uid| date | |uid| date |
+---------------+ +---------------+
| 1 | 2020-11-11| | 3 | 2020-11-13|
| 2 | 2020-11-12| | 4 | 2020-11-14|
+---------------+ +---------------+
shard1 shard2
+---------------+ +---------------+
|uid| date | |uid| date |
+---------------+ +---------------+
| 1 | 2020-11-11| | 2 | 2020-11-12|
| 3 | 2020-11-13| | 4 | 2020-11-14|
+---------------+ +---------------+
数据进一步分区
shard1 shard2
+---------------+ +---------------+
|uid| date | |uid| date |
+---------------+ +---------------+
| 1 | 2020-11-11| | 2 | 2020-11-12|
+---------------+ +---------------+
+---------------+ +---------------+
|uid| date | |uid| date |
+---------------+ +---------------+
| 3 | 2020-11-13| | 3 | 2020-11-14|
+---------------+ +---------------+
实时写入和 ACID
02
谈计算
查询步骤
SQL词法解析,语法解析;
形成抽象语法树 (AST);
校验检查;
AST转成关系代数表达式 (relational algebra);
根据关系代数表达式生成执行计划,先生成逻辑执行计划 (logical plan);
经过优化器生成最优的执行计划;
根据执行计划生成物理执行计划 (physical plan);
最终交由执行器执行并返回结果。
OLAP 数据建模分类
cache
/\
|
pre-computing -> computing -> post computing
计算引擎分类
MPP 架构
计算执行
常见算子实现
资源管理与调度
03
谈优化器
RBO
CBO
04
谈趋势
参考资料
关于作者
本文来源
往期推荐