大数据生态0-1全景图谱.xmind

Original 空空数据仓库与Python大数据 2022-08-17

大数据生态

数据平台

技术选型

Apache
CDH
HDP （已合并）
阿里云
其他

大数据运维

Linux
源码原理
搭建部署

rebalancer
原理
架构
集群搭建
JournalNode
DFSZKFailoverController
QuorumPeerMain
原生方式
Cloudera Manager（cdh）
Ambari（hdp）
管理工具
集群规划
高可用 ha
动态新增/删除节点
进程

集群迁移
性能调优
数据安全

Kerberos安全认证

数据仓库

数仓架构

基础架构

Kimball、Inmon
数仓是一种规范
数仓是一种思想
解决方案
元数据管理
数据质量
数据安全
生命周期
数据模型、数据字典
血缘关系 DAG
技术元数据、业务元数据
权限
命名规范
开发规范
流程规范
设计规范
总线矩阵
主题域/数据域
业务调研
需求调研
数据调研
概念模型 CDM
逻辑模型 LDM
物理模型 PDM
BI报表
数据应用
数据形态
数据流向
逻辑架构
技术架构
ods：原始层
dwd：基础层
dws：聚合层
ads：应用层
ODS --> DW --> DM（整体架构）
ODS --> CDM --> ADS（整体架构）
ods --> dwd --> dws --> ads
bdl --> fdl --> gdl --> adl
离线：hive sqoop mysql azkaban 。。
实时：kafka spark/storm/flink hbase 。。
Batch recompute
Real-time increment
Lambda架构
数据分层
数据调研
主题划分
数仓规范
数据治理
数仓理念

数据模型(Model)

类型
步骤
事实表
维表
事务事实表
周期快照事实表
累积快照事实表
一致性维度
维度退化
缓慢变化维
星型模型
雪花模型
星座模型
选择业务过程
声明粒度
标识维度
确定事实
Erwin
PowerDesigner
Visio
Excel
建模工具
维度建模
实体关系(ER)建模
DataVault建模

数据处理(ETL)

增量表
全量表
快照表
流水表
拉链表
生命状态
周期时间
有效 active
失效 expired
历史 history
记录数据生命周期
利弊
SQL
Python
Shell
Procedure
OLTP很少有复杂的SQL，数据仓库OLAP下有很多复杂的SQL
join
标量/嵌套子查询
分析函数
正则表达式
递归with
多维分析
排列组合
行列互转
json处理
执行计划
类型
left join，right join，inner join ..
聚集分析函数
排名分析函数
数学分析函数
行比较分析函数
regexp_like
regexp_substr
regexp_instr
regexp_replace
start with connect by level
with rollup
with cube
grouping sets
lateral view explode(split(parm,';')) 别名 as 字段名
concat_ws(",",collect_set(要转成行的列)) group by 分组列
split切分+explode(炸开)
explode就是将hive一行中复杂的 array 或者 map 结构拆分成多行。
侧视图的意义是配合explode（或者其他的UDTF），一个语句生成把单行数据拆解成多行后的数据结果集。
LATERAL VIEW explode(split(id,','))相当于一个虚拟表，与原表笛卡尔积关联。
也可以多重使用
lateral_view
explode(split
列换行
行转列
行转列
lateral view json_tuple(
get_json_object
json_tuple
DQL
DDL
DML
DCL
SQL基础
SQL规范
SQL优化
PL/SQL
Kettle
DataStage
informatica
Sqoop
DataX
爬虫
原理
参数
调优
实践
利弊
ETL工具
开发语言
加载策略

数据可视化/BI

拖拽式自由BI报表
可自行开发
分类
多维分析 cube
kylin
ROLAP（关系）
MOLAP（多维）
HROLAP（混合）
roll up（上卷）
drill down（下钻）
slice（切片）
dice（切块）
pivot（旋转）
传统工具
互联网
Cognos
BIEE
MSTR
BO
FineBI
Tableau
SmartBI
Cboard
Quick BI
固定报表
即席查询
OLAP
自助式BI
实时大屏

调度系统

任务报错
数据质量
Azakaban
Oozie
Zeus
Automation
crontab
Oracle job
mysql event
调度工具
任务依赖
ETL流程
调度日志
监控告警

数据治理

血缘关系
技术元数据
业务元数据
元数据管理
数据质量
数据安全

离线数仓

Hive
MaxCompute

DQC
周期任务
周期实例
智能监控
ODPS SQL
PyODPS
ODPS MR
shell
数据集成
数据开发
运维中心
数据质量

Oracle

实时计算

Spark

RDD
Spark Core
Spark SQL
Spark Streaming
Spark MLlib
Spark GraphX

Storm
Flink
StreamCompute

Blink

数据分析

基础技能

统计学
业务

Excel

公式函数
透视图
可视化

SQL

Python

Pandas

数据分析处理
DataFrame数据结构，类Excel和SQL

Numpy

科学计算库

Scipy

基于Numpy，科学计算函数库

Matplotlib

数据可视化

Scikit-Learn

机器学习库

R

SAS

SPSS

MATLAB

数据挖掘

机器学习

决策树
朴素贝叶斯
逻辑回归
SVM
神经网络
随机森林

深度学习

框架

TensorFlow
PaddlePaddle
PyTorch
Caffe

卷积神经网络
循环神经网络RNN
自然语言处理 NLP

词向量
情感分析
chatbot

对抗网络GAN

人工智能

大数据栈

必备基础

Java
Linux

文件存储

HDFS

textFile
SequenceFile
ORC
Parquet
Avro
yarn application
hadoop job
dfsadmin
rmadmin
haadmin
hdfs:8020
webhdfs:50070
hftp:50070
跨集群
ls
du
df
cat
cp
rm
mkdir
chmod
get
put
mv
getmerge
test
NamaNode
DataNode
Secondary NameNode
文件系统名字空间namespace
心跳
文件系统元数据持久化
通讯协议
数据块 block
staging
架构与设计
FS Shell
distcp
管理命令
存储文件格式

离线计算

MapReduce
Spark

Scala
Java
Python
PySpark
资源调优
并行度调优
代码调优
数据本地化调优
内存调优
Shuffle调优
数据倾斜处理
DStream
DriverHA
Kafka+SparkStreaming
Storm VS SparkStreaming
DataFrame
序列化
udf、udaf、udtf
分析函数
SQL 优化
五大特性
RDD
运行模式
内存管理
资源调度
任务提交
广播变量和累计器
HA
集群部署
Spark Core
Spark SQL
Saprk Streaming
Spark MLlib
Spark GraphX
性能优化
支持语言

资源管理

YARN

Fair Scheduler
Capacity Scheduler
FIFO Scheduler
ResourceManager
NodeManager
ApplicationMaster
Container
背景（MRv2）
基本架构
资源隔离
工作原理
资源调度器

Mesos

流式、实时计算

Storm

流式

Spark Streaming
Flink

基本架构
集群搭建
运行机制
DataSet
DataStream
Window、Time
Flink SQL

K-V、NOSQL

HBase

Row Key
Column Family 列族
Timestamp 时间戳
Cell 单元格
Row Key 设计
Client
Zookeeper
Master
RegionServer
Region
Compact
安装搭建
架构
数据模型
HBase SQL（Phoenix）
性能优化

Redis
MongoDB

日志收集

Flume
Logstash

消息系统

Kafka

Producer
Consumer
Topic
Broker
Partition
Offset
原理
架构
集群部署
kafka API
Producer拦截器(interceptor)
Kafka Streams

查询统计

Hive

资源限制
io优化
数据倾斜
shuffle
执行模式
本地化
小文件合并
Shuffle Join 洗牌式
Broadcast Join 广播式
Sort-Merge-Bucket Join
udf
udaf
udtf
驱动器Driver，编译器Compiler，
优化器Optimizer，执行器Executor
HiveServer2
MetaStore
架构原理
SQL基础
分区、桶、内部表、外部表
自定义函数
Join策略
性能优化

Impala
Pig
Presto
Phoenix
SparkSQL
Drill
Druid
Flink SQL

可视化分析利器

多维分析

Kylin
Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

安装配置
Kylin SQL
Hive 构建Cube
Spark 构建Cube
Kafka 流构建Cube
集成 Tableau

分布式协调服务

Zookeeper

集群管理与监控

Cloudera Manager
Ambari
Ganglia
Nagios

数据挖掘、机器学习

Mahout
Spark MLLib
Python

数据同步

Sqoop

RDBMS <--> HDFS
import
export
增量、全量

DataX
canal
爬虫

数据采集

任务调度

Azkaban
Oozie
Zeus
airflow
xxl-job

RDBMS

Oracle

运维

规范
执行计划
索引
hint
实例 instance
数据库 database
内存结构
后台进程
体系结构
安装部署
备份恢复
性能调优
权限管理
SQL审核
SQL优化
rac
ogg
dataguard

开发

user_*
all_*
dba_*
游标 cursor
ACID
连接方式
Nested Loops Join（嵌套循环连接）
Hash Join（哈希连接）
Sort Merge Join（排序合并连接）
index range scan(索引范围扫描)
index skip scan(索引跳跃式扫描)
index fast full scan(索引快速全扫描)
index full scan(索引全扫描)
覆盖索引
复合索引
表 Table
视图 View
索引 Index
执行计划 Explain
事务 Transaction
锁 lock
统计信息 Statistic
同义词 synonym
序列 Sequence
匿名块 PL/SQL
存储过程 Procedure
函数 Function
包 Package
触发器 Trigger
定时任务 job
数据库链接 dblink
分区 partition
数据字典

认证

MySQL

背景

5.1 5.5 5.6 5.7 8.0
MySQL
MariaDB
Percona
RDS
分支
版本

运维

slow log
执行计划
索引
读写分离
物理备份
逻辑备份
binlog闪回
MHA
实例
数据库
体系结构
安装部署
高可用
权限管理
备份恢复
主从复制
分库分表
中间件
负载均衡
SQL优化

开发

information_schema
performance_schema
InnoDB
MyISAM
Memory
解读
函数 Function
过程 Procedure
表 Table
视图 View
函数 Function
分区 partition
事件 Event
事务 Transaction
锁 lock
索引 Index
执行计划 explain
统计信息 Statistic
存储引擎 engine
系统库 schema

GreenPlum

postgresql

项目管理

5组流程

启动
规划
执行
监控
收尾

10大知识领域

整合管理
范围管理
时间管理
成本管理
质量管理
人力资源管理
沟通管理
风险管理
采购管理
干系人管理

End

ps：欢迎加我微信：edw0808 讨论技术，批评指正！

☞职业规划 | 5年数仓之路

☞如何构建完整的指标体系

☞Flink SQL实时数仓开源UI平台

☞Apache Flink 学习0-1知识点全景图.xmind

下载资料：点击进入回复 999

希望这篇文章可以帮到你~

欢迎大家点个在看，分享至朋友圈

特别推荐：

☞ Apache Flink 学习0-1知识点全景图.xmind

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

向哲学习！可楼扎心一修：哲哥比你年轻比你搞笑！芮甜甜官宣复播！

生成图片，分享到微信朋友圈

大数据生态0-1全景图谱.xmind

大数据生态

数据平台

技术选型

大数据运维

数据仓库

数仓架构

离线数仓

实时计算

数据分析

基础技能

Excel

SQL

Python

R

SAS

SPSS

MATLAB

数据挖掘

机器学习

深度学习

人工智能

大数据栈

必备基础

文件存储

离线计算

资源管理

流式、实时计算

K-V、NOSQL

日志收集

消息系统

查询统计

可视化分析利器

多维分析

分布式协调服务

集群管理与监控

数据挖掘、机器学习

数据同步

任务调度

RDBMS

Oracle

MySQL

GreenPlum

项目管理

5组流程

10大知识领域

End

您可能也对以下帖子感兴趣