大数据生态0-1全景图谱.xmind
大数据生态
数据平台
技术选型
Apache
CDH
HDP (已合并)
阿里云
其他
大数据运维
Linux
源码原理
搭建部署
rebalancer
原理
架构
集群搭建
JournalNode
DFSZKFailoverController
QuorumPeerMain
原生方式
Cloudera Manager(cdh)
Ambari(hdp)
管理工具
集群规划
高可用 ha
动态新增/删除节点
进程
集群迁移
性能调优
数据安全
Kerberos安全认证
数据仓库
数仓架构
基础架构
Kimball、Inmon
数仓是一种规范
数仓是一种思想
解决方案
元数据管理
数据质量
数据安全
生命周期
数据模型、数据字典
血缘关系 DAG
技术元数据、业务元数据
权限
命名规范
开发规范
流程规范
设计规范
总线矩阵
主题域/数据域
业务调研
需求调研
数据调研
概念模型 CDM
逻辑模型 LDM
物理模型 PDM
BI报表
数据应用
数据形态
数据流向
逻辑架构
技术架构
ods:原始层
dwd:基础层
dws:聚合层
ads:应用层
ODS --> DW --> DM(整体架构)
ODS --> CDM --> ADS(整体架构)
ods --> dwd --> dws --> ads
bdl --> fdl --> gdl --> adl
离线:hive sqoop mysql azkaban 。。
实时:kafka spark/storm/flink hbase 。。
Batch recompute
Real-time increment
Lambda架构
数据分层
数据调研
主题划分
数仓规范
数据治理
数仓理念
数据模型(Model)
类型
步骤
事实表
维表
事务事实表
周期快照事实表
累积快照事实表
一致性维度
维度退化
缓慢变化维
星型模型
雪花模型
星座模型
选择业务过程
声明粒度
标识维度
确定事实
Erwin
PowerDesigner
Visio
Excel
建模工具
维度建模
实体关系(ER)建模
DataVault建模
数据处理(ETL)
增量表
全量表
快照表
流水表
拉链表
生命状态
周期时间
有效 active
失效 expired
历史 history
记录数据生命周期
利弊
SQL
Python
Shell
Procedure
OLTP很少有复杂的SQL,数据仓库OLAP下有很多复杂的SQL
join
标量/嵌套子查询
分析函数
正则表达式
递归with
多维分析
排列组合行列互转
json处理
执行计划
类型
left join,right join,inner join ..
聚集分析函数
排名分析函数
数学分析函数
行比较分析函数
regexp_like
regexp_substr
regexp_instr
regexp_replace
start with connect by level
with rollup
with cube
grouping sets
lateral view explode(split(parm,';')) 别名 as 字段名
concat_ws(",",collect_set(要转成行的列)) group by 分组列
split切分+explode(炸开)
explode就是将hive一行中复杂的 array 或者 map 结构拆分成多行。
侧视图的意义是配合explode(或者其他的UDTF),一个语句生成把单行数据拆解成多行后的数据结果集。
LATERAL VIEW explode(split(id,','))相当于一个虚拟表,与原表笛卡尔积关联。
也可以多重使用lateral_view
explode(split
列换行
行转列
行转列
lateral view json_tuple(
get_json_object
json_tuple
DQL
DDL
DML
DCL
SQL基础
SQL规范
SQL优化
PL/SQL
Kettle
DataStage
informatica
Sqoop
DataX
爬虫
原理
参数
调优
实践
利弊
ETL工具
开发语言
加载策略
数据可视化/BI
拖拽式自由BI报表
可自行开发
分类
多维分析 cube
kylin
ROLAP(关系)
MOLAP(多维)
HROLAP(混合)
roll up(上卷)
drill down(下钻)
slice(切片)
dice(切块)
pivot(旋转)
传统工具
互联网
Cognos
BIEE
MSTR
BO
FineBI
Tableau
SmartBI
Cboard
Quick BI
固定报表
即席查询
OLAP
自助式BI
实时大屏
调度系统
任务报错
数据质量
Azakaban
Oozie
Zeus
Automation
crontab
Oracle job
mysql event
调度工具
任务依赖
ETL流程
调度日志
监控告警
数据治理
血缘关系
技术元数据
业务元数据
元数据管理
数据质量
数据安全
离线数仓
Hive
MaxCompute
DQC
周期任务
周期实例
智能监控
ODPS SQL
PyODPS
ODPS MR
shell
数据集成
数据开发
运维中心
数据质量
Oracle
实时计算
Spark
RDD
Spark Core
Spark SQL
Spark Streaming
Spark MLlib
Spark GraphX
Storm
Flink
StreamCompute
Blink
数据分析
基础技能
统计学
业务
Excel
公式函数
透视图
可视化
SQL
Python
Pandas
数据分析处理
DataFrame数据结构,类Excel和SQL
Numpy
科学计算库
Scipy
基于Numpy,科学计算函数库
Matplotlib
数据可视化
Scikit-Learn
机器学习库
R
SAS
SPSS
MATLAB
数据挖掘
机器学习
决策树
朴素贝叶斯
逻辑回归
SVM
神经网络
随机森林
深度学习
框架
TensorFlow
PaddlePaddle
PyTorch
Caffe
卷积神经网络
循环神经网络RNN
自然语言处理 NLP
词向量
情感分析
chatbot
对抗网络GAN
人工智能
大数据栈
必备基础
Java
Linux
文件存储
HDFS
textFile
SequenceFile
ORC
Parquet
Avro
yarn application
hadoop job
dfsadmin
rmadmin
haadmin
hdfs:8020
webhdfs:50070
hftp:50070
跨集群
ls
du
df
cat
cp
rm
mkdir
chmod
get
put
mv
getmerge
test
NamaNode
DataNode
Secondary NameNode
文件系统名字空间namespace
心跳
文件系统元数据持久化
通讯协议
数据块 block
staging
架构与设计
FS Shell
distcp
管理命令
存储文件格式
GFS
KFS
离线计算
MapReduce
Spark
Scala
Java
Python
PySpark
资源调优
并行度调优
代码调优
数据本地化调优
内存调优
Shuffle调优
数据倾斜处理
DStream
DriverHA
Kafka+SparkStreaming
Storm VS SparkStreaming
DataFrame
序列化
udf、udaf、udtf
分析函数
SQL 优化
五大特性
RDD
运行模式
内存管理
资源调度
任务提交
广播变量和累计器
HA
集群部署
Spark Core
Spark SQL
Saprk Streaming
Spark MLlib
Spark GraphX
性能优化
支持语言
tez
资源管理
YARN
Fair Scheduler
Capacity Scheduler
FIFO Scheduler
ResourceManager
NodeManager
ApplicationMaster
Container
背景(MRv2)
基本架构
资源隔离
工作原理
资源调度器
Mesos
流式、实时计算
Storm
流式
Spark Streaming
Flink
基本架构
集群搭建
运行机制
DataSet
DataStream
Window、Time
Flink SQL
K-V、NOSQL
HBase
Row Key
Column Family 列族
Timestamp 时间戳
Cell 单元格
Row Key 设计
Client
Zookeeper
Master
RegionServer
Region
Compact
安装搭建
架构
数据模型
HBase SQL(Phoenix)
性能优化
Redis
MongoDB
日志收集
Flume
Logstash
消息系统
Kafka
Producer
Consumer
Topic
Broker
Partition
Offset
原理
架构
集群部署
kafka API
Producer拦截器(interceptor)
Kafka Streams
查询统计
Hive
资源限制
io优化
数据倾斜
shuffle
执行模式
本地化
小文件合并
Shuffle Join 洗牌式
Broadcast Join 广播式
Sort-Merge-Bucket Join
udf
udaf
udtf
驱动器Driver,编译器Compiler,
优化器Optimizer,执行器ExecutorHiveServer2
MetaStore
架构原理
SQL基础
分区、桶、内部表、外部表
自定义函数
Join策略
性能优化
Impala
Pig
Presto
Phoenix
SparkSQL
Drill
Druid
Flink SQL
可视化分析利器
HUE
多维分析
Kylin
Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
安装配置
Kylin SQL
Hive 构建Cube
Spark 构建Cube
Kafka 流构建Cube
集成 Tableau
分布式协调服务
Zookeeper
集群管理与监控
Cloudera Manager
Ambari
Ganglia
Nagios
数据挖掘、机器学习
Mahout
Spark MLLib
Python
数据同步
Sqoop
RDBMS <--> HDFS
import
export
增量、全量
DataX
canal
爬虫
数据采集
任务调度
Azkaban
Oozie
Zeus
airflow
xxl-job
RDBMS
Oracle
运维
规范
执行计划
索引
hint
实例 instance
数据库 database
内存结构
后台进程
体系结构
安装部署
备份恢复
性能调优
权限管理
SQL审核
SQL优化
rac
ogg
dataguard
开发
user_*
all_*
dba_*
游标 cursor
ACID
连接方式
Nested Loops Join(嵌套循环连接)
Hash Join(哈希连接)
Sort Merge Join(排序合并连接)
index range scan(索引范围扫描)
index skip scan(索引跳跃式扫描)
index fast full scan(索引快速全扫描)
index full scan(索引全扫描)
覆盖索引
复合索引
表 Table
视图 View
索引 Index
执行计划 Explain
事务 Transaction
锁 lock
统计信息 Statistic
同义词 synonym
序列 Sequence
匿名块 PL/SQL
存储过程 Procedure
函数 Function
包 Package
触发器 Trigger
定时任务 job
数据库链接 dblink
分区 partition
数据字典
认证
OCA
OCP
OCM
MySQL
背景
5.1 5.5 5.6 5.7 8.0
MySQL
MariaDB
Percona
RDS
分支
版本
运维
slow log
执行计划
索引
读写分离
物理备份
逻辑备份
binlog闪回
MHA
实例
数据库
体系结构
安装部署
高可用
权限管理
备份恢复
主从复制
分库分表
中间件
负载均衡
SQL优化
开发
information_schema
performance_schema
InnoDB
MyISAM
Memory
解读
函数 Function
过程 Procedure
表 Table
视图 View
函数 Function
分区 partition
事件 Event
事务 Transaction
锁 lock
索引 Index
执行计划 explain
统计信息 Statistic
存储引擎 engine
系统库 schema
GreenPlum
postgresql
项目管理
5组流程
启动
规划
执行
监控
收尾
10大知识领域
整合管理
范围管理
时间管理
成本管理
质量管理
人力资源管理
沟通管理
风险管理
采购管理
干系人管理