查看原文
其他

大数据生态0-1全景图谱.xmind

空空 数据仓库与Python大数据 2022-08-17

大数据生态

数据平台

技术选型

  • Apache

  • CDH

  • HDP (已合并)

  • 阿里云

  • 其他

大数据运维

  • Linux

  • 源码原理

  • 搭建部署

    • rebalancer

    • 原理

    • 架构

    • 集群搭建

    • JournalNode

    • DFSZKFailoverController

    • QuorumPeerMain

    • 原生方式

    • Cloudera Manager(cdh)

    • Ambari(hdp)

    • 管理工具

    • 集群规划

    • 高可用 ha

    • 动态新增/删除节点

    • 进程

  • 集群迁移

  • 性能调优

  • 数据安全

    • Kerberos安全认证

数据仓库

数仓架构

  • 基础架构

    • Kimball、Inmon

    • 数仓是一种规范

    • 数仓是一种思想

    • 解决方案

    • 元数据管理

    • 数据质量

    • 数据安全

    • 生命周期

    • 数据模型、数据字典

    • 血缘关系 DAG

    • 技术元数据、业务元数据

    • 权限

    • 命名规范

    • 开发规范

    • 流程规范

    • 设计规范

    • 总线矩阵

    • 主题域/数据域

    • 业务调研

    • 需求调研

    • 数据调研

    • 概念模型 CDM

    • 逻辑模型 LDM

    • 物理模型 PDM

    • BI报表

    • 数据应用

    • 数据形态

    • 数据流向

    • 逻辑架构

    • 技术架构

    • ods:原始层

    • dwd:基础层

    • dws:聚合层

    • ads:应用层

    • ODS --> DW --> DM(整体架构)

    • ODS --> CDM --> ADS(整体架构)

    • ods --> dwd --> dws --> ads

    • bdl --> fdl --> gdl --> adl

    • 离线:hive sqoop mysql azkaban 。。

    • 实时:kafka spark/storm/flink hbase 。。

    • Batch recompute

    • Real-time increment

    • Lambda架构

    • 数据分层

    • 数据调研

    • 主题划分

    • 数仓规范

    • 数据治理

    • 数仓理念

  • 数据模型(Model)

    • 类型

    • 步骤

    • 事实表

    • 维表

    • 事务事实表

    • 周期快照事实表

    • 累积快照事实表

    • 一致性维度

    • 维度退化

    • 缓慢变化维

    • 星型模型

    • 雪花模型

    • 星座模型

    • 选择业务过程

    • 声明粒度

    • 标识维度

    • 确定事实

    • Erwin

    • PowerDesigner

    • Visio

    • Excel

    • 建模工具

    • 维度建模

    • 实体关系(ER)建模

    • DataVault建模

  • 数据处理(ETL)

    • 增量表

    • 全量表

    • 快照表

    • 流水表

    • 拉链表

    • 生命状态

    • 周期时间

    • 有效 active

    • 失效 expired

    • 历史 history

    • 记录数据生命周期

    • 利弊

    • SQL

    • Python

    • Shell

    • Procedure

    • OLTP很少有复杂的SQL,数据仓库OLAP下有很多复杂的SQL

    • join

    • 标量/嵌套子查询

    • 分析函数

    • 正则表达式

    • 递归with

    • 多维分析 
      排列组合

    • 行列互转

    • json处理

    • 执行计划

    • 类型

    • left join,right join,inner join ..

    • 聚集分析函数

    • 排名分析函数

    • 数学分析函数

    • 行比较分析函数

    • regexp_like

    • regexp_substr

    • regexp_instr

    • regexp_replace

    • start with connect by level

    • with rollup

    • with cube

    • grouping sets

    • lateral view explode(split(parm,';')) 别名 as 字段名

    • concat_ws(",",collect_set(要转成行的列)) group by 分组列

    • split切分+explode(炸开)

    • explode就是将hive一行中复杂的 array 或者 map 结构拆分成多行。

    • 侧视图的意义是配合explode(或者其他的UDTF),一个语句生成把单行数据拆解成多行后的数据结果集。

    • LATERAL VIEW explode(split(id,','))相当于一个虚拟表,与原表笛卡尔积关联。 
      也可以多重使用

    • lateral_view

    • explode(split

    • 列换行

    • 行转列

    • 行转列

    • lateral view json_tuple(

    • get_json_object

    • json_tuple

    • DQL

    • DDL

    • DML

    • DCL

    • SQL基础

    • SQL规范

    • SQL优化

    • PL/SQL

    • Kettle

    • DataStage

    • informatica

    • Sqoop

    • DataX

    • 爬虫

    • 原理

    • 参数

    • 调优

    • 实践

    • 利弊

    • ETL工具

    • 开发语言

    • 加载策略

  • 数据可视化/BI

    • 拖拽式自由BI报表

    • 可自行开发

    • 分类

    • 多维分析 cube

    • kylin

    • ROLAP(关系)

    • MOLAP(多维)

    • HROLAP(混合)

    • roll up(上卷)

    • drill down(下钻)

    • slice(切片)

    • dice(切块)

    • pivot(旋转)

    • 传统工具

    • 互联网

    • Cognos

    • BIEE

    • MSTR

    • BO

    • FineBI

    • Tableau

    • SmartBI

    • Cboard

    • Quick BI

    • 固定报表

    • 即席查询

    • OLAP

    • 自助式BI

    • 实时大屏

  • 调度系统

    • 任务报错

    • 数据质量

    • Azakaban

    • Oozie

    • Zeus

    • Automation

    • crontab

    • Oracle job

    • mysql event

    • 调度工具

    • 任务依赖

    • ETL流程

    • 调度日志

    • 监控告警

  • 数据治理

    • 血缘关系

    • 技术元数据

    • 业务元数据

    • 元数据管理

    • 数据质量

    • 数据安全

离线数仓

  • Hive

  • MaxCompute

    • DQC

    • 周期任务

    • 周期实例

    • 智能监控

    • ODPS SQL

    • PyODPS

    • ODPS MR

    • shell

    • 数据集成

    • 数据开发

    • 运维中心

    • 数据质量

  • Oracle

实时计算

  • Spark

    • RDD

    • Spark Core

    • Spark SQL

    • Spark Streaming

    • Spark MLlib

    • Spark GraphX

  • Storm

  • Flink

  • StreamCompute

    • Blink

数据分析

基础技能

  • 统计学

  • 业务

Excel

  • 公式函数

  • 透视图

  • 可视化

SQL

Python

  • Pandas

    • 数据分析处理

    • DataFrame数据结构,类Excel和SQL

  • Numpy

    • 科学计算库

  • Scipy

    • 基于Numpy,科学计算函数库

  • Matplotlib

    • 数据可视化

  • Scikit-Learn

    • 机器学习库

R

SAS

SPSS

MATLAB

数据挖掘

机器学习

  • 决策树

  • 朴素贝叶斯

  • 逻辑回归

  • SVM

  • 神经网络

  • 随机森林

深度学习

  • 框架

    • TensorFlow

    • PaddlePaddle

    • PyTorch

    • Caffe

  • 卷积神经网络

  • 循环神经网络RNN

  • 自然语言处理 NLP

    • 词向量

    • 情感分析

    • chatbot

  • 对抗网络GAN

人工智能

大数据栈

必备基础

  • Java

  • Linux

文件存储

  • HDFS

    • textFile

    • SequenceFile

    • ORC

    • Parquet

    • Avro

    • yarn application

    • hadoop job

    • dfsadmin

    • rmadmin

    • haadmin

    • hdfs:8020

    • webhdfs:50070

    • hftp:50070

    • 跨集群

    • ls

    • du

    • df

    • cat

    • cp

    • rm

    • mkdir

    • chmod

    • get

    • put

    • mv

    • getmerge

    • test

    • NamaNode

    • DataNode

    • Secondary NameNode

    • 文件系统名字空间namespace

    • 心跳

    • 文件系统元数据持久化

    • 通讯协议

    • 数据块 block

    • staging

    • 架构与设计

    • FS Shell

    • distcp

    • 管理命令

    • 存储文件格式

  • GFS

  • KFS

离线计算

  • MapReduce

  • Spark

    • Scala

    • Java

    • Python

    • PySpark

    • 资源调优

    • 并行度调优

    • 代码调优

    • 数据本地化调优

    • 内存调优

    • Shuffle调优

    • 数据倾斜处理

    • DStream

    • DriverHA

    • Kafka+SparkStreaming

    • Storm VS SparkStreaming

    • DataFrame

    • 序列化

    • udf、udaf、udtf

    • 分析函数

    • SQL 优化

    • 五大特性

    • RDD

    • 运行模式

    • 内存管理

    • 资源调度

    • 任务提交

    • 广播变量和累计器

    • HA

    • 集群部署

    • Spark Core

    • Spark SQL

    • Saprk Streaming

    • Spark MLlib

    • Spark GraphX

    • 性能优化

    • 支持语言

  • tez

资源管理

  • YARN

    • Fair Scheduler

    • Capacity Scheduler

    • FIFO Scheduler

    • ResourceManager

    • NodeManager

    • ApplicationMaster

    • Container

    • 背景(MRv2)

    • 基本架构

    • 资源隔离

    • 工作原理

    • 资源调度器

  • Mesos

流式、实时计算

  • Storm

    • 流式

  • Spark Streaming

  • Flink

    • 基本架构

    • 集群搭建

    • 运行机制

    • DataSet

    • DataStream

    • Window、Time

    • Flink SQL

K-V、NOSQL

  • HBase

    • Row Key

    • Column Family 列族

    • Timestamp 时间戳

    • Cell 单元格

    • Row Key 设计

    • Client

    • Zookeeper

    • Master

    • RegionServer

    • Region

    • Compact

    • 安装搭建

    • 架构

    • 数据模型

    • HBase SQL(Phoenix)

    • 性能优化

  • Redis

  • MongoDB

日志收集

  • Flume

  • Logstash

消息系统

  • Kafka

    • Producer

    • Consumer

    • Topic

    • Broker

    • Partition

    • Offset

    • 原理

    • 架构

    • 集群部署

    • kafka API

    • Producer拦截器(interceptor)

    • Kafka Streams

查询统计

  • Hive

    • 资源限制

    • io优化

    • 数据倾斜

    • shuffle

    • 执行模式

    • 本地化

    • 小文件合并

    • Shuffle Join 洗牌式

    • Broadcast Join 广播式

    • Sort-Merge-Bucket Join

    • udf

    • udaf

    • udtf

    • 驱动器Driver,编译器Compiler, 
      优化器Optimizer,执行器Executor

    • HiveServer2

    • MetaStore

    • 架构原理

    • SQL基础

    • 分区、桶、内部表、外部表

    • 自定义函数

    • Join策略

    • 性能优化

  • Impala

  • Pig

  • Presto

  • Phoenix

  • SparkSQL

  • Drill

  • Druid

  • Flink SQL

可视化分析利器

  • HUE

多维分析

  • Kylin

    Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

    • 安装配置

    • Kylin SQL

    • Hive 构建Cube

    • Spark 构建Cube

    • Kafka 流构建Cube

    • 集成 Tableau

分布式协调服务

  • Zookeeper

集群管理与监控

  • Cloudera Manager

  • Ambari

  • Ganglia

  • Nagios

数据挖掘、机器学习

  • Mahout

  • Spark MLLib

  • Python

数据同步

  • Sqoop

    • RDBMS <--> HDFS

    • import

    • export

    • 增量、全量

  • DataX

  • canal

  • 爬虫

    • 数据采集

任务调度

  • Azkaban

  • Oozie

  • Zeus

  • airflow

  • xxl-job

RDBMS

Oracle

  • 运维

    • 规范

    • 执行计划

    • 索引

    • hint

    • 实例 instance

    • 数据库 database

    • 内存结构

    • 后台进程

    • 体系结构

    • 安装部署

    • 备份恢复

    • 性能调优

    • 权限管理

    • SQL审核

    • SQL优化

    • rac

    • ogg

    • dataguard

  • 开发

    • user_*

    • all_*

    • dba_*

    • 游标 cursor

    • ACID

    • 连接方式

    • Nested Loops Join(嵌套循环连接)

    • Hash Join(哈希连接)

    • Sort Merge Join(排序合并连接)

    • index range scan(索引范围扫描)

    • index skip scan(索引跳跃式扫描)

    • index fast full scan(索引快速全扫描)

    • index full scan(索引全扫描)

    • 覆盖索引

    • 复合索引

    • 表 Table

    • 视图 View

    • 索引 Index

    • 执行计划 Explain

    • 事务 Transaction

    • 锁 lock

    • 统计信息 Statistic

    • 同义词 synonym

    • 序列 Sequence

    • 匿名块 PL/SQL

    • 存储过程 Procedure

    • 函数 Function

    • 包 Package

    • 触发器 Trigger

    • 定时任务 job

    • 数据库链接 dblink

    • 分区 partition

    • 数据字典

  • 认证

    • OCA

    • OCP

    • OCM

MySQL

  • 背景

    • 5.1 5.5 5.6 5.7 8.0

    • MySQL

    • MariaDB

    • Percona

    • RDS

    • 分支

    • 版本

  • 运维

    • slow log

    • 执行计划

    • 索引

    • 读写分离

    • 物理备份

    • 逻辑备份

    • binlog闪回

    • MHA

    • 实例

    • 数据库

    • 体系结构

    • 安装部署

    • 高可用

    • 权限管理

    • 备份恢复

    • 主从复制

    • 分库分表

    • 中间件

    • 负载均衡

    • SQL优化

  • 开发

    • information_schema

    • performance_schema

    • InnoDB

    • MyISAM

    • Memory

    • 解读

    • 函数 Function

    • 过程 Procedure

    • 表 Table

    • 视图 View

    • 函数 Function

    • 分区 partition

    • 事件 Event

    • 事务 Transaction

    • 锁 lock

    • 索引 Index

    • 执行计划 explain

    • 统计信息 Statistic

    • 存储引擎 engine

    • 系统库 schema

GreenPlum

  • postgresql

项目管理

5组流程

  • 启动

  • 规划

  • 执行

  • 监控

  • 收尾

10大知识领域

  • 整合管理

  • 范围管理

  • 时间管理

  • 成本管理

  • 质量管理

  • 人力资源管理

  • 沟通管理

  • 风险管理

  • 采购管理

  • 干系人管理

End

ps:欢迎加我微信:edw0808 讨论技术,批评指正!

   ☞职业规划 | 5年数仓之路

   如何构建完整的指标体系

  ☞Flink SQL实时数仓开源UI平台

   Apache Flink 学习0-1知识点全景图.xmind


下载资料:点击进入回复 999
希望这篇文章可以帮到你~
欢迎大家点个在看,分享至朋友圈


特别推荐:
☞ Apache Flink 学习0-1知识点全景图.xmind

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存