Apache Flink 学习0-1知识点全景图.xmind

Original 超哥数据仓库与Python大数据 2022-07-01

Flink全景图

实时处理框架

Strom

Strom是第一代实时处理框架，基于流处理，数据吞吐量和延迟上效果不理想，只支持at least once和at most once，不能保证精确一次性，在数据准确性上存在不足

SparkStreaming

第二代实时处理框架，基于mini-batch思想，每次处理一小批数据，一小批数据包含多个事件，以接近事实处理效果，概况性来说是微批次、准实时

Flink

第三代实时处理框架，支持有界和无界数据流上做有状态计算，以时间为单位，支持exactly once，数据的准确性得到提高，相比Strom，吞吐量更高，延迟更低，相比SparkStreaming，Flink是真正意义上的实时计算，所需计算资源更少

Flink简介

Flink是什么

Flink官网
Apache Flink是一个框架和分布式处理引擎，用于在无边界和有边界
数据流上进行有状态的计算

无界流有定义流的开始，没有定义流的结束，会无休止的产生数据，数据摄取后需要被立刻处理，因为输入时无限的，不能等待所有数据都到达再进行处理，所以通常要求特定顺序摄取事件，如事件发生顺序
有界流有定义流的开始，也有定义流的结束，有界流可以在摄取所有数据后再进行计算，所有数据可以被排序，所以并不需要有序摄取，有界流处理通常被称为批处理

Flink的主要特点

事件驱动

时间语义

基于流
更好的状态控制
分层API

Flink API分层

Flink的其他特点

基于自身的状态一致性保障
低延迟，每秒可以处理数百万个事件，毫秒级延迟
提供常见存储系统的连接器：Kafka、Hdfs、Redis、ES、JDBC
高可用，可动态扩展，高扩展，状态保存达到TB级别仍可以保持高吞吐、低延迟
支持事件时间
批流一体化，批是流的特例

Flink VS StreamString

Flink是真正的流处理，延迟在毫秒级，Spark Streaming是微批次，延迟在秒级
Flink可以处理事件时间，Spark Streaming只能处理机器时间，无法保证时间语义的准确性
Flink的检查点比Spark Streaming更加灵活，性能更高，SparkStreaming的检查点算法是在每个stage结束后才会保存检查点
Flink 易于实现端到端的一致性
批处理上Spark更具有优势且社区完善，技术成熟
性能对比
SQL支持
Flink未来

Flink1.11改进
支持Hql将实时数据写入Hive

Flink运行环境

YARN

Mesos

k8s

裸机集群独立部署

Flink运行架构

运行组件

分发器 Dispatcher

接收用户提供的作业并新提交的作业启动一个新的JobManager

资源管理器 ResourceManager

负责资源的管理，整个Flink集群中只有一个RescouceManager

作业管理器 JobManager

负责管理作业的执行，协调所以任务的操作，一个Flink集群中有多个作业同时执行，每个作业都有自己的JobManager

任务管理器 TaskManager

负责执行具体的task任务，从JobManager处接收需要部署的task，接收任务数据并处理

任务提交流程

执行图

StreamGraph 逻辑流图

根据提交的Stream API编写的代码生成最初的图，表示程序的拓扑结构

JobGraph 作业图

StreamGraph经过优化后生成了JobGraph，提交给JobManager，优化点为将多个符合条件的节点当做一个节点处理

ExceptionGraph 执行图

ExceptionGraph是JobGraph的并行化版本，是调度层最核心的数据结构

物理执行图

JobManager根据ExceptionGraph对Job进行调度后，在各个TaskManager上部署task后形成的图

执行图流程

并行度

定义

理论上一个算子的子任务个数称为并行度，生产过程中，一个流的并行度是所有算子中最大的并行度

设定

flink任务提交

Flink API

Batch API

Environment

ExecutionEnvironment batchEnv = ExecutionEnvironment.getExecutionEnvironment();

Source
Transform
Sink

Stream API

Environment

StreamExecutionEnvironment streamEnv = StreamExecutionEnvironment.getExecutionEnvironment();

Source

streamEnv.readTextFile()
streamEnv.fromCollection()
集合
文件
Kafka
自定义

Transform

map
flatMap
filter
keyBy
shuffle
split
select
connect
union

Sink

Kafka Sink
Redis Sink
Es Sink
自定义Sink

Window API

ReduceFunction()
AggregateFunction()
windowFunction
ProcessWindowFunction()
trigger()
evitor()
allowedLateness()
sideOutputLateData()
getSideOutput()

Watermark API

ProcessFunction API

State APi

Table APi

Flink时间语义

Flink时间语义图形化展示

Flink状态管理

状态类型

算子状态

列表状态 Liststate
联合列表状态 Union list state
广播状态 Broadcast state
针对特定算子的状态，作用范围为算子任务，对同一子任务是共享的
定义
分类

键控状态

声明一个键控状态
读取状态
对状态赋值
清空状态
值状态 Value state
列表状态 List state
映射状态 Map state
聚合状态 Aggregate State
根据输入数据流中定义的键key来维护和访问
定义
分类
使用

状态后端

定义

状态的存储、访问、维护由一个可插入的组件决定，这个组件叫做状态后端

作用

本地状态的管理
将检查点checkpoint写入到远程存储

分类

将所有状态序列化后，存入RocksDB中
将checkpoint存储到持久化的文件系统中，对于本地状态和MemoryStateBackend一样存在TaskManager的JVM堆上
特点：拥有内存级别的访问速度和更好的容错性
内存级别的状态后端，将键控状态作为内存中的对象进行管理，将它们存储在TaskManager的JVM堆上，将checkpoint存储在JobManager的内存中
特点：低延迟、快速，但不够稳定
MemoryStateBackend
FsStateBacked
RocksDBStateBackend

Flink状态一致性

基本含义

有状态的流处理，算子或者键值保存自己的状态，所谓的状态一致性就是计算结果要准确，数据不会丢失也不重复计算，在遇到故障时可以恢复状态并保证恢复后的结果是完全正确的

主要组成

Flink内部容错机制

定义
作用
提供自定义保存镜像的功能，创建保存点使用的算法和检查点完全相同，不能自动创建，需要手动创建
有计划的创建保存点不仅可用于故障恢复，还可用于手动备份、版本迁移，暂定和重启应用
定义
作用
特点
执行原理
执行步骤
实现算法
对所有任务的状态做保存，在这个时间点上是所有任务都恰好处理完一个相同的输入数据的时候
在出现故障的情况下，保证Flink内部的状态一致性，是Flink故障恢复机制的核心
可以保证Flink的exact-once，并且不需要牺牲性能
异步分界线快照，所有任务的状态都会做一份快照，保存状态和数据计算异步执行，边保存状态边对数据进行计算，所有状态都完成JobManager会完成checkpoint的保存
在执行Job时会定期保存状态的一致性检查点，如果故障产生，从最近的检查点恢复Job的状态并重新启动处理流程
检查点保存
出现故障
重启应用
从checkpoint中读取状态并将状态重置
处理检查点到发生故障之间的所有数据
并行的两个Source任务读取两个输入流
JobManager向每个source发送一个带有新检查点Id的信息，通过这种方式启动检查点
Source将状态写入检查点，状态后端在状态存入检查点后返回通知source任务，source任务向JobManager确认检查点wanc
barrier向下游传递，sum任务会等待所有输入分区的barrier到达，对于已经到达的分区，继续到达的数据会被缓存，未到达的分区，数据正常处理
sum任务收到所有输入分区的barrier后会将任务状态保存到状态后端的检查点中，barrier继续向下游分发
向下游分发检查点barrier后，sum任务继续正常处理数据
sink任务向JobManager确认状态保存到checkpoint，所有的任务都确认已成功将状态保存到检查点，一个新的检查点才算真正的完成了
Chandy-Lamport算法的分布式快照
检查点分界线 Checkpoint Barrier
将检查点保存和数据处理分离开，不暂停整个应用
利用分界线把一条流上数据按照不同的检查点分开，分界线之前数据引起的状态更改属于当前分界线所属的检查点，分界线之后数据引起的更改，包含在之后的检查点中
依赖
执行步骤
一致性检查点 checkpoint
保存点 savepoint

端到端状态一致性

内部保证-checkpiont
source端-可记录的偏移量位置
sink端-故障恢复时，不会有数据重复写入
幂等写入
事务写入
除了Flink内部流处理的一致性外还需要保证整个流处理过程中source和sink的一致性
基本含义
实现方法

Flink 窗口

作用

真实流都是无界的，把无界流进行切分得到有限的数据集处理，将流数据分发到有限大小的桶中进行分析

窗口其他相关API

聚合函数

AggregateFunction()
ReduceFunction()
windowFunction
ProcessWindowFunction
全量聚合函数
增量聚合函数

.trigger()
.evitor()
.allowedLateness()
.sideOutputLateData()
.getSideOutput()

Flink CEP

Flink 项目代码

Flink SQL实时数仓开源UI平台

End

Day Day Up . 关注我们提升自己不迷惑，我们下期见啦 ~

欢迎加入大数据|数仓技术交流群。

进群方式：请加微信（微信号：iom1128），回复：数据，通过审核会拉你进群。

数据治理，该怎么做？全面解读！

数据资产治理-元数据采集那点事

最新大数据资料合集.ppt

Flink Forward Asia 2020 干货总结！

再次分享！漫谈数仓OLAP技术哪家强？

▼ 福利时刻 ▼

文末扫码后台回复关键词：加群，数据质量、Hive、画像ppt、实时数仓、数据治理，都可获取宝贵干货资源与资料。

下载资料：长按扫码回复 Flink

Q: 关于大数据，你还想了解什么？

进群联系小助手：iom1128『仙子紫霞』

！关注不迷路~ 各种福利、资源定期分享！

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

向哲学习！可楼扎心一修：哲哥比你年轻比你搞笑！芮甜甜官宣复播！

生成图片，分享到微信朋友圈