如何从0到1构建一个稳定、高性能的Redis集群?(附16张图解)
导语 | Redis持久化、主从复制、哨兵、分片集群,每个概念单独来看都很容易理解,但它们之间存在哪些联系?Redis为什么会演化出这几种架构模式?这篇文章告诉你答案。
引言
现如今Redis变得越来越流行,几乎在很多项目中都要被用到,不知道你在使用Redis时,有没有思考过,Redis到底是如何稳定、高性能地提供服务的?
我使用Redis的场景很简单,只使用单机版Redis会有什么问题吗?
我的Redis故障宕机了,数据丢失了怎么办?如何能保证我的业务应用不受影响?
为什么需要主从集群?它有什么优势?
什么是分片集群?我真的需要分片集群吗?
...
如果你对Redis已经有些了解,肯定也听说过「数据持久化、主从复制、哨兵、分片集群」这些概念,它们之间又有什么区别和联系呢?
如果你存在这样的疑惑,这篇文章,我会从0到1,再从1到N,带你一步步构建出一个稳定、高性能的Redis集群。
在这个过程中,你可以了解到Redis为了做到稳定、高性能,都采取了哪些优化方案,以及为什么要这么做?
掌握了这些原理,这样平时你在使用Redis时,就能够做到「游刃有余」。
一、从最简单的开始:单机版Redis
首先,我们从最简单的场景开始。
假设现在你有一个业务应用,需要引入Redis来提高应用的性能,此时你可以选择部署一个单机版的Redis来使用,就像这样:
这个架构非常简单,你的业务应用可以把Redis当做缓存来使用,从MySQL中查询数据,然后写入到Redis中,之后业务应用再从Redis中读取这些数据,由于Redis的数据都存储在内存中,所以这个速度飞快。
如果你的业务体量并不大,那这样的架构模型基本可以满足你的需求。是不是很简单?
随着时间的推移,你的业务体量逐渐发展起来了,Redis中存储的数据也越来越多,此时你的业务应用对Redis的依赖也越来越重。
突然有一天,你的Redis因为某些原因宕机了,这时你的所有业务流量,都会打到后端MySQL上,MySQL压力剧增,严重的话甚至会压垮MySQL。
这时你应该怎么办?
我猜你的方案肯定是,赶紧重启Redis,让它可以继续提供服务。
但是,因为之前Redis中的数据都在内存中,尽管你现在把Redis重启了,之前的数据也都丢失了(假设没开持久化)。重启后的Redis虽然可以正常工作,但是由于Redis中没有任何数据,业务流量还是都会打到后端MySQL上,MySQL的压力还是很大。
有没有什么好的办法解决这个问题?
既然Redis只把数据存储在内存中,那是否可以把这些数据也写一份到磁盘上呢?
如果采用这种方式,当Redis重启时,我们把磁盘中的数据快速「恢复」到内存中,这样它就可以继续正常提供服务了。
是的,这是一个很好的解决方案,这个把内存数据写到磁盘上的过程,就是「数据持久化」。
二、数据持久化:有备无患
现在,你设想的Redis数据持久化是这样的:
但是,数据持久化具体应该怎么做呢?
我猜你最容易想到的一个方案是,Redis每一次执行写操作,除了写内存之外,同时也写一份到磁盘上,就像这样:
没错,这是最简单直接的方案。
但仔细想一下,这个方案有个问题:客户端的每次写操作,既需要写内存,又需要写磁盘,而写磁盘的耗时相比于写内存来说,肯定要慢很多!这势必会影响到Redis的性能。
如何规避这个问题?
这时我们需要分析写磁盘的细节问题了。
我们都知道,要把内存数据写到磁盘,其实是分2步的:
程序写文件的PageCache(write)
把PageCache刷到磁盘(fsync)
具体就是下图这样:
数据持久化最粗暴的思路就是上面提到的那样,写完Redis内存后,同步写PageCache+fsync磁盘,当然,这样肯定因为磁盘拖慢整个写入速度。
如何优化?也很简单,我们可以这样做:Redis写内存由主线程来做,写内存完成后就给客户端返回结果,然后Redis用「另一个线程」去写磁盘,这样就可以避免主线程写磁盘对性能的影响。
这种持久化方案,其实就是我们经常听到的Redis AOF(Append Only File)。
Redis AOF持久化提供了3种刷盘机制:
appendfsync always:主线程同步fsync
appendfsync no:由OS fsync
appendfsync everysec:后台线程每间隔1秒fsync
解决了数据实时持久化,我们还会面临另一个问题,数据实时写入AOF,随着时间的推移,AOF文件会越来越大,那使用AOF恢复时变得非常慢,这该怎么办?
Redis很贴心地提供了AOF rewrite方案,俗称AOF「瘦身」,顾名思义,就是压缩AOF的体积。
因为AOF里记录的都是每一次写命令,例如执行set k1 v1,set k1 v2,其实我们只关心数据的最终版本v2就可以了。AOF rewrite正是利用了这个特点,在AOF体积越来越大时(超过设定阈值),Redis就会定期重写一份新的AOF,这个新的AOF只记录数据的最终版本就可以了。
这样就可以压缩AOF体积。
除此之外,我们可以换个角度,思考一下还有什么方式可以持久化数据?
这时你就要结合Redis的使用场景来考虑了。
回忆一下,我们在使用Redis时,通常把它用作什么场景?
是的,缓存。
把Redis当做缓存来用,意味着尽管Redis中没有保存全量数据,对于不在缓存中的数据,我们的业务应用依旧可以通过查询后端数据库得到结果,只不过查询后端数据的速度会慢一点而已,但对业务结果其实是没有影响的。
基于这个特点,我们的Redis数据持久化还可以用「数据快照」的方式来做。
那什么是数据快照呢?
简单来讲,你可以这么理解:
你把Redis想象成一个水杯,向Redis写入数据,就相当于往这个杯子里倒水。
此时你拿一个相机给这个水杯拍一张照片,拍照的这一瞬间,照片中记录到这个水杯中水的容量,就是水杯的数据快照。
也就是说,Redis的数据快照,是记录某一时刻下Redis中的数据,然后只需要把这个数据快照写到磁盘上就可以了。
它的优势在于,只在需要持久化时,把数据「一次性」写入磁盘,其它时间都不需要操作磁盘。
基于这个方案,我们可以「定时」给Redis做数据快照,把数据持久化到磁盘上。
这种方案就是我们经常听到的Redis RDB,RDB采用「定时快照」的方式进行数据持久化,它的优点是:
持久化文件体积小(二进制+压缩)
写盘频率低(定时写入)
缺点也很明显,因为是定时持久化,数据肯定没有AOF实时持久化完整,如果你的Redis只当做缓存,对于丢失数据不敏感(可从后端的数据库查询),那这种持久化方式是非常合适的。
如果让你来选择持久化方案,你可以这样选择:
业务对于数据丢失不敏感,选RDB。
业务对数据完整性要求比较高,选AOF。
理解了RDB和AOF,我们再进一步思考一下,有没有什么办法,既可以保证数据完整性,还能让持久化文件体积更小,恢复更快呢?
回顾一下我们前面讲到的,RDB和AOF各自的特点:
RDB以二进制+数据压缩方式存储,文件体积小。
AOF记录每一次写命令,数据最全。
我们可否利用它们各自的优势呢?
当然可以,这就是Redis的「混合持久化」。
要想数据完整性更高,肯定就不能只用RDB了,重点还是要放在AOF优化上。
具体来说,当AOF在做rewrite时,Redis先以RDB格式在AOF文件中写入一个数据快照,再把在这期间产生的每一个写命令,追加到AOF文件中。
因为RDB是二进制压缩写入的,这样AOF文件体积就变得更小了。
因为AOF体积进一步压缩,你在使用AOF恢复数据时,这个恢复时间就会更短了!
Redis4.0以上版本才支持混合持久化。
注意:混合持久化是对AOF rewrite的优化,这意味着使用它必须基于AOF+AOF rewrite。
这么一番优化,你的Redis再也不用担心实例宕机了,当发生宕机时,你就可以用持久化文件快速恢复Redis中的数据。
但这样就没问题了吗?
仔细想一下,虽然我们已经把持久化的文件优化到最小了,但在恢复数据时依旧是需要时间的,在这期间你的业务应用无法提供服务,这怎么办?
一个实例宕机,只能用恢复数据来解决,那我们是否可以部署多个Redis实例,然后让这些实例数据保持实时同步,这样当一个实例宕机时,我们在剩下的实例中选择一个继续提供服务就好了。
没错,这个方案就是接下来要讲的「主从复制:多副本」。
三、主从复制:多副本
你可以部署多个Redis实例,架构模型就变成了这样:
我们这里把实时读写的节点叫做master,另一个实时同步数据的节点叫做 slave。
采用多副本的方案,它的优势是:
缩短不可用时间:master发生宕机,我们可以手动把slave提升为master继续提供服务。
提升读性能:让slave分担一部分读请求,提升应用的整体性能。
这个方案不错,不仅节省了数据恢复的时间,还能提升性能。
但它的问题在于:当master宕机时,我们需要「手动」把slave提升为master,这个过程也是需要花费时间的。
虽然比恢复数据要快得多,但还是需要人工介入处理。一旦需要人工介入,就必须要算上人的反应时间、操作时间,所以,在这期间你的业务应用依旧会受到影响。
我们是否可以把这个切换的过程,变成自动化?
四、哨兵:故障自动切换
要想自动切换,肯定不能依赖人了。
现在,我们可以引入一个「观察者」,让这个观察者去实时监测master的健康状态,这个观察者就是「哨兵」。
具体如何做?
哨兵每间隔一段时间,询问master是否正常。
master正常回复,表示状态正常,回复超时表示异常。
哨兵发现异常,发起主从切换。
有了这个方案,就不需要人去介入处理了,一切就变得自动化了,是不是很爽?
但这里还有一个问题,如果master状态正常,但这个哨兵在询问master时,它们之间的网络发生了问题,那这个哨兵可能会「误判」。
这个问题怎么解决?
既然一个哨兵会误判,那我们可以部署多个哨兵,让它们分布在不同的机器上,让它们一起监测master的状态,流程就变成了这样:
多个哨兵每间隔一段时间,询问master是否正常。
master正常回复,表示状态正常,回复超时表示异常。
一旦有一个哨兵判定master异常(不管是否是网络问题),就询问其它哨兵,如果多个哨兵(设置一个阈值)都认为master异常了,这才判定master确实发生了故障。
多个哨兵经过协商后,判定master故障,则发起主从切换。
所以,我们用多个哨兵互相协商来判定master的状态,这样,就可以大大降低误判的概率。
哨兵协商判定master异常后,这里还有一个问题:由哪个哨兵来发起主从切换呢?
答案是,选出一个哨兵「领导者」,由这个领导者进行主从切换。
问题又来了,这个领导者怎么选?
想象一下,在现实生活中,选举是怎么做的?
是的,投票。
在选举哨兵领导者时,我们可以制定这样一个选举规则:
每个哨兵都询问其它哨兵,请求对方为自己投票。
每个哨兵只投票给第一个请求投票的哨兵,且只能投票一次。
首先拿到超过半数投票的哨兵,当选为领导者,发起主从切换。
这个选举的过程就是我们经常听到的:分布式系统领域中的「共识算法」。
什么是共识算法?
我们在多个机器部署哨兵,它们需要共同协作完成一项任务,所以它们就组成了一个「分布式系统」。
在分布式系统领域,多个节点如何就一个问题达成共识的算法,就叫共识算法。
在这个场景下,多个哨兵共同协商,选举出一个都认可的领导者,就是使用共识算法完成的。
这个算法还规定节点的数量必须是奇数个,这样可以保证系统中即使有节点发生了故障,剩余超过「半数」的节点状态正常,依旧可以提供正确的结果,也就是说,这个算法还兼容了存在故障节点的情况。
共识算法在分布式系统领域有很多,例如Paxos、Raft,哨兵选举领导者这个场景,使用的是Raft共识算法,因为它足够简单,且易于实现。
到这里我们先小结一下。
你的Redis从最简单的单机版,经过数据持久化、主从多副本、哨兵集群,这一路优化下来,你的Redis不管是性能还是稳定性,都越来越高,就算节点发生故障,也不用担心了。
Redis以这样的架构模式部署,基本上就可以稳定运行很长时间了。
...
随着时间的发展,你的业务体量开始迎来了爆炸性增长,此时你的架构模型,还能够承担这么大的流量吗?
我们一起来分析一下:
数据怕丢失:持久化(RDB/AOF)
恢复时间久:主从副本(副本随时可切)
手动切换时间长:哨兵集群(自动切换)
读存在压力:扩容副本(读写分离)
写存在压力:一个mater扛不住怎么办?
可见,现在剩下的问题是,当写请求量越来越大时,一个master实例可能就无法承担这么大的写流量了。
要想完美解决这个问题,此时你就需要考虑使用「分片集群」了。
五、分片集群:横向扩展
什么是「分片集群」?
简单来讲,一个实例扛不住写压力,那我们是否可以部署多个实例,然后把这些实例按照一定规则组织起来,把它们当成一个整体,对外提供服务,这样不就可以解决集中写一个实例的瓶颈问题吗?
所以,现在的架构模型就变成了这样:
现在问题又来了,这么多实例如何组织呢?
我们制定规则如下:
每个节点各自存储一部分数据,所有节点数据之和才是全量数据。
制定一个路由规则,对于不同的key,把它路由到固定一个实例上进行读写。
数据分多个实例存储,那寻找key的路由规则需要放在客户端来做,具体就是下面这样:
这种方案也叫做「客户端分片」,这个方案的缺点是,客户端需要维护这个路由规则,也就是说,你需要把路由规则写到你的业务代码中。
如何做到不把路由规则耦合在客户端业务代码中呢?
继续优化,我们可以在客户端和服务端之间增加一个「中间代理层」,这个代理就是我们经常听到的Proxy,路由转发规则,放在这个Proxy层来维护。
这样,客户端就无需关心服务端有多少个Redis节点了,只需要和这个Proxy交互即可。
Proxy会把你的请求根据路由规则,转发到对应的Redis节点上,而且,当集群实例不足以支撑更大的流量请求时,还可以横向扩容,添加新的Redis实例提升性能,这一切对于你的客户端来说,都是透明无感知的。
业界开源的Redis分片集群方案,例如Twemproxy、Codis就是采用的这种方案。
这种方案的优点在于,客户端无需关心数据转发规则,只需要和Proxy打交道,客户端像操作单机Redis那样去操作后面的集群,简单易用。
架构演进到目前为止,路由规则无论是客户端来做,还是Proxy来做,都是「社区」演进出来的分片解决方案,它们的特点是集群中的Redis节点,都不知道对方的存在,只有客户端或Proxy才会统筹数据写到哪里,从哪里读取,而且它们都依赖哨兵集群负责故障自动切换。
也就是说我们其实就是把多个孤立的Redis节点,自己组合起来使用。
Redis在3.0其实就推出了「官方」的Redis Cluster分片方案,但由于推出初期不稳定,所以用的人很少,也因此业界涌现出了各种开源方案,上面讲到的Twemproxy、Codis分片方案就是在这种背景下诞生的。
但随着Redis Cluster方案的逐渐成熟,业界越来越多的公司开始采用官方方案(毕竟官方保证持续维护,Twemproxy、Codis目前都逐渐放弃维护了),Redis Cluster方案比上面讲到的分片方案更简单,它的架构如下。
Redis Cluster无需部署哨兵集群,集群内Redis节点通过Gossip协议互相探测健康状态,在故障时可发起自动切换。
另外,关于路由转发规则,也不需要客户端自己编写了,Redis Cluster提供了「配套」的SDK,只要客户端升级SDK,就可以和Redis Cluster集成,SDK会帮你找到key对应的Redis节点进行读写,还能自动适配Redis节点的增加和删除,业务侧无感知。
虽然省去了哨兵集群的部署,维护成本降低了不少,但对于客户端升级SDK,对于新业务应用来说,可能成本不高,但对于老业务来讲,「升级成本」还是比较高的,这对于切换官方Redis Cluster方案有不少阻力。
于是,各个公司有开始自研针对Redis Cluster的Proxy,降低客户端的升级成本,架构就变成了这样:
这样,客户端无需做任何变更,只需把连接地址切到Proxy上即可,由Proxy负责转发数据,以及应对后面集群增删节点带来的路由变更。
至此,业界主流的Redis分片架构已经成型,当你使用分片集群后,对于未来更大的流量压力,也都可以从容面对了!
总结
总结一下,我们是如何从0到1,再从1到N构建一个稳定、高性能的Redis集群的,从这之中你可以清晰地看到Redis架构演进的整个过程。
数据怕丢失->持久化(RDB/AOF)
恢复时间久->主从副本(副本随时可切)
故障手动切换慢->哨兵集群(自动切换)
读存在压力->扩容副本(读写分离)
写存在压力/容量瓶颈->分片集群
分片集群社区方案->Twemproxy、Codis(Redis节点之间无通信,需要部署哨兵,可横向扩容)
分片集群官方方案->Redis Cluster(Redis节点之间Gossip协议,无需部署哨兵,可横向扩容)
业务侧升级困难->Proxy+Redis Cluster(不侵入业务侧)
至此,我们的Redis集群才得以长期稳定、高性能地为我们的业务提供服务。
希望这篇文章可以帮你更好地理解Redis架构的演进之路。
作者简介
谭帅
腾讯后台开发工程师
腾讯后台开发工程师,目前负责TCS/TCE容器化Redis研发工作,对Redis架构有过深入理解。
推荐阅读