面试:有一种数据类型,Redis 要存两次,为什么?
作者:双子孤狼
来源:blog.csdn.net/zwx900102/article/details/113096979
在 Redis 中,有一种数据类型,当在存储的时候会同时采用两种数据结构来进行分别存储,那么 Redis 为什么要这么做呢?这么做会造成同一份数据占用两倍空间吗?
五种基本类型之集合对象
Redis 中的集合对象是一个包含字符串类型元素的无序集合,集合中元素唯一不可重复。
集合对象的底层数据结构有两种:intset 和 hashtable。内部通过编码来进行区分:
intset 编码
int16_t
,int32_t
,int64_t
的整数值,并且保证集合中没有重复元素。inset.h
内):typedef struct intset {
uint32_t encoding;//编码方式
uint32_t length;//当前集合中的元素数量
int8_t contents[];//集合中具体的元素
} intset;
encoding
INTSET_ENC_INT16
此时 contents[]
内的每个元素都是一个 int16_t 类型的整数值,范围是:-32768 ~ 32767
(-2 的 15 次方 ~ 2 的 15 次方 - 1)。
INTSET_ENC_INT32
此时 contents[]
内的每个元素都是一个 int32_t 类型的整数值,范围是:-2147483648 ~ 2147483647
(-2 的 31 次方 ~ 2 的 31 次方 - 1)。
INTSET_ENC_INT64
此时 contents[]
内的每个元素都是一个 int64_t 类型的整数值,范围是:-9223372036854775808 ~ 9223372036854775807
(-2 的 63 次方 ~ 2 的 63 次方 - 1)。
contents[]
contents[]
虽然结构的定义上写的是 int8_t 类型,但是实际存储类型是由上面的 encoding 来决定的。
整数集合的升级
根据新添加元素的类型来扩展底层数组空间的大小,按照升级后现有元素的位数来分配新的空间。 将现有的元素进行类型转换,并将转换类型后的元素从后到前逐个重新放回到数组内。 将新元素放到数组的头部或者尾部(因为触发升级的条件就是当前数组的整数类型无法存储新元素,所以新元素要么比现有元素都大,要么就比现有元素都小)。 将 encoding 属性修改为最新的编码,并且同步修改 length 属性。
PS:和字符串对象的编码一样,整数集合的类型一旦发生升级,将会保持编码,无法降级。
升级示例
1.假如我们有一个集合存储的 encoding 是 int16_t
,内部存储了 3 个元素:
2.这时候需要插入一个整数 50000,发现存储不下去,而 50000 是一个 int32_t
类型整数,所以需要申请新空间,申请空间大小为 4 * 32 - 48=80
。
3.现在新的数组内要放置 4 个元素,原来的数组排在第 3,所以需要将升级后的 3 移动到 64-95 位。
4.继续将升级后的 2 移动到 32-63 位。
5.继续将升级后的 1 移动到 0-31 位。
6.然后会将 50000 放到 96-127 位。
7.最后会修改 encoding 和 length 属性,修改之后就完成了本次的升级。
hashtable 编码
hashtable 结构在前面讲述哈希对象的时候进行过详细分析
intset 和 hashtable 编码转换
当一个集合满足以下两个条件时,Redis 会选择使用 intset 编码:
集合对象保存的所有元素都是整数值。 集合对象保存的元素数量小于等于 512 个(这个阈值可以通过配置文件 set-max-intset-entries
来控制)。
一旦集合中的元素不满足上面两个条件,则会选择使用 hashtable 编码。
集合对象常用命令
sadd key member1 member2
:将一个或多个元素 member 加入到集合 key 当中,并返回添加成功的数目,如果元素已存在则被忽略。sismember key member
:判断元素 member 是否存在集合 key 中。srem key member1 member2
:移除集合 key 中的元素,不存在的元素会被忽略。smove source dest member
:将元素 member 从集合 source 中移动到 dest 中,如果 member 不存在,则不执行任何操作。smembers key
:返回集合 key 中所有元素。
sadd num 1 2 3 //设置 3 个整数的集合,会使用 intset 编码
type num //查看类型
object encoding num //查看编码
sadd name 1 2 3 test //设置 3 个整数和 1 个字符串的集合,会使用 hashtable 编码
type name //查看类型
object encoding name //查看编码
五种基本类型之有序集合对象
skiplist 编码
跳跃表
O(n)
。第 1 种就是执行 level1 层级的指针,需要遍历 7 次( 1->8->9->12->15->20->35
)才能找到元素 35。第 2 种就是执行 level2 层级的指针,只需要遍历 5 次( 1->9->12->15->35
)就能找到元素 35。第 3 种就是执行 level3 层级的元素,这时候只需要遍历 3 次( 1->12->35
)就能找到元素 35 了,大大提升了效率。
skiplist 的存储结构
zskiplistNode
节点(源码 server.h
内):typedef struct zskiplistNode {
sds ele;//元素
double score;//分值
struct zskiplistNode *backward;//后退指针
struct zskiplistLevel {//层
struct zskiplistNode *forward;//前进指针
unsigned long span;//当前节点到下一个节点的跨度(跨越的节点数)
} level[];
} zskiplistNode;
level(层)
level 即跳跃表中的层,其是一个数组,也就是说一个节点的元素可以拥有多个层,即多个指向其他节点的指针,程序可以通过不同层级的指针来选择最快捷的路径提升访问速度。
level 是在每次创建新节点的时候根据幂次定律(power law)随机生成的一个介于 1~32 之间的数字。
forward(前进指针)
每个层都会有一个指向链表尾部方向元素的指针,遍历元素的时候需要使用到前进指针。
span(跨度)
跨度记录了两个节点之间的距离,需要注意的是,如果指向了 NULL 的话,则跨度为 0。
backward(后退指针)
和前进指针不一样的是后退指针只有一个,所以每次只能后退至前一个节点(上图中没有画出后退指针)。
ele(元素)
跳跃表中元素是一个 sds 对象(早期版本使用的是 redisObject 对象),元素必须唯一不能重复。
score(分值)
节点的分值是一个 double 类型的浮点数,跳跃表中会将节点按照分值按照从小到大的顺序排列,不同节点的分值可以重复。
上面介绍的只是跳跃表中的一个节点,多个 zskiplistNode 节点组成了一个 zskiplist 对象:
typedef struct zskiplist {
struct zskiplistNode *header, *tail;//跳跃表的头节点和尾结点指针
unsigned long length;//跳跃表的节点数
int level;//所有节点中最大的层数
} zskiplist;
typedef struct zset {
dict *dict;//字典对象
zskiplist *zsl;//跳跃表对象
} zset;
为什么同时选择使用字典和跳跃表
ziplist 编码
https://blog.csdn.net/zwx900102/article/details/112651435
ziplist 和 skiplist 编码转换
有序集合对象中保存的元素个数小于 128 个(可以通过配置 zset-max-ziplist-entries
修改)。有序集合对象中保存的所有元素的总长度小于 64 字节(可以通过配置 zset-max-ziplist-value
修改)。
有序集合对象常用命令
zadd key score1 member1 score2 member2
:将一个或多个元素(member)及其 score 添加到有序集合 key 中。zscore key member
:返回有序集合 key 中 member 成员的 score。zincrby key num member
:将有序集合 key 中的 member 加上 num,num 可以为负数。zcount key min max
:返回有序集合 key 中 score 值在 [min,max] 区间的 member 数量。zrange key start stop
:返回有序集合 key 中 score 从小到大排列后在 [start,stop] 区间的所有 member。zrevrange key start stop
:返回有序集合 key 中 score 从大到小排列后在 [start,stop] 区间的所有 member。zrangebyscore key min max
:返回有序集合中按 score 从小到大排列后在 [min,max] 区间的所有元素。注意这里默认是闭区间,但是可以在 max 和 min 的数值前面加上(
或者[
来控制开闭区间。zrevrangebyscore key max min
:返回有序集合中按 score 从大到小排列后在 [min,max] 区间的所有元素。注意这里默认是闭区间,但是可以在 max 和 min 的数值前面加上(
或者[
来控制开闭区间。zrank key member
:返回有序集合中 member 中元素排名(从小到大),返回的结果从 0 开始计算。zrevrank key member
:返回有序集合中 member 中元素排名(从大到小),返回的结果从 0 开始计算。zlexcount key min max
:返回有序集合中 min 和 max 之间的 member 数量。注意这个命令中的 min 和 max 前面必须加(
或者[
来控制开闭区间,特殊值 - 和 + 分别表示负无穷和正无穷。
zset-max-ziplist-entries
修改为 2,然后重启 Redis 服务。zadd name 1 zs 2 lisi //设置 2 个元素会使用 ziplist
type name //查看类型
object encoding name //查看编码
zadd address 1 beijing 2 shanghai 3 guangzhou 4 shenzhen //设置4个元素则会使用 skiplist编码
type address //查看类型
object encoding address //查看编码
总结
本文主要分析了集合对象和有序集合对象的底层存储结构 intset 和 skiplist 的实现原理,并且重点分析了有序集合如何实现排序以及为何同时使用两种数据结构(字典和跳表)同时进行进行存储数据的原因。
END
往期精彩不用 Spring 居然连最基本的接口都不会写了!
Spring 三级缓存解决循环依赖
JVM 内存布局详解,图文并茂,写得太好了!
IDEA Debug过程中如何回退操作?
聊一聊数据库的行存与列存
关注后端面试那些事,回复【2022面经】
获取最新大厂Java面经