【京东技术双十一】记一次线上问题引发的对 Mysql 锁机制分析
Tech京东技术双十一,参与互动领福利!
双十一京东技术也来送福利啦!今天起将不定时发布三篇注有【京东技术双十一】的“福利文章”,参与对应活动,即有机会获得丰厚福利。本篇文章是第一篇哦~获奖基本条件:关注京东技术公众号并转发本文至朋友圈截至11月20日10:00在本文下留言超过15字,分享您与京东双十一的故事/感悟,或针对本文的问题/想法等点赞量1—2名将获SKG颈部按摩器第4、6、8名将获罗技无线鼠标第9、10名,第12名-23名将获京东京造保温杯第24名-50名将获JOY毛绒公仔第3、5、7、11名将获得京东20周年纪念鼠标垫+京东技术定制文化衫注:每一评论者仅可获奖一次,若存在多条评论符合条件则获奖资格顺延;若存在并列情况则由运营者结合评论质量人工选择获奖人;领奖方式将另行通知。
京东技术双十一,参与互动领福利!
双十一京东技术也来送福利啦!今天起将不定时发布三篇注有【京东技术双十一】的“福利文章”,参与对应活动,即有机会获得丰厚福利。本篇文章是第一篇哦~获奖基本条件:关注京东技术公众号并转发本文至朋友圈截至11月20日10:00在本文下留言超过15字,分享您与京东双十一的故事/感悟,或针对本文的问题/想法等点赞量1—2名将获SKG颈部按摩器第4、6、8名将获罗技无线鼠标第9、10名,第12名-23名将获京东京造保温杯第24名-50名将获JOY毛绒公仔第3、5、7、11名将获得京东20周年纪念鼠标垫+京东技术定制文化衫注:每一评论者仅可获奖一次,若存在多条评论符合条件则获奖资格顺延;若存在并列情况则由运营者结合评论质量人工选择获奖人;领奖方式将另行通知。01 背景
在今年的敏捷团队建设中,我通过Suite执行器实现了一键自动化单元测试。Juint除了Suite执行器还有哪些执行器呢?由此我的Runner探索之旅开始了!
最近双十一开门红期间组内出现了一次因 Mysql 死锁导致的线上问题,当时从监控可以看到数据库活跃连接数飙升,导致应用层数据库连接池被打满,后续所有请求都因获取不到连接而失败。
整体业务代码精简逻辑如下:
@Transaction
public void service(Integer id) {
delete(id);
insert(id);
}
数据库实例监控:
当时通过分析上游问题流量限流解决后,后续找时间又重新分析了下问题发生的根本原因,现将其总结如下:本篇文章会先对 Mysql 中的各种锁进行分析,包括互斥锁、间隙锁和插入意向锁,让大家对各种锁的使用场景有一个了解,然后在此基础上再对本问题进行分析,希望大家未来再碰到相似场景时,能够快速的定位问题。
02 Mysql锁机制
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将目标页面展示到屏幕。
本篇文章中所有实验用到的建表语句:
create table `test` (
`id` int(11) NOT NULL,
`num` int(11) NOT NULL,
PRIMARY KEY (`id`),
KEY `num` (`num`)
) ENGINE = InnoDB;
insert into
test
values
(10, 10),
(20, 20),
(30, 30),
(40, 40),
(50, 50);
2.1 Shared and Exclusive Locks
S 锁之间不互斥,多个事务可以同时获取一条记录上的 S 锁
X 锁之间互斥,多个事务不能同时获取同一条记录上的 X 锁
S 锁和 X 锁之间互斥,多个事务不能同时获取同一条记录上的 S 锁和 X 锁
当多个事务同时去 update 索引上同一条记录时,都需要先获取到该记录上的 X 锁,所谓的锁也就是会在内存中生成一个数据结构来记录当前的事务信息、锁类型和是否等待等信息。下图中就是 T1 和 T2 同时去更新 id = 30 的这行记录,并且 T1 成功获取到了锁,其在内存中生成的锁结构信息字段 is_wating 为 false,可以继续执行事务的后续逻辑,而 T2 获取锁失败,则生成的锁结构信息字段 is_wating 为 true,阻塞等待 T1 上的锁释放。
RECORD LOCKS space id 58 page no 3 n bits 72 index `PRIMARY` of table `test`.`t`
trx id 10078 lock_mode X locks rec but not gap
Record lock, heap no 2 PHYSICAL RECORD: n_fields 3; compact format; info bits 0
0: len 4; hex 8000000a; asc ;;
1: len 6; hex 00000000274f; asc 'O;;
2: len 7; hex b60000019d0110; asc ;;
2.2 Gap Locks
session A | session B | |
T1 | select num from test where num > 10 and num < 15 for update; (0 rows) | |
T2 | insert into test values(12, 12); | |
T3 | select num from test where num > 10 and num < 15 for update; (1 rows) |
在上面这个场景中,session A 分别在 T1、T3 时刻进行了两次范围查询,session B 在 T2 时刻插入了一条该范围内的数据,如果 session A 能在 T3 时刻查询出 session B 插入的数据,就说明发生了幻读。此时只使用互斥锁是无法解决幻读的,因为 num = 12 的记录在数据库中还不存在,不能给其加上互斥锁来防止 T2 时刻 session B 的插入。
引入了间隙锁之后,session A 在 T1 时刻会给 id = 20 记录生成一个 Gap Locks,之后 session B 在 T2 时刻想要插入记录时,需要先判断待插入位置的后一条记录上是否存在 Gap Locks,很明显此时 id = 20 的记录上已经存在了 Gap Locks,那么session B 就需要在 id = 20 的记录上生成一个插入意向锁,并进入锁等待。
RECORD LOCKS space id 133 page no 3 n bits 80 index PRIMARY of table `test`.`test` trx id 38849 lock_mode X locks gap before rec
Record lock, heap no 4 PHYSICAL RECORD: n_fields 4; compact format; info bits 0
0: len 4; hex 8000001e; asc 30 ;;
1: len 6; hex 00000000969c; asc ;;
2: len 7; hex a60000011a0128; asc (;;
3: len 4; hex 8000001e; asc ;;
间隙锁虽然解决了幻读问题,但因每次都会锁住一段间隙,大大降低了数据库整体的并发度,且因间隙锁和间隙锁之间不互斥,不同事务可以同时对同一间隙加上 Gap Locks,这也往往是各种死锁产生的源头。
2.3 Next-Key Locks
在上面 Gap Locks 的例子中事务 1 加的就是 Next-Key Locks,即同时给 id = 20 的记录加了 X 锁和 Gap 锁。
在可重复读隔离级别下,update 和 delete 操作默认都会给记录添加 Next-Key Locks,Mysql 中 Next-Key Locks 的锁日志信息为:lock_mode X。
RECORD LOCKS space id 58 page no 3 n bits 72 index `PRIMARY` of table `test`.`t`
trx id 10080 lock_mode X
Record lock, heap no 1 PHYSICAL RECORD: n_fields 1; compact format; info bits 0
0: len 8; hex 73757072656d756d; asc supremum;;
Record lock, heap no 2 PHYSICAL RECORD: n_fields 3; compact format; info bits 0
0: len 4; hex 8000000a; asc ;;
1: len 6; hex 00000000274f; asc 'O;;
2: len 7; hex b60000019d0110; asc ;
2.4 Insert Intention Locks
实验模拟如下:
session 1 | session 2 | session 3 | |
T1 | begin; | ||
T2 | select * from test where id = 25 for update; | ||
T3 | insert into test values(26, 26); (blocked) | ||
T4 | insert into test values(26, 26); (blocked) |
对于语句 select * from test where id = 25 for update 因当前表中不存在该记录,在可重复读隔离级别下,为了避免幻读,会给 (20, 30] 间隙加上 Gap Locks。
从锁日志可以看出 session 1 给记录 30 添加了间隙锁(lock_mode X locks gap before rec)。
RECORD LOCKS space id 133 page no 3 n bits 80 index PRIMARY of table `test`.`test` trx id 38849 lock_mode X locks gap before rec
Record lock, heap no 4 PHYSICAL RECORD: n_fields 4; compact format; info bits 0
0: len 4; hex 8000001e; asc 30 ;;
1: len 6; hex 00000000969c; asc ;;
2: len 7; hex a60000011a0128; asc (;;
3: len 4; hex 8000001e; asc ;;
当 session 2 插入记录 26 时,会在 B+ 树中先定位到待插入位置,再判断插入位置的间隙是否存在 Gap Locks,也就是判断待插入位置的后一记录 id = 30 是否存在 Gap Locks,如果存在需要在该记录上生成插入意向锁等待。
RECORD LOCKS space id 133 page no 3 n bits 80 index PRIMARY of table `test`.`test` trx id 38850 lock_mode X locks gap before rec insert intention waiting
Record lock, heap no 4 PHYSICAL RECORD: n_fields 4; compact format; info bits 0
0: len 4; hex 8000001e; asc 30 ;;
1: len 6; hex 00000000969c; asc ;;
2: len 7; hex a60000011a0128; asc (;;
3: len 4; hex 8000001e; asc ;;
03
线上问题分析
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将目标页面展示到屏幕。
在对 Mysql 中的各种锁结构有了一个清晰的了解之后,回过头来再看看前面的线上问题:
@Transaction
public void service(Integer id) {
delete(id);
insert(id);
}
传入的参数 id 在原数据库中不存在 传入的参数 id 在原数据库中存在
本次主要会针对 id 记录在原数据库中不存在进行分析
session 1 | session 2 | session 3 | |
T1 | delete from test where id = 15; | ||
T2 | delete from test where id = 15; | delete from test where id = 15; | |
T3 | insert into test values(15, 15); | ||
T4 | insert into test values(15, 15); | ||
T5 | insert into test values(15, 15); |
因 id = 15 在数据库中不存在,在 T1 时刻 session 1 会给其所在间隙的下一条记录添加上 Gap Locks,又因 Gap Locks 不互斥, 在 T2 时刻 session 2 和session 3 都会同时获取到 id = 20 的 Gap 锁。
下图中 tx: T1、T2、T3 分别代表 session 1、session 2 和 session 3。
当在 T3 时刻 session 1 插入 id = 15 的记录时,会判断其插入位置的后一条记录是否存在 Gap Locks,如果存在,则需要在该记录上生成 Insert Intention Locks 并等待持有 Gap Locks 的事务释放锁。
在 T5 时刻 session 3 开始执行插入语句,此时同 T4 时刻,死锁形成,session 1 生成的插入意向锁正在等待 session 3 上的 Gap Locks 释放,session 3 上生成的插入意向锁正在等待 session 1 上的 Gap Locks 释放,此时 session 3 回滚释放所有锁资源后,session 1 才可以最终执行成功。
看看当时出现线上问题时,接口的调用量情况:
进一步在本地模拟 300 个线程并发执行,因人脑并发分析所有事务的执行情况的话会非常复杂,本次只以事务 1 为一个点来进行分析。
因此对于未来在业务代码中存在相似逻辑的地方,一定要做好防重校验,避免短时间内存在对同一行数据的先更新再插入的并发操作。同时在可重复读隔离别下,更新和删除操作默认都会添加 Next-Key Locks,间隙锁的引入使得死锁问题在并发情况下很容易出现,这也是在业务逻辑实现上需要考虑的问题。
04 总结
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将目
05 写留言 赢福利
理解,首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板,当获取到模板后进行模板加载,加载阶段会将产物转换为视图树的结构,转换完成后将通过表达式引擎解析表达式并取得正确的值,通过事件解析引擎解析用户自定义事件并完成事件的绑定,完成解析赋值以及事件绑定后进行视图的渲染,最终将目
再次介绍本篇文章的福利获取方式
基本条件:关注京东技术公众号并转发本文至朋友圈
截至11月20日10:00
在本文下留言超过15字,分享您与京东双十一的故事/感悟,或针对本文的问题/想法等
点赞量1—2名将获SKG颈部按摩器
第4、6、8名将获罗技无线鼠标
第9、10名,第12名-23名将获京东京造保温杯
第24名-50名将获JOY毛绒公仔
千万级数据深分页查询SQL性能优化实践
LangChain:打造自己的LLM应用
移动端APP组件化架构实践
求分享
求点赞
求在看