• 一次MySQL死锁的排查记录


    前几天线上收到一条告警邮件,生产环境MySQL操作发生了死锁,邮件告警的提炼出来的SQL大致如下。

    update pe_order_product_info_test
            set  end_time = '2021-04-30 23:59:59'
            where order_no = '111111111'
            and product_id = 123456
            and status in (1,2);
    update pe_order_product_info_test
            set  end_time = '2021-04-30 23:59:59'
            where order_no = '222222222'
            and product_id = 123456
            and status in (1,2);      
    

    是一条Update语句,定位了它的调用情况,发现Update的调用方只有一处,并且在Cat中看到一个小时的调用次数只有700多次,这个调用量基本与并发Update引起死锁无关了。

    当时猜测了几种情况,这里Update进行操作时有其他业务方调用Select相关的接口,但是排查了那个时间点发生死锁应用的调用链,发现好像并没有其他会影响到Update的调用。

    为了更进一步了解当时的情况,就联系了DBA老师,要了当时死锁发生时的日志,准备拿到日志之后大干一场,好好分析一下问题,结果...

    DBA老师看了死锁日志直接点出了问题要害——index_merge索引合并。

    1. 什么是索引合并

    这是MySQL在5.1引入的优化技术,再此之前,一个表仅仅只能使用一个索引,但索引合并的引入,可以对同一张表使用多个索引分别进行条件扫描。

    如果要拿索引合并index_merge与只使用一个索引做比较,那么拿上面那个update语句来做演示。

    update pe_order_product_info_test
            set end_time = '2021-04-30 23:59:59'
            where order_no = '111111111'
            and product_id = 123456
            and status in (1,2);
    

    只是用一个索引时,MySQL会选择一个最优的索引来使用,比如使用index_order_no,拿它来找出所有order_no为111111111的索引记录,从该索引上找到它的PRIMARY索引的id,然后回表找到对应的行数据,最后在内存中根据剩下的product_id和status条件来进行过滤。

    但如果MySQL优化器觉得你如果只是用一个索引,拿出大量记录,然后再在内存中使用product_id和status过滤(并且符合该条件的记录值很少),这个第二步效率可能不高时,他就会使用索引合并进行优化。

    如果使用索引合并去判断where条件时,那么它就会先通过index_order_no索引去找到PRIMARY索引的id,再通过index_product_id索引去找到PRIMARY索引的id,最后将两个id集合求交集,再回表找到行数据。(索引合并使用索引的顺序是不确定的)

    2. 场景复现

    在MySQL的Bug反馈文档中也有记录一个Bug #77209的记录,标注了索引合并引发死锁的情况。但是我按照它给出的repeat并不能重现索引合并的场景,在它的实例中早了600万随机数,我猜测可能是MySQL调高了索引合并的条件,将数据量增加到了1000万。

    先来带大家复现一下当时的情况。

    环境:MySQL 5.6.24

    1. 创建一张测试表

      CREATE TABLE `a` (
        `ID` int  AUTO_INCREMENT PRIMARY KEY,
        `NAME` varchar(21),
        `STATUS` int,
        KEY `NAME` (`NAME`),
        KEY `STATUS` (`STATUS`)
      ) engine = innodb;
      
    2. 导入数据,为了方便导入一些随机数据,需要先开启一个兼容性配置。

      set global show_compatibility_56=on;  
      

      开始导入随机数据。

      set @N=0;
      insert into a(ID,NAME,STATUS)
      select
      	@N:=@N+1,
      	@N%1600000, 
      	floor(rand()*4)
       from information_schema.global_variables a, information_schema.global_variables b, information_schema.global_variables c 
      LIMIT 10000000;
      
    3. 测试

      update a set status=5 where rand() < 0.005 limit 1;
      explain UPDATE a SET STATUS = 2 WHERE NAME =  '1000000' AND STATUS = 5;
      

    3. 为什么发生了死锁

    直接上一副图,以及两个update事务的加锁流程。

    可以看到在订单与产品这个模型中,Update事务一和Update事物二在product_id索引和primary索引上都存在交叉重合,这就导致了死锁的发生。

    步数 事务一 事务二
    1 锁住index_order_no索引树上order_no为2222的索引项
    2 锁住index_order_no索引树上order_no为3333的索引项
    3 回表锁住 PRIMARY 索引中 id 为 11 的索引项
    4 回表锁住 PRIMARY 索引中 id 为 12 的索引项
    5 锁住index_product_id索引树上product_id为2000的四个索引项
    6 尝试去锁住index_product_id索引树上product_id为2000的四个索引项,但是已经被事务一锁住,等待事务一释放index_product_id上的锁
    7 试图回表锁住 PRIMARY 索引中 id 为10,11,12,13的索引项,发现id为12的索引项在第4步已经被事务二锁住,等待事务二释放

    这就是本次死锁发生的原因所在了,解决方案有很多种,可以根据具体场景选择。

    1. 删除某一个索引,这当然不是一个好办法
    2. 关闭index_merge优化
    3. 为查询条件增加联合索引,在本例中是product_id和order_no。

    4. 最后

    当然最后这些都是我个人的分析,DBA老师给的建议是直接上联合索引,网上关于索引合并的资料实在太少了,除了官方文档简单扯了扯,剩下的都是转载来转载去的博客,内容都一模一样,DBA老师也不写博客,所以我就只能按我上述这个思路理解了,如果网友有什么问题欢迎指出~

  • 相关阅读:
    Nginx+tomcat负载均衡配置
    详解HttpURLConnection
    tomcat配置文件之Server.xml
    Android ADB命令大全(通过ADB命令查看wifi密码、MAC地址、设备信息、操作文件、查看文件、日志信息、卸载、启动和安装APK等)
    Tomcat多站点部署方式
    跨域、跨服务器调用时候session丢失的问题
    Linux系统的命令别名功能
    CentOS 升级GCC G++
    npm 安装碰到SSL问题
    centos图形界面的开启和关闭
  • 原文地址:https://www.cnblogs.com/LexMoon/p/index_merge.html
Copyright © 2020-2023  润新知