• Latch导致MySQL Crash


    作者:沃趣科技数据库专家 董红禹

    问题概述

    最近我们遇到一个MySQL的问题,分析后很有代表意义,特地写出来供大家参考。出现问题是,数据库先是被置为只读,然后过了一段时间,MySQL直接Crash掉了,发生Crash时MySQL的error日志中打印了以下内容:

    根据日志中我们可以看到,线程140363572082432要对记录上一个X锁,但是等待0x7fa949340740线程的RW-Latch的释放。

    我们再向下看查询到如下信息(涉及到用户信息 谓词就用xxx代替):

    根据上面信息我们去数据库中查看了这些select语句,发现执行计划都是全表扫描。首先数据库变成了只读,最后数据库Crash了,Crash输出的信息如下:

    InnoDB: Error: semaphore wait has lasted > 600 seconds 提示600秒没有响应 数据库选择了Crash 强制重启。从报错信息来看:

    1,update语句需要在记录上面加X锁,但是必须等待RW-Latch的释放

    2,由于有大量的select语句是全表扫描,一直占用Latch没有释放,update迟迟竞争不到RW-latch

    3,Innodb 的Diagnostic线程检查到RW-Latch等待超过了600秒还没有返回,认为系统出现了严重问题,于是触发了MySQL服务的Crash。

    进一步分析

    这里首先需要补充一下Latch的概念:Latch在MySQL中是用于保护高速缓冲区中共享数据的.

    举个例子:

    当我们执行select时,数据是缓存在buffer pool中的,多个线程并发访问或者修改这个数据必然需要一个并发控制机制,这个就是Latch

    大家知道,数据库要访问的数据都必须先存在缓存中,而缓存一般比磁盘空间要小,数据缓存使用hash表来记录数据页是否在内存中。在Oracle中的并发控制比较精细:首先会对hash桶加latch,并根据hash桶查找对应的数据并加上pin,然后释放Latch。而MySQL相对没有控制得这么精细,对应的RW-Latch在errlog中说的很清楚,该RW-Latch是在buf0buf.cc的1069行创建的 RW-latch at 0x7fa949340740 created in file buf0buf.cc line 1069

    对应的代码摘录如下:

    跟踪源码,知道这个Latch是MySQL在数据库启动,初始化 innodb_buffer_pool时,将Latch创建好的。对应的函数调用过程:

    正是由于这个RW-Latch被长时间占用了,其他的线程一直竞争不到,才导致了这个问题。

    修复建议

    这类问题的发生多数都是因为SQL写的不好,在表上面进行了大量的全表扫描占用了大量的Latch,解决方案就是避免SQL长时间占用Latch:

    1,修改select查询避免全表扫描,避免Latch长期被占用。

    2,适当的加索引,让select执行更快,也避免一个select锁的数据更少。

    3,适当加大buffer pool instance,每个buffer pool都有自己独立的Latch,避免latch竞争。

  • 相关阅读:
    Halcon算子翻译——else
    Halcon算子翻译——default
    halcon算子翻译——continue
    Halcon算子翻译——catch
    Halcon算子翻译——case
    生命周期
    输入流输出流
    在搜索引擎中输入汉字就可以解析到对应的域名,请问如何用LoadRunner进行测试。
    给你一个网站,你如何测试?
    你在测试中发现了一个bug,但是开发经理认为这不是一个bug,你应该怎样解决?
  • 原文地址:https://www.cnblogs.com/DataArt/p/10348385.html
Copyright © 2020-2023  润新知