今天下午业务找我说是线上环境一个mysql库很慢,请求出现了大量的超时,让帮忙看看,以下为查找过程及甩锅过程。
1. mysql请求超时,ok,我们所有线上mysql都是开启了慢查询日志的,查找慢查询日志文件,没有发现所说的超时的查询。
2. 那就再看看有没有没有提交的事务,死锁等情况发生吧。
show engine innodb status; 发现最近的一次死锁是1个月之前的。
select * from information_schema.locks;
select * from information_schema.lock_waits;
select * from information_schema.trx; 无异常。
3. 经过上面两步,基本可以确定mysql无异常,随后告知运维,让运维帮忙确认网络情况。
4. 5分钟后,运维告知网络一切正常,但是业务日志中还是存在大量超时。
5. 那就抓个包吧,询问业务报超时的服务器ip,使用tcpdump抓个包看看一个请求从进入数据库服务器到返回到底用了多长时间:
tcpdump -i eth0 host 10.6.77.73 -A > tcp.pkg
最终发现一个请求从进入到返回不到0.1s,ok,告知业务方。