客户现场反馈,top的检查结果中,一个CPU的占用一直是100%。实际上现场有4个CPU,而且这个服务器是mysql专属服务器。
我的第一反应是io_thread一类的参数设置有问题,检查以后发现read和write的thread设置都是4,这和CPU数一致,因此可以断定这并不是单颗CPU占用过高的问题。
接下来需要确认MySQL究竟有没有利用到多核CPU,这个时候需要的工具叫做pidstat,命令如下:
pidstat -u -t -p 18158
得到的结果如下图所示:
可以看出其实mysqld是可以利用到多核CPU的,那么此时可以得到一个推断:
某个CPU上做的事情太占资源了
一般这种最占资源的工作一定会在INNODB_TRX里留下一些端倪,因此检查一下:
反复的检查TRX,发现mysql在不停的执行这个SQL,只是where条件里的值发生了变化,至此我可以推断出业务应该是写了一个循环来遍历一个list,然后对每个item都执行update操作。
应该是写了这么一段代码在处理问题:
for (item in list) {
update_db(item);
}
检查这个表并没有索引,给where条件中的列加上索引,再次检查CPU的占用,发现现在的占用已经降低到了16%左右,虽然还是很高,但是已经实际上解决了该问题。
这里我有点感慨,DBA并不是你会写SQL就可以干的,DBA实际上是运维人员的一种,运维要掌握多少种技能恐怕只有运维小伙伴们清楚,其实技术难度并不比写Java
代码低。DBA掌握多少种检查问题的手段,DBA面对问题时能不能第一时间找准方向,这都是经验和功力的展现。