服务部署在Linux服务器,定位问题的方法,主要也是使用相关的Linux命令与JDK查看堆栈,GC日志等相关命令。
1.问题发现
top 查看当前服务器各个进程运行占用CPU,内存等情况。
发现PID为26916进程占用CPU过高
2.问题分析
top -Hp 26916,显示一个进程的线程运行信息列表。
发现进程中以上截图中的线程占用CPU过高。
如何定位具体什么线程导致?
jstack 分析线程堆栈信息,具体相关命令自行百度。由于堆栈信息中线程PID号是16进制,26929需要转化16进制。
printf '%x ' 26929
jstack 26916 | grep '6931' -C5 --color 获取线程运行的堆栈信息
发现是GC线程占用的CPU,进一步验证结论,需要查看GC日志以及堆内存信息。
3.问题验证
jstat -gcutil 26916 1000 打印GC回收日志统计分析
发现FULLGC的次数变化比较大,年老代内存已经溢出
jmap -heap 26916 查看进程堆内存的使用情况
年轻代与年老代的内存已使用完,基本可以定位是频繁的GC导致CPU过高。
4.问题解决
已经定位到JVM内存不足导致频繁FULLGC导致CPU使用过高,内存不足还是有大量对象无法回收导致呢?对此,简单分析了一下。
jmap -histo 26916|less 查看进程中大对象
JVM内存总共500M,B和C占用了将近300M,因此,查看程序是否有大量创建对象和String对象。