昨天有朋友咨询了个RegionServer宕机找不到日志无法定位原因的问题,干脆就系统整理下JVM服务宕机的可能原因,方便按照思路去找真正的宕机原因。
1. abort()/halt()/exit()
有些服务会采用lei it crash的思想,在一些超时较久、资源不足的场景下可能会采取直接abort(像部分C服务也会对一些错误的参数直接abort产生core),尤其在HBase RegionServer和Phoenix 实现的coprocessor里有好几处这样的代码。通常鲁棒性高的服务abort后也会有对应的主从、多活、拉起等措施保证用户端影响最小。
在实现的好的代码中,所有退出都应当是有日志的。因此首先看自己的服务日志有没有相关退出信息。这里需注意,Java用通用的log4j可能还比较好;部分C++的logger配置不好的话,为了性能,flush落盘频率较低,偶尔会有服务退出了,日志没刷完的情况。
2. 非人为代码的JVM 虚拟机退出
通常有几种情况:
2.1. JVM本身问题,最常见的就是各类OOM。这个调vm配置、调GC优化就好了。
2.2. JNI退出。如果调用了一些第三方JNI,有时有可能会出现JNI里的C/C++代码core了导致vm崩溃。此时一般会打出 dump日志(强烈建议jvm启动时加上dump参数指定dump日志位置),dump日志里会有core的原因,c++的stacktrace,崩溃时的一些内存信息等信息。如果开启了core的机器(ulimit -c 设置),还会见到.core文件的产生,可用于gdb跟踪。
2.3. OS内存不足kill进程。这种是看起来悄无声息地结束的,没有dump日志和core。此时需要看下os级别的日志 /var/log/message,翻到宕机时间点,通常能看到OOM killed的信息。
3. 服务器关机/重启
此时和你的服务不一定有什么关系了。需联系运维先查清楚服务器关机的原因,通常是人为或定时reboot、硬件兼容、内核问题等。