• JVM服务进程挂掉问题定位查询思路


    昨天有朋友咨询了个RegionServer宕机找不到日志无法定位原因的问题,干脆就系统整理下JVM服务宕机的可能原因,方便按照思路去找真正的宕机原因。

    1. abort()/halt()/exit()

    有些服务会采用lei it crash的思想,在一些超时较久、资源不足的场景下可能会采取直接abort(像部分C服务也会对一些错误的参数直接abort产生core),尤其在HBase RegionServer和Phoenix 实现的coprocessor里有好几处这样的代码。通常鲁棒性高的服务abort后也会有对应的主从、多活、拉起等措施保证用户端影响最小。

    在实现的好的代码中,所有退出都应当是有日志的。因此首先看自己的服务日志有没有相关退出信息。这里需注意,Java用通用的log4j可能还比较好;部分C++的logger配置不好的话,为了性能,flush落盘频率较低,偶尔会有服务退出了,日志没刷完的情况。

    2. 非人为代码的JVM 虚拟机退出
    通常有几种情况:
    2.1.  JVM本身问题,最常见的就是各类OOM。这个调vm配置、调GC优化就好了。
    2.2. JNI退出。如果调用了一些第三方JNI,有时有可能会出现JNI里的C/C++代码core了导致vm崩溃。此时一般会打出 dump日志(强烈建议jvm启动时加上dump参数指定dump日志位置),dump日志里会有core的原因,c++的stacktrace,崩溃时的一些内存信息等信息。如果开启了core的机器(ulimit -c 设置),还会见到.core文件的产生,可用于gdb跟踪。
    2.3. OS内存不足kill进程。这种是看起来悄无声息地结束的,没有dump日志和core。此时需要看下os级别的日志 /var/log/message,翻到宕机时间点,通常能看到OOM killed的信息。

    3. 服务器关机/重启
    此时和你的服务不一定有什么关系了。需联系运维先查清楚服务器关机的原因,通常是人为或定时reboot、硬件兼容、内核问题等。

  • 相关阅读:
    AngularJS实现跨域请求
    从古代名著看领导与被领导的艺术
    关于学习视频教程的反思之中的一个
    关于tcp中time_wait状态的4个问题
    AjaxPro因为汉字文件夹引发的IE兼容性问题
    MySQL无法重启问题解决Warning: World-writable config file ‘/etc/my.cnf’ is ignored
    安全运维之:Linux系统账户和登录安全
    mongodb导入导出备份恢复
    mongodb数据库备份恢复
    mongodb
  • 原文地址:https://www.cnblogs.com/lhfcws/p/10695113.html
Copyright © 2020-2023  润新知