• JVM线上排查问题过程


    JVM线上排查问题过程

    记录如何排查CPU100%问题。

    当我们把服务发布到服务器上,可能会因为一些问题造成我们的服务器CPU被打满甚至超过100%,那如果我们想知道到底上在做什么操作导致CPU持续过高呢?因为在线上,我们只能通过日志看问题,或者排查到哪个进程或者哪个线程持续占用CPU。然后才能找到具体问题在哪里才能进行解决。

    所以这里我们模拟一个死循环导致CPU过高的情况,然后如何快速的找到问题在哪。

    问题代码

    我们这里只是写了一段死循环的代码,我们把它放到服务器上门直接用java命令跑起来。

    public class DumpDemo {
        public static void main(String[] args) {
            do{
                System.out.println("-------------死循环e----------------");
            }while(true);
        }
    }
    

    在服务上看起来可以看到不断的在打印

    不过在服务器上,如果只是一个死循环,其实上用不了多少CPU的,我们就假设这是一个有问题的代码。

    排查问题

    查找进程

    当发现CPU过高之后,首先我们要找出哪个进程占用了CPU。我们可以使用top命令

    top -c
    

    在显示模式下,然后我们可以通过切换到大写,不断的按大写P就能进行排序,找到最大的CPU看看上哪个进程。

    可以看到进程PID 为 26045的消耗最高。

    查找线程

    我们已经找到了哪个进程最消耗CPU了,接下来,我们当然要找到该进程下,哪个线程CPU消耗最高咯。这里的进程PID是26045,使用命令

    top -Hp PID 显示进程PID下所有的线程
    

    到此我们已经定位到线程了,接下来我们就该用上jvm的命令工具了。

    定位问题代码

    定位到线程26046消耗CPU最高,但是这里我们需要将26046这个线程转为16进制的。因为jvm的进程快照中线程显示是16进制的。(也可以使用Linux命令转换)

    然后我们使用jstack命令,拉到26045进程快照信息,输出到文件中,方便我们查看。

    jstack -l 26045 > ./26045.stack 
    

    然后我们cat该文件,并且grep通过16进制找一下该线程

    cat 26045.stack | grep '65be' -C 20
    

    至此我们就已经找到了问题代码在哪了。 调用链查一查就可以了。

    注意

    • CPU有可能超过100%甚至300%多,因为服务器是多核的。

    Arthas(阿尔萨斯)

    Arthas(阿尔萨斯)是阿里巴巴开源的 Java 诊断工具,直接jar包启动即可,每隔一段时间就会生成一个系统的快照进行展示信息。

    Dashboard

    我们从 arthas 中,可以看到该项目的堆使用率,如果发现很高,肯定就是出现了 OOM 问题了,此时,我们只需要按一下'q'键, 然后输入’heapdump‘ 回车,就会看到正在生成一个 hprof 文件,稍等 1 分钟左右,就生成结束,就可以去 Tomcat 的 temp 路径下查找这个文件。

    把文件下载下来,然后用 MAT 工具打开 , 这里就详细地看到了具体的类 。

    参考资料

  • 相关阅读:
    ElasticSearch大数据分布式弹性搜索引擎使用—从0到1
    使用Fiddler搭建手机调试环境(我做得项目是调试微信的公众号)
    Ajax的三种实现及JSON解析
    jquery ajax调用返回json格式数据处理
    jsp页面格式化数字或时间
    java组装json和提取一个json的例子
    span的onclick事件
    Android Studio创建库项目及引用
    xmlns:android="http://schemas.android.com/apk/res/android的作用是
    Android中attrs.xml文件的使用详解
  • 原文地址:https://www.cnblogs.com/renxiuxing/p/15170928.html
Copyright © 2020-2023  润新知