• Linux(2)---记录一次线上服务 CPU 100%的排查过程


    Linux(2)---记录一次线上服务 CPU 100%的排查过程

    当时产生CPU飙升接近100%的原因是因为项目中的websocket时时断开又重连导致CPU飙升接近100% 。如何排查的呢 是通过日志输出错误信息: 得知websocket时时重新
    连接的信息,然后找到原因 解决了。
    当然这里幸好能通过日志大致分析出原因 那么我就在思考如果日志没有告诉任何信息 但线上CPU还是接近100%那么如何排查呢。所以学习了下排查过程。
    通过查阅资料并实践后,这里总结了两种办法。第一种博客满天飞的方法 通过top命令 第二种非常好用 通过大牛写的脚本排查

    一、top命令排查

    1、命令四部曲

    (1)通过top命令,知道CPU最高的进程

    top
    

    (2)具体查看java中哪个线程一直在占用cpu时间(这里我的java进程号是: 8752)

     #java进程ID进行CPU占用排查(sort -rn 以数值的方式进行逆序排列)
     ps -mp 8752 -o THREAD,tid,time | sort -rn | more  
    

    (3)根据2中查找到的CPU最高的排序中的结果,找出几个占用cpu时间比较高的TID,将线程ID转换为16进制

    printf "%x
    " TID
    

    (4)再使用jstack命名查询是哪个线程

    #8752是java进程ID,6669是第三步线程ID转换的16进制
    jstack 8752 |grep 6669 -A 30
    

    2、案例

    (1) top命令

    (2)ps命令

    (3)printf命令

    (4)jstack命令


    二、show-busy-java-threads.sh脚本

    上面的 4 步虽然能够排查问题,但总的还是还是太繁琐耗时了,于是有大神写了个脚本,在有问题的时候一键定位,能够妙计找到问题。这个作者是一个叫淘宝的oldratlee 同学

    1、脚本使用说明

    怎么使用呢?可以看作者的GitHub地址中的文档说明,而且里面也有相应脚本:Github

    我们可以把这个git项目clone到Linux环境中(说明:目前这个脚本只支持linux环境)

    git clone https://github.com/oldratlee/useful-scripts.git  #将下面下载到linux环境中。
    

    这里也整理一些该脚本的常用命令

    show-busy-java-threads.sh
    # 从 所有的 Java进程中找出最消耗CPU的线程(缺省5个),打印出其线程栈。
    
    show-busy-java-threads.sh -c <要显示的线程栈数>
    
    show-busy-java-threads.sh -c <要显示的线程栈数> -p <指定的Java Process>
    # -F选项:执行jstack命令时加上-F选项(强制jstack),一般情况不需要使用
    
    show-busy-java-threads.sh -p <指定的Java Process> -F
    
    show-busy-java-threads.sh -s <指定jstack命令的全路径>
    # 对于sudo方式的运行,JAVA_HOME环境变量不能传递给root,
    # 而root用户往往没有配置JAVA_HOME且不方便配置,
    # 显式指定jstack命令的路径就反而显得更方便了
    
    show-busy-java-threads.sh -a <输出记录到的文件>
    
    show-busy-java-threads.sh -t <重复执行的次数> -i <重复执行的间隔秒数>
    # 缺省执行一次;执行间隔缺省是3秒
    
    ##############################
    # 注意:
    ##############################
    # 如果Java进程的用户 与 执行脚本的当前用户 不同,则jstack不了这个Java进程。
    # 为了能切换到Java进程的用户,需要加sudo来执行,即可以解决:
    sudo show-busy-java-threads.sh
    

    2、案例说明

    为了反应真实性,找了个能让CPU飙升100%的代码打包成jar在线上跑,这里采用定时任务让它跑起来。

    //java 正则表达式回溯造成 CPU 100%
    @Service
    public class GateTrigger {
       
        @Scheduled(fixedDelay = 1 * 1000)
        public void startSummary() {
            String[] patternMatch = {"([\w\s]+)+([+\-/*])+([\w\s]+)",
                    "([\w\s]+)+([+\-/*])+([\w\s]+)+([+\-/*])+([\w\s]+)"};
            List<String> patternList = new ArrayList<String>();
    
            patternList.add("Avg Volume Units product A + Volume Units product A");
            patternList.add("Avg Volume Units /  Volume Units product A");
            patternList.add("Avg retailer On Hand / Volume Units Plan / Store Count");
            patternList.add("Avg Hand Volume Units Plan Store Count");
            patternList.add("1 - Avg merchant Volume Units");
            patternList.add("Total retailer shipment Count");
    
            for (String s : patternList) {
                for (int i = 0; i < patternMatch.length; i++) {
                    Pattern pattern = Pattern.compile(patternMatch[i]);
    
                    Matcher matcher = pattern.matcher(s);
                    System.out.println(s);
                    //CPU飙升根源
                    if (matcher.matches()) {
    
                        System.out.println("Passed");
                    } else
                        System.out.println("Failed;");
                }
           }}
    }
    

    (1)top命令 发现CPU的确飙升了

    (2)执行脚本

    bash show-busy-java-threads.sh
    

    (3)看后台运行结果


    ......

    发现一下子就定位问题了,不得不说缺少很方便,快捷。

    参考

    1、Java死锁排查和Java CPU 100% 排查的步骤整理

    2、线上服务 CPU 100%?一键定位 so easy!




    ``` 如果一个人充满快乐,正面的思想,那么好的人事物就会和他共鸣,而且被他吸引过来。同样,一个人老带悲伤,倒霉的事情也会跟过来。 ​ ——在自己心情低落的时候,告诫自己不要把负能量带给别人。(大校10) ```
  • 相关阅读:
    1,巡检脚本pexpect
    Cisco胖AP配置上网
    阿里云服务器更换密钥后,无论以何种远程连接方式都连接不上
    [PAT乙级题解]——A+B和C
    研究ThreadLocal类
    Java的反射机制
    volatile浅析
    Java 对称数据加密AES
    Java使用非对称数据加密RSA
    练习-登陆接口
  • 原文地址:https://www.cnblogs.com/qdhxhz/p/9998638.html
Copyright © 2020-2023  润新知