• 谈谈线上CPU100%排查套路


    知识点总结

    -------------------------------------------------------------------------------------------------------------------

     

    步骤一:找到最耗cpu的进程

      工具:top

      方法:

        执行top -c,显示进程运行信息列表

        键入P(大写),进程按cpu使用率排序

    步骤二: 找到最耗CPU的线程

      工具:top

      方法:

        top -Hp 20136,显示一个进程的线程信息列表

        键入P,线程按CPU使用率排序

      由此找到最耗CPU的线程PID


    步骤三:将线程PID转化为16进制:

      工具:printf

      方法:printf "%x " 10804

      如图,转化为16进制0x2a58  

      之所以要转换为16进制,是因为堆栈里,线程id是用16进制表示的。

    步骤四:查看堆栈,找到线程在干嘛:

      工具:pstack/jstack/grep

      方法:jstack 20136 | grep '0x2a34' -C5 -color

        打印进程堆栈

        通过线程id,过滤得到线程堆栈

    -------------------------------------------------------------------------------------------------------------------

    引言

    不知道在大家面试中,有没有遇到这个问题

    生产服务器上部署了几个java程序,突然出现了CPU100%的异常告警,你如何定位出问题呢?

    这个问题分为两版回答!
    高调版
    对不起,我是做研发的,这个问题在生产上是不可能遇见的!因为研发是不可能直接操作生产服务器,如果贵公司研发能遇到这个问题,应该要反思一下自己的权限控制是否合理!

    面试官心里活动:装13是不是,赶紧走!

    低调版
    这个问题我在生产上没碰到过,因为我们是没法直接操作生产环境的。只能说,在测试环境曾经遇见过。操作步骤如下,balabala...

    面试官心里活动:权限控制的不错,应该是在大厂呆过。

    下面开始我们的正文

    正文

    下面给出两种系统环节下的排查步骤,都是一模一样的,只是命令稍有区别!

    • 查消耗cpu最高的进程Pid
    • 根据Pid查出消耗cpu最高的线程号
    • 根据线程号查出对应的java线程,进行处理。

    准备一行死循环代码

    public class TestFor {
        public static void main(String[] args) {
            int random = 0;
            while (random < 100) {
                random = random * 10;
            }
        }
    }

    怎么跑,应该不用我说了,直接教大家怎么查!

    Windows版

    可能有人有疑问,我为什么要说Windows版的!因为,我曾经给很多政府部门做过系统。我发现他们用的是Windows Server,不是Linux系统。所有必要说一下!

    查消耗Cpu最高的进程PID

    手边没有Windows Server机器,我以Win 10为例,截图给大家看一下,先调出PID显示项!

    然后发现进程PID如下图所示,为10856

    接下来呢

    根据PID查出消耗Cpu最高的线程号

    这里用到微软的工具Process Explorer v16.22,地址如下
    https://docs.microsoft.com/zh-cn/sysinternals/downloads/process-explorer
    如图所示

    发现最耗Cpu的线程的TID6616
    这是十进制的数据,转成十六进制为0x19d8

    根据线程号查出对应的java线程,进行处理

    执行命令

    jstack -l 10856 > c:/10856.stack

    打开文件c:/10856.stack,搜索19d8,如下图所示

    根据文件就可以看出,我们的TestFor.java文件第七行一直在跑,至此定位到问题

    Linux版

    Linux版本,步骤是一模一样的,就是命令换了一下

    查消耗Cpu最高的进程PID

    执行命令

    • 执行top -c ,显示进程运行信息列表。按下P,进程按照Cpu使用率排序

    如下图所示,PID3033的进程耗费Cpu最高

    根据Pid查出消耗Cpu最高的线程号

    执行命令

    • top -Hp 3033 ,显示一个进程的线程运行信息列表。按下P,进程按照Cpu使用率排序

    如下图所示,PID3034的线程耗费Cpu最高

    这是十进制的数据,转成十六进制为0Xbda

    根据线程号查出对应的java线程,进行处理

    jstack -l 3033 > ./3033.stack

    然后执行,grep命令,看线程0xbda做了什么

    cat 3033.stack |grep 'bda' -C 8

    输出如下

    至此定位到问题

    总结

    大家记得一定要去实际操作一次!

  • 相关阅读:
    使用 pymssql 调用存储过程
    控制input框的输入格式
    Pycharm创建指定版本的Django
    div在页面中居中显示
    odoo12--centos7搭建odoo12
    odoo12--models模型
    odoo12--创建第一个模块
    odoo12模块目录
    odoo12代码目录说明
    win10安装odoo12教程
  • 原文地址:https://www.cnblogs.com/shoshana-kong/p/10550771.html
Copyright © 2020-2023  润新知