• 一次线上CPU高的问题排查实践


    一次线上CPU高的问题排查实践

    前言

    近期某一天上班一开电脑,就收到了运维警报,有两台服务CPU负载很高,同时收到一线同事反馈 系统访问速度非常慢,几乎无响应。

    一个美好的早晨,最怕什么就来什么。只好推掉其他会议,专心搞定问题。

    排查

    登录系统一看,后端的接口访问果然全部超时。

    1. 先使用top命令查看下是由哪个进程占用CPU较高。

    从图上可看出,pid=26481的Java进程占用了385%的CPU,机器是4核8G的配置。

    2.然后查看下是哪个Java应用 ps -ef | grep java

    发现是我们后端request服务的应用。

    3.获取pid后,可以查看该进程下的线程列表。 命令: ps -mp pid -o THREAD,tid,time。

    .png)

    这里我们可以看出有4个线程,长时间占用较高的CPU资源。拿到一个tid=26496,printf "%x " tid , 转为16进制:6780

    4.使用jstack打印线程的堆栈信息,./jstack pid | grep tid -A 30

    从图上可看出,是由于该应用的GC异常导致CPU占用较高。

    5.导出堆栈日志分析。 jstack 26481 >> jstat.out

    解决问题

    分析导出jstat.out,查找下RUNNABLE状态的线程。

    ps:这里推荐一个分析日志的网站,超级好用,能生成图形界面的分析日志。只需要将生产的日志上传。Java Thread Dump Analyzer https://fastthread.io/

    最终发现是Excel大量导出的问题。用户导出一年的财务报表,差不多近60万条数据,由于系统导出较慢,然后进行了多次点击下载,导致应用内存不足,频繁GC, 导致CPU超高,系统假死。

    至此问题发现,解决问题就变得简单了。

    • 重启应用,让用户使用优先。 最快捷、最有效的解决方式,哈哈
    • 前端限制按钮点击次数。
    • 后端Excel下载优化(考虑阿里的easyexcel,详细请看后续分享),以及将文件下载独立出一个微服务。
  • 相关阅读:
    【Exgcd】斩杀线计算大师
    【DP】操作集锦
    【DP】被3整除的子序列
    【DFS序】【CF-1328E】Tree Queries
    【规律】【CF1327-D】Carousel
    Luogu P4774 屠龙勇士
    LOJ 10149 凸多边形的划分
    Luogu P4036 火星人
    Luogu P3193 GT考试
    CF 986C AND Graph
  • 原文地址:https://www.cnblogs.com/lanxuan826/p/11074848.html
Copyright © 2020-2023  润新知