• 线上问题排查总结


    1. 线上故障产生原因
      1. 个人原因:基础不牢靠/自测不充分/前瞻性不足
      2. 团队原因:没有标准的研发流程,测试不充分
    2. 应急流程
      1. 保留现场:在不影响用户体验前提下,保留现场数据
      2. 恢复系统:初步分析原因,可通过回滚快速恢复
      3. 分析事故原因及影响:
      4. 线上事故回溯
    3. 定位/思路
      1. 一般分为可复现和不能稳定复现两类,可复现一般日志可以看出问题,一般不能稳定复现的一般与多线程有关:
        1. 通过 code review/ 压测/调用代码来增加多线程问题复现的概率;
        2. 利用相关工具分析线程堆栈,内存使用情况,死锁等;
        3. 宿主机的负载均衡,包括:cpu/磁盘/内存/网络IO等
      2. 系统最近是否又上线
      3. 基础平台最近是否有升级
      4. 依赖系统最近是否有上线
      5. 是否运营误操作导致故障
      6. 是否有网络抖动
      7. 业务是否上量
      8. 监控层面
        1. 系统层面:系统cpu利用率是否正常/系统负载/内存使用情况/网络IO/磁盘负载/IO等待/交换区使用/线程数/打开的文件句柄的等
        2. 应用层面:接口响应时间/吞吐量/调用频次/接口成功率
        3. 数据层面:数据库负载/慢sql/数据库连接数/缓存连接数/占用内存/吞吐量/响应时间/消息队列响应时间,负载/积压情况
  • 相关阅读:
    集群和高可用
    haproxy-负载均衡介绍
    HAproxy负载均衡-ACL篇
    Haproxy配置文件(2)
    Haproxy原理(1)
    Haproxy状态监控配置教程
    在Windows中单机环境下创建RabbitMQ集群
    Haproxy------在windows下配置负载均衡
    负载均衡的软件
    HAProxy的三种不同类型配置方案
  • 原文地址:https://www.cnblogs.com/gaoqing502/p/12942594.html
Copyright © 2020-2023  润新知