背景
这里的问题主要是指那些一直运行正常,因为未知原因或突然的流量增大,导致系统异常。
步骤
- 快速恢复(快速恢复系统正常运行,避免产生更大的损失)
- 重启应用服务器
- 重启中间件
- 下线问题机器
- 下线问题中间件
- 熔断、下线第三方服务
- 保留现场
- 保留其中一台故障节点不重启,移除这台机器的流量(目的是保留内存数据和环境数据)
- 监控系统:记录出现问题时段的机器参数、网络/磁盘IO状态、CPU/内存使用率、JVM数据、慢查询数据、日志数据、告警数据等
- 解决复盘
- 分析监控系统发现问题
- 分析日志发现问题
- 分析现场保留的节点信息:如线程池数据、内存、CPU数据、JVM数据等(及时导出数据,存档)