监控是为了能让系统维护人员快速发现生产问题并定位到原因。
告警的类型有:
- 批处理效率:包括日终跑批处理效率和数据处理效率。需要配置超时阀值及监控。
- 流量监控:主要监控的指标有:TPS(每秒完成事务量)、HPS(每秒服务端收到的请求数)、IOPS(单位时间内系统能处理的IO请求数量)、QPS(每秒服务端响应客户端的查询数量)。
- 异常监控:程序异常等,可以记录失败响应码及相关的报错信息到日志中。
- 资源利用率:生产环境配置系统资源时需要对系统资源利用率有一个预测,比如redis何时会耗尽内存,数据库何时会用光磁盘,需要在资源达到饱和前设置阀值,提前做好系统扩容。
监控系统需要考虑几个指标:
- 根据监控目标来指定监控指标采样频率,频率过高会增加监控成本。
- 监控覆盖了最好能覆盖所有核心指标。
- 监控需要注意有效性,不是越多越好。
- 需要注意告警时效,不同的告警应有不同的应对时效,不是所有告警都需要开发人员马上处理。
- 为避免长尾效应,最好不要使用平均值。
以上参考:https://mp.weixin.qq.com/s/1sFYTtruqd9Dcmw4s6IY8g