• followup监控需求


    背景

    当前followup监控不完善,查询服务与数据同步服务分离为独立项目,当前监控信息如下:
    数据同步服务
    • 监控数据实时性,数据延时计算公式为当前系统时间戳减去订阅Canal的binlog数据时间戳的差值大于1分钟为判定为延时,然后发送报警给相关人。此监控存在问题是假设MySQL主从和Canal通路无问题,只是某个环节阻塞处理吞吐能力变差情况下可行,如果MySQL或Canal本身出现问题,是无法获知,更无法产生报警。
    查询服务
    • 只有接口监控,探活可用
    问题如下
    • es集群基础架构组不维护,维持现状不继续迭代,es集群处于无人管状态。例如mes集群
    • 业务只关注自身监控业务报警,es集群无关注,存在风险,es遇到性能或挂了却不知情

    目标

    • 运维负责主机监控
    • 提供es系统监控,复用基础架构组的组件
    • 提供followup-es业务监控

    收益

    • 能快速找到业务出现问题具体环节
    • 能获知数据同步是否存在延时发生
    监控metrics
    followup-es write QPS   每秒采集一次  由mon系统展示
    报警metrics
    根据业务规律设置 write QPS连续时间段内无数据,发送报警信息

  • 相关阅读:
    hdu 1595(最短路变形好题)
    hdu 5253(最小生成树)
    hdu 2363(枚举+最短路好题)
    hdu 3440(差分约束好题)
    poj 3169&hdu3592(差分约束)
    hdu 3339(最短路+01背包)
    hdu 2145(迪杰斯特拉)
    CodeForces 581D Three Logos
    CodeForces 510E Fox And Dinner
    CodeForces 484D Kindergarten
  • 原文地址:https://www.cnblogs.com/lizherui/p/13488020.html
Copyright © 2020-2023  润新知