• Cloud Alert 实现告警智能降噪,成功规避告警风暴


    前言

    睿象云前段时间发表了一篇《 Zabbix 实现电话、邮件、微信告警通知的实践分享》的技术文章。它帮助我们非常轻松地支持了各种告警通知方式,但是存在一个严重的问题,我们经常接到各种相类似或者相关联告警,短信太多,难免会出现漏看情况,告警通知几乎变成垃圾短信。为此 Cloud Alert 智能告警平台(以下简称 CA 平台)提供了一个适配方案:【告警智能降噪】

    备注:CA 平台目前正在支持更多告警方式,例如:电话、短信、微信、邮件、APP、钉钉等。

    Cloud Alert 集成

    首先需要安装 Cloud Alert Agent ,详情操作步骤如下:

    一. 注册账号:

    1. 进入官网链接 www.aiops.com,然后注册账号登录。如下图1;


    图1

    2. 点击 CA 平台。如下图2;


    图2

    二. 集成接入

    1. 在点击【集成】-【监控工具】,选择 Zabbix ,如图3;


    图3

    2. 点击之后,填写自定义的【应用名称】和【自动关闭时间】,如图4;填好信息之后,点击【保存并获取应用key】;


    图4

    3. 保存之后会出现该应用的【AppKey】,如图5;


    图5

    同时在该页面的下方可以看到在 Zabbix 环境上安装 Agent 的详细步骤,如图6;


    图6

    4. 安装 Agent

    (1)查看 Zabbix 脚本目录,如图7;


    图7

    (2)获取Cloud Alert Agent包并解压,如图8;


    图8

    (3)使用命令安装,如图9;


    图9

    (4)安装成功,如图10;


    图10

    设置分派策略

    Agent 安装完毕之后, CA 平台可以接收到 Zabbix 所有触发器事件. 接下来配置分派策略,告知 CA 平台应该将什么级别、类型的告警分配给谁。

    1. 点击【配置】-【分派策略】-【新建分派】


     

    2. 设置分派名称-选择应用-选择分派人,然后点击保存


     

    设置通知策略

    CA 平台已经能成功将一个告警分配给一个用户,但是如何通知到用户呢?规则是什么?这个时候就需要用到设置通知策略!

    1. 点击【配置】-【通知策略】-【新建通知】


     

    2. 选择【告警状态】-选择【告警级别】-选择【通知方式】-选择【时间】-选择【延迟策略】-选择【通知人】


     

    例子:任何时间所有级别的告警在发生时立刻电话通知

    告警状态:发生 — 告警级别:所有 — 通知方式:电话 — 时间设置:任何时间 — 延迟策略:立刻 — 通知人:选择接收通知的人

    备注:重要告警电话比短信靠谱的多!有时候晚上也接到电话,为避免接到一些不必要的电话,请大家严格设定。

    告警智能降噪

    为何要压缩告警

    运维监控工具/平台,一般是通过配置固定阈值,达到阈值后自动触发/生成告警。如网络中断、闪断;系统升级更新;设备多监控内容多等情况下,更会产生海量告警。以下为告警管理常见问题:

    - 故障期间,告警风暴,手机/邮箱会被海量告警淹没;

    - 运维人员很难从海量告警从筛选出重要告警,容易忽略重要告警;

    - 固定阈值控制,频繁误报、漏报告警;

    CA告警压缩机制

    CA 平台,适应不同行业、不同规模、不同运维水平公司的各种告警需求,平台支持多维度降噪,帮助您在不遗漏重要告警前提下,快速减少告警。

    CA 平台实现告警降噪根据降噪程度不同,分为三种方式:

    1:自动去重压缩;

    2:规则压缩;

    3:算法智能降噪。

    自动去重

    全量告警推送到 CA 平台后, CA 平台会自动基于时间序列,将相同的事件/告警压缩。不同监控工具去重压缩机制有细微差异:根据 eventId(事件ID)和告警对象,去除重复告警。

    - 事件ID不为空:系统中有未关闭的告警,若事件ID相同,则自动合并告警;- 事件ID为空:系统中有未关闭的告警,若告警对象响应,则自动合并告警。

    提示:

    • 是否合并告告警,以系统中是否有未关闭的告警,如告警一直不关闭,则后推送到 CA 平台具有相同事件ID的告警会一直被合并压缩。

    • 被合并的告警不会再次通知。如想收到通知,需先关闭历史告警。

    规则压缩

    去重后的告警,会按照压缩规则,将相似、同源(同一设备不同类型的信息)告警再次进行压缩。一共分为两种压缩机制,分别是:

    1:算法智能降噪

    2:自定义压缩规则降噪

    算法智能降噪设置方法

    1:进入路径:配置 -> 压缩规则,进入压缩规则管理界面

    2:设置应用名称,选择应用-勾选“算法智能降噪”


     

    3:选择降噪参数—选择压缩指定时间内的告警


     

    4:设置分派策略


     

    5:(可选)设置风暴预警


     

    自定义压缩规则设置方法

    1:进入路径:配置 -> 压缩规则,进入压缩规则管理界面

    2:设置应用名称,选择应用


     

    3:设置压缩条件:

    - 按照 主机 、服务 、告警内容 、告警对象 进行关联;

    - 支持 等于 、不等于 、包含 条件,支持正则匹配;

    - 支持添加 且 、或 条件。


     

    4:设置分派策略


     

    5:(可选)设置风暴预警


     

    APP

    CA 平台提供了一个简便、轻量级的 APP 给我们使用,目前支持:任务处理(待处理、处理中、已解决)、分派策略、通知策略、成员信息查看、集成论坛交流。一个 APP 便能支持配置与接收告警通知。


     

    总结

    告警压缩将相似、关联、相同的告警合并到一个父告警,比起以往的海量告警,告警合并极大的提高了告警可读性、准确性。

  • 相关阅读:
    PlayerPrefs存储Vector3等结构数据
    Kafka集群部署及測试
    火云开发课堂
    Thinking in Java:容器深入研究
    求int型数据在内存中存储时1的个数
    JAVA 几种多线程的简单实例 Thread Runnable
    Android利用Intent与其它应用交互
    kernel
    Azure DocumentDB 正式发布
    在公有云平台体验开源方案的自动部署
  • 原文地址:https://www.cnblogs.com/oneapm/p/11983861.html
Copyright © 2020-2023  润新知