什么是故障根因定位系统
首先第一个问题就是什么是故障根因定位系统,只看赛题简介和要求看的一头雾水,所以先了解这个故障根因定位系统到底是什么
故障根因自动定位系统为人工智能的分支,属于诊断性专家系统,专家系统通常包含: 1 人机交互界面 2 知识库 3 推理机 4 解释器 5 综合数据库 6 知识获取
其中最重要的是知识库和推理机。知识库用于专家经验的存储,是一种静态规则,推理机根据现象结合知识库中的规则反复推理得出结论。规则集的组成形式有多种方式
故障根因定位系统的设计架构系统
故障根因自动定位系统主要由监控系统、接入系统、推理系统、通告系统四个部分组成,分别的功能如下:
-
监控系统:监控系统负责各类探针数据的采集,根据监控规则产生告警;
-
接入系统:接入系统负责对各类监控系统的告警信息进行汇总并格式化处理;
-
推理系统:推理系统根据专家推理树进行故障根因定位推理,定位最终告警原因,确定故障根源;
-
通告系统:通告系统根据定位出的故障根因进行故障信息通告。
大概对这个故障根因定位系统有了一个大概的理解以后要解决的主要问题就是算法实现了。看了这个题目要求,基于我们三剑客的理解,这个系统做起来,现在的想法只要有两个方面。一方面希望将故障所产生的所有告警信息整合为一条信息,减少告警量;第二希望能够智能定位出故障点,并引入自动化处理。
最后总结一下
第一步: 构建CMDB(配置管理数据库)
CMDB是监控系统的基础,数据部分通常分为静态、动态两大类.
就网络设备而言,静态数据通常包括:
机框
矩阵
板卡
模块
端口
动态数据通常包括:
IP地址
路由
端口状态
端口流量
第二步: 告警标准化
需要统一告警信息的格式,去除一些无效报警信息,以便于故障定位系统提取关键特征级并进行分类分组。
第三步:梳理告警关系
理清告警之间的关联关系,关联关系需要是逻辑上面的,形成必要的关系,例如A是B上游模块,A出现问题必然会导致B出现问题。
第四步: 构建推理树
根据人工故障定位判断逻辑,构建推理树,设定每个推理节点的判决条件。