最近接近一年都在做云下机房及相关业务的监控,略有感触,写下来记录一下,多年后再看也许有一番不同的感觉。
云下机房监控内容较多,上到应用业务处理情况,下到风扇转速等都纳入监控,
1、基础资源监控
所谓基础资源大致分为这几种,物理机(ILO层的SNMP)、网络设备(交换机、波分、无线等)、安全设备(ADS、IPS、WAF等)、虚机(linux虚机、windows虚机、容器)、数据库(oracle、mysql)、中间件(redis、rocketmq、rabbitmq等)、vcenter(业务主机层的)等。
2、业务监控
业务监控是对系统整体运行情况以及业务处理情况的统一监控,其中最需要去做的是通过一条统一的路去监控到业务的整体运行情况,如:业务成功失败、平均处理耗时、批处理是否按时完成、是否能应付高峰等。应用监控则通过agent或者暴露端口等形式采集系统运行内部的情况,如:锁的情况、内存使用情况、溢出的情况等,做到既知表,又知里。
3、联动
第三步则是联动了,针对云下机房,如某一台vcenter主机出现问题,则自动关联其虚出来的虚拟机,及关联出虚机上的应用及对应的owner,进行告警,类似的还有数据库、交换机、物理机、中间件儿等,重度依赖CMDB。
基本就这些,第二章开始针对每一小块儿的具体实现进行回溯。