运维的价值体系方式有以下几种:
安全、质量、效率、成功
一、安全
1、安全防御
在这方面我觉得应该把安全放在第一位,因为安全是整个平台的生命基线。如果整个平台爆发了安全漏洞、或者被攻破。这是非常可怕的,以下单以阿里云的安全产品进行分析。
云盾:购买阿里云的ECS、SLB、容器默认都会生成一台云盾。主要功能用于四次防御DDOS和CC
安骑士:全称可以称为云盾.安骑士(服务器安全),其主要功能为扫描服务器漏洞、基线、异常登录、网站后门、主机异常。
服务器漏洞:主要是系统级别漏洞,常规而言它一般是底层的依赖包程序出现漏洞。
基线:常规而言基线主要是服务器配置后导致的一些漏洞,tomcat中间件里要配置优化(备注:这个比较吹毛求疵)
异常登录:异常登录是一个很重要的点,一旦服务器出现异常登录则说明该服务器系统级已经出现重大安全事故
主机异常:检测到主机上允许异常程序(该事故以前碰到过)
WAF:应用层防火墙
2、安全扫描
网络漏洞扫描系统:对本地服务器、WEB进行漏洞扫描
态势感知:安全感知系统,检测工具信息
3、安全规范
堡垒机:服务器的精细操作权限管理,审计监控操作
数据库审计:旁路监听数据库风险SQL
CA证书服务:保障数据安全性
安全组:隔离业务访问
4、安全管理
安全检查:运维人员例行性分析防火墙日志、安骑士日志信息,同时实现危险等级告警,做风险评估。
5、数据安全
磁盘快照:对磁盘进行镜像快照处理
异地灾备:异地保存一份数据
综上所述,我觉得安全是运维管理中最重要的一个环节
二、质量
质量有直接方式、间接方式两种体系
直接:系统、应用的可用性
间接:服务响应时间等
1、直接方式
运维首要保障服务的可用,目前采用阿里云及IDC混合云架构。服务器采用高防IDC服务代理阿里云应用的架构。在前端IDC使用2台服务器作为热备。后端实现高可用web机器。数据库采用一主一从,异地灾备。系统级别也是使用阿里云ECS高可用云服务器
监控:完善可用性,减少监控盲点,增加监控告警的真实性。
2、间接方式
保障可用性还不够,还需要提高服务响应速度,短信可达率等。间接方式优化服务提高响应速度在这方面还真有点不好测试,网站从上线到中后期出现响应慢一般都是慢SQL引起的(见到过严重的情况就是mysql实例慢查询1000多秒,导致CPU跑满)
三、成本
在成本上我认为我们是做的比较好的。没有盲目去购买产品。运维采购流程一般为需求分析(包含采购清单),将相关需求文档提交给领导审核,如果审核通过再进行采购。因为我们采用的是云服务,所以没做资产存留(传统IDC自建机房比较注重资产管理中的资产可用)
四、效率
我认为运维工程师在效率这方面主要提现在故障及时发现、故障处理时长等方面。平时工作中故障演练十分重要(目前这方面做的不好)
1、故障及时发现
2、故障发现至处理成功时长