标准化是一切运维自动化的基础,无标准、不自动。所以自动化运维的前提条件是做好运维标准化工作。以下是自己总结的一些内容:
1、云端系统镜像(模板镜像命名规则)镜像一定要是干净的,如果不干净很有可能引起生产事故,包含各种服务客户端(如zabbix-agent、salt-minion)
2、系统优化标准参数、自动化一键优化脚本
3、操作系统命名规则site qa pre prd
4、软件安装版本标准化
5、软件安装目录标准化
6、应用系统名称命名规则、应用系统数据库命名规则
7、监控模板标准化、特殊监控特殊对待
8、综合管理机器 前期规划性能争取比较好,因为后期可能有很大性能需求
9、日志备份机器,磁盘以及性能尽量可能较高
10、ip地址管理(可以写脚本生产一个动态更新表)
11、自动化工具salt、ansible、Jenkins
12、监控标准化(基础cpu、内存、磁盘、网络流量、系统连接数、业务指标监控)
13、资源统计表标准化模板(云端ecs、slb、redis、rds...、专人负责统计、该员工负责资源开通、升配、降配)
14、运维各类实施文档(各种中间件部署、升级、问题解决)
15、安全审计-堡垒机或安全审计日志(密码+私钥访问)
16、权限标准化管理(专人负责)
17、自动化脚本编写 避免重复性工作,如创建用户
18、安全防护,云端ddos、waf,应用端如nignx有防sql注入、防爬虫等安全配置
19、端口统一规划表,需要统一管理
20、新开通资源第一时间增加监控、日志收集
22、运维制度或标准最小单元化,标准化最小单元化
其他:对于公司运维人员,一定要存在备份人员,杜绝某些系统只有某一位运维同学熟悉。这样容易导致人员离职,系统交接不到位,系统维护困难以及踩坑