1.下午14点50左右有同事反应epm等系统登录有问题。自测登录也是有同样的报错。
2.测试发现内部IP直接访问正常,但是访问f5的vip的方式访问不了。此时oa、邮件等系统也开始有同事发现故障。
3.登录f5后发现原主机状态变为disconnect,当前工作的是原备机。但是备机上的vs不全。导致邮件扫码登录、资金等系统故障。跟系统同事确认后紧急将一些重要站点在防火墙上的映射由vip改为后端服务器中的一台。
后由f5工程师协助将备份的原主机配置导入,但是导入后发现有些功能,如添加证书等不能使用。f5工程师确认是触发了一个版本bug,需升级解决。但是设备目前不在保,无法进行升级。
于此同时,让IDC值班人员帮忙拔插电源、更换电源线等操作后,确认是原主机的电源模块损坏导致。下午6点开始,边添加pool,边协调供应商借用电源模块。晚上10点左右,确认模块借不来。
计划去机房,将备机的电源模块替换至原主机。晚上11点左右到机房,先将备机的上联线拔掉(此时原备机跑着的是原主机的配置,原主机启动后会导致冲突)。
电源模块替换完毕后,发现仍不能开机。后更换电源线,设备成功启动。微信通知到各系统及产品负责人,测试后告知所有系统正式恢复。将原主机的电源模块插入备机,发现设备也能启动。
在f5工程师的协助下,凌晨2点半左右,将备机恢复出厂并配置好双机。至此,设备完全恢复至故障前。
4.需要吸取的教训:
1)主机、备机的配置要及时同步;
2)主机、备机的配置要分别备份,并定期下载到本地留存;
3)主、备工作模式的,要定期演练切换主备;
4)尽量主机、备机保持双电;