记周日一次故障意外
今天大概16:30手机短信收到一条站点监控报警的信息:xx项目平均响应时间超过报警阈值600ms,随后钉钉也收到报警信息如下,紧接着微信某人A反馈他的网站也打不开(根域名用的是我们的域名,二级域名解析是我们帮忙在阿里云上配置的):m.abc.cn 和 abc.cn 都打开不了
找了waf工程师问,并且我这里也在同步测试,tcping 域名没返回,不得不“ctrl+c” 中断退出
以下是waf工程师测的结果,测的是另一个系统:m.abc.cn,也就是微信人A反馈管理的二级域名(根域名用的是我们)
说解析异常,222这个地址不通,然后给我们明确回复说 47.91.170.222不是waf的入口 ip,切别的ip是没用的(因为解析异常之后,我是有叫他切到别的能用的waf ip上的),这个222的ip是阿里云的ip,流量多半被解析到222的ip上了!(吓坏我了,第一次遇到这种情况,难道被恶意劫持了?!)
只能联系域名服务商协助排查,看下解析异常的原因
然后一连串悲剧来了,真是屋漏偏逢连夜雨!!!!
(1)远程桌面连不上公司电脑——》因为公司电脑一直有登各种阿里云账号,不需要重新收验证码。telnet远程桌面的端口是通的,应该是远程桌面ngrok服务有问题啦,然后我忘记具体部署ngrok的服务器在哪了,幸好最后人肉搜索找到,命令重启下,还是连不上
(2)家里电脑翻不了墙——》 要从谷歌文档上拿下ngrok重启的命令【上面(1)我是搜索历史命令重启的,很难说自己有没有记错】
(3)登录阿里云想提个工单问下情况,然后顺带电话联系售后。因为那个管理域名的阿里云账号在我家电脑已经没有缓存了,不得不重新收下验证码,收验证码的手机经常是我们经理带着的。然后最坑爹的事也发生了,我们经理竟然没把手机带在身边,说放在公司了,自己还在外面 = =(内心异常崩溃,估计要回公司一趟,本来17点是答应老板还要接我手提回家的)
百度搜阿里的售后,打过去问情况:原来是域名abc.cn过期了,导致域名解析报错!!!然后问是否能马上给我改下,管理域名的那个阿里云账号绑定的手机,改到我手机上,说不行,幸好她说能用其他阿里云账号代充,短信发了个链接给我,代充好域名,事情终于搞掂了:流量在慢慢地往WAF的ip解析(这现象有点恶心,给大家分享是希望以后大家也留个心,不要以为是遭到攻击啥的)
远程桌面也好了,远程桌面也用到这个根域名,一开始连不上估计也是跟流量解析到阿里有关。
一些想法:
真的不出事,不知道潜在隐患 = =
(1)离线得保存个线上服务器相关的重要文档 ——》FQ机器经常抽风,导致FQ翻不了,然后文档看不到
(2)为啥监控域名的脚本没发监控提醒了?! ——》 太相信以前人写的监控脚本,不用说这脚本肯定是有问题的,明天上班认认真真检查下!
(3)域名快过期,阿里应该是有提醒的(反正ecs,rds等是会有提醒的),肯定是经理带的手机收到信息,周一改到我手机好了,提醒我不是更好?(手机都不带,真是害死本宝宝了,要不是阿里有个代充服务,早就要滚回公司,可怜兮兮孤孤单单,忍受着饥寒没饭吃,联系老板开大门进去处理,最终导致我那可怜的手提电脑等不到主人接它肥家 ,我也成了一个失信之人,不是说好5点过来拿电脑的么= =,处理完我真的是飞车过去了)
甚至如果处理不及时,被上层发现,轻则兴师问罪,重则扣钱解雇。。。E$%^#……*@ 想想运维确实是个高危职业,周末别跑太远了,出故障确实拿人命呢 = =