• 电源被关后的ESXI服务器恢复


    电源被关后的ESXI服务器恢复
      事情发生在周四早上,上班发现洗手间灯坏了,于是负责公司维修的同事去修理。其中需要关掉洗手间的电源来保障人身安全,然而却关了电源总闸,导致全公司一片乌漆麻黑:断电(当时还以为用电量太大导致跳闸,原来是某个同事的锅)
      开回电源总闸,个人办公电脑开启基本没问题,只有部分电脑/手机上不了网(这个直到周五才算完全解决,大部分是设备mac地址跟导入到路由器ip-mac清单不一致导致的,乱用乱套用了别人分配好的。。。)
      服务器问题就有点大了 !T_T (留下两行清泪,搞到加班,最后一个关大门)
      话说,服务器总共有3台:两台戴尔服务器:R720、R730XD和一台台式机改造的virtualbox。之前说过,R720和台式机virtualbox的网段都是0网段,跟办公环境网段是一起的;而R730XD的网段是2网段,完全独立。所以恢复的时候,R730XD的2网段下的虚拟机开起来没问题,而R720的服务器直接连不上了,表现在
    (1)vSphere Client 远程连接工具连接报错:

    (2)浏览器打开服务器R730XD的IP报错(跳转到 index.asp 的页面):

     正常来说,应该是一个VMware ESXi 的欢迎页面:

     里面的虚拟机有些算是生产的,比如某线上文章发布后台JEECMS,项目管理工具 jira(每个月公司开发人员的绩效就是根据这个去统计汇总的),周末运营需要远程连接做文章发布的win7。

       这些重要的虚拟机用不了,当然第一时间我就成了众矢之的。

      第一次知道信息轰炸是怎样的,五六个人同时找,上不了网的,服务用不了隔三差五问我恢复了没有,能用没有,客户在催诸如此类。我就说,统一给他们说服务器崩溃,在抢修中。再不行就把我祭天吧,当时还跟阿强吐槽,估计要跑路了,8月份的工资都不要了,此时我还未哀莫大于心死 T_T

     一、问题排解过程  

      说实在的,对于公司个别人上不了网,以及服务器远程连接不上问题,应该想到是网络原因。所以我当时不停去改服务器IP,改了删,删了改,也去改各种服务器配置,测试跟主路由192.168.0.1的连通性,有时通有时又不通(因为怀疑R730XD的IP被占用),一边用IP扫描工具(Advanced IP Scanner) 去扫描 IP 实际分配情况,确实发现IP被占用,为啥会被占用,因为主路由器开了一段dhcp动态分配的网段:192.168.0.230 ~ 192.168.0.254,刚好R730XD的 IP 在里面,就被不法之徒盯上了。

      尝试改掉服务器IP,然后重新导入主路由器的 IP-MAC 清单:浏览,导入。

      很奇怪的一个事:ipv6的地址可以访问,但ipv4的不行

     反复试了好几次神奇的被我连上了(应该是那个拿了服务器ip的设备临时放开了):

      

       但是有2台机器写着:无效。那种带往右指向绿色箭头的虚拟机也不是完全好的,连上去报错:

       到这里,我真的哀莫大于心死了,这好像是机器因硬件问题坏了的样子,加上vmware属于国外产品,国人遇到问题很难查,除非买了商用产品。当时我只求早点下班,等大家都走了之后,做最后的尝试:路由器重启。

      话说老板临走的时候,问我:加一,有没有需要我帮忙的(其实我很想说需要的,哪怕有一个人肯陪我,他啥都行,但是碍于面子,而且拿他工钱怎能不卖命,还好意思找他帮忙 = =),于是我回了句,我自己来就行,我说打算重启路由器,感觉是路由器问题。然后他说,其实他在停电恢复过程中,有重启过主路由器。这就把我最后的希望都浇灭了。。。

      然而,他提醒了我一个事,解决问题的关键来了,他问我导入ip-mac的清单到主路由器的时候,有没有试过删掉全部列表再导入,我说没有,当时想着上班时候删掉可能会导致全部人网络崩溃,所以我都是直接覆盖的。

      他说很多时候覆盖不一定可以(真是老板英明),删掉重新导入试试,果然~~

    二、问题解决

     全选这个ip-mac列表,删掉,重新导入

       最后再重启路由器,然后重启那台ESXI R730XD的服务器就行了。

    三、服务器里面的虚拟机问题 

      下面是R720和R730XD服务器中虚拟机恢复过程中的坑:;

    对于linux 虚拟机

    (1)上不了网,远程连不上

    虽然都能连,但那几台比较重要(jira、后台发布机器,window等)的网络有问题。就是上不了网,远程连不上,只能在vSphere Client 的小窗口上操作。

    它们这个问题的共通点是虚拟机设置的网络适配器,都是VM Network 3,而这个网络标签不知道因为什么原因用不了,所以我统一改到VM Network就行(为啥我知道这个原因,因为跟能正常连接的机器比较找不同点呀)

     

    (2)虚拟机重启后一直提示输入root密码才能操作命令

    问题解决:因为开机挂载了不存在的硬盘,检查 /etc/fstab 内容发现挂载了个 /data 的目录,实际上是不存在的,删掉就行

      为什么有这个配置,可能是我克隆虚拟机导致的,被克隆机器有这个数据目录,但新创建的木有。

      为什么我知道往这个方向排错,看到错误提示:polkit 服务启动不了,查了下跟samba有关系,而samba配置经常要配共享目录,还有以前老师教过,如果挂载了不存在的文件系统到/etc/fstab 上,会导致开不了机器,所以这个问题解决有点误打误撞吧,哈哈~~

    【参考:https://blog.csdn.net/qq_16942727/article/details/104391536】。正常来说polkit 随linux系统开启而开启。

     (3)git同步不了问题

    公司人说发布了文章迟迟同步不到线上,原来是git的同步脚本运行有问题

    问题解决参考:https://blog.csdn.net/Com_ma/article/details/78620358

    rm -rf .git/index
    git reset

    对于windows虚拟机

      (1)远程连不上,上不了网

    试试重命名网卡名字

     

           总的最大感受,赶紧买UPS不间断电源吧,不然哪天真停电导致硬件坏,内网服务器坏就真的要死了

  • 相关阅读:
    IDEA创建MAVEN JavaWeb项目中 Target文件夹中没有lib包
    2019年上半年下午第六题
    2021年上半年下午第六题
    2019年下半年下午第六题
    软考2019下半年下午第三题
    软考2019年下半年下午第二题
    2019年下半年软考下午第一题
    软考2019年上半年下午第三题
    2019软考上半年下午第二题
    2019年上半年软考下午题第一题
  • 原文地址:https://www.cnblogs.com/windysai/p/16584301.html
Copyright © 2020-2023  润新知