服务器数据恢复环境:
HP ProLiant系列服务器;
6块73GB的SAS硬盘组成的RAID5;
操作系统:WINDOWS SERVER;
存储文件:企业的内部文件,无数据库文件。
服务器故障:
由于没有配备UPS,服务器遇到几次意外断电,但是重启后没有出现异常,直到最近一次断电重启后RAID报错,无法找到存储设备,进入到RAID管理模块进行操作导致死机。服务器管理员多次尝试重启服务器,但是没法进入系统。
服务器故障分析:
本案例是典型的服务器意外断电导致的RAID模块损坏(包括RAID管理信息丢失和RAID模块硬件损坏)。一般在RAID阵列创建完成后,阵列的管理模块信息就会固定下来不再发生改变,但是阵列的模块信息是可以修改的。服务器意外断电很容易造成阵列的模块信息被篡改甚至丢失,多次断电甚至有可能造成RAID卡上的元器件损坏,使主机失去对多块物理硬盘进行RAID管理的中间层模块。该案例中对RAID模块的操作导致死机极有可能是因为RAID卡硬件损坏,使用常规方法无法获取6块硬盘中的数据,只能通过专业的数据恢复操作来恢复原先的数据。
服务器数据恢复过程:
1、首先对原服务器内所有硬盘进行物理故障检测,检查硬盘是否有硬件故障。检测后发现服务器内所有硬盘均可以正常读取,没有发现存在物理故障。
2、对服务器内的所有硬盘进行镜像备份。
3、镜像完成后,服务器数据恢复工程师分析raid结构,确定raid阵列的硬盘顺序、数据块的大小和阵列校验方式等raid信息。
4、服务器数据恢复工程师利用分析获取到的raid阵列信息虚拟重建一组RAID并进行逻辑校验,确认重构的RAID所应用的各项参数正确无误后,针对服务器管理员最为关注的数据进行验证;
5、数据恢复工程师联系服务器管理员对恢复出来的数据进行验证,经过验证后所有数据均成功恢复;
6、把数据迁移到服务器管理员重新搭建出来的和原服务器一样的环境中,经过测试后一切正常。
服务器数据安全小贴士:
1、保证机房供电稳定,尽量减少供电异常对主机及存储的影响;
2、为关键的服务器和存储配置UPS,在机房意外断电的情况下保证核心业务系统能继续维持正常工作,为其他应急方案的实施争取时间;
3、对于使用时间长的服务器应定期进行安全检查,对其整体运行状态进行评估,是否对其进行硬件及系统的升级;
4、提前制定突发数据灾难的应急处理方案,减少数据灾难带来的损失。