存储数据恢复环境:
设备为IBM FlashSystem系列存储,架构为IBM power系列服务器+AIX+Sybase+IBM FlashSystem系列存储阵列柜,需要恢复的数据主要存放在阵列柜上,共12块600G容量的SAS机械硬盘(其中一块为热备盘)。
存储故障:
存储中一块磁盘出现故障,服务器管理员更换磁盘,同步数据,数据同步到40%左右时,另一个磁盘也出现了问题,逻辑盘无法挂载在小型机上,业务中断。存储的管理界面显示两块硬盘故障脱机,其中10号槽位故障硬盘为热备盘,3号槽位故障硬盘情况如下图:
阵列柜中创建了2组Mdisk,加到一个pool中,主要数据pool无法加载,一共有三个通用卷无法挂载,具体情况如下图:
存储数据恢复过程:
A、数据备份:使用软件为10块无故障磁盘做镜像, 用PC3000给3号槽位的故障硬盘做镜像(可能有较多坏道)。所有的数据恢复操作都在镜像文件上进行, 避免对原始数据造成二次破坏。
B、数据恢复方案一:对存储进行强制上线操作。分析存储中故障硬盘的离线顺序,修复后离线的故障硬盘。将修复好的硬盘插回存储,进行强制上线操作。
C、数据恢复方案二:解析存储结构。
一、分析Mdisk,重组raid。
1、根据服务器管理员提供的配置信息,将硬盘按照Mdisk组分类。
2、对每组Mdisk中的硬盘进行分析,获取重组raid所必需的raid相关信息。
3、利用获取到的raid相关信息对Mdisk进行虚拟重组。
二、分析pool。
1、对所有Mdisk进行分析,获取pool的相关信息。
2、解析pool在Mdisk上的分布情况。
三、分析LUN结构。
1、分析pool中的条带大小。
2、解析LUN位图,分析各LUN在pool中的分布情况。
3、北亚数据恢复工程师编写程序提取LUN。
D、掉盘分析
提取存储的日志,通过分析日志得到各故障硬盘的离线顺序。
验证数据 :
对生成出的数据进行随机抽样检测,数据没有问题。
数据移交:
服务器管理员提供存储设备,在存储上创建与原先环境一样大小和相同数量的LUN,将提取出的LUN数据复制到存储上新创建的LUN中,交付给用户。数据移交后,服务管理员重新配置存储环境,验证数据正常。