服务器数据恢复环境:
ORACLE-SUN-ZFS存储服务器;
Windows操作系统;
zfs文件系统;
4个组,每组8块硬盘;
热备盘全部启用。
服务器数据恢复故障:
服务器正常运行时突发故障无法正常工作,服务器管理员重启服务器无法进入系统,联系北亚数据恢复中心对服务器内的数据进行数据恢复。
北亚数据恢复工程师拿到服务器后,和服务器管理员沟通后,确定服务器故障不是因为断电、进水、异常操作或者其他外部因素造成的。
服务器数据恢复过程:
1、服务器故障分析。
在ZFS文件系统中,池被称为ZPOOL。ZPOOL的子设备可以有很多种类,包括块设备、文件、磁盘等,故障服务器中的ZFS文件系统采用的是三组RAIDZ作为子设备。
经过分析发现,三组RAIDZ内有两组启用热备盘,个数分别为1和3。在启用热备盘后,第一组内出现一块离线盘,第二组内出现两块离线盘。以此进行故障现场模拟:三组RAIDZ内第一二组分别出现离线盘,热备盘及时进行替换;热备盘无冗余状态下第一组出现一块离线盘,第二组出现两块离线盘,ZPOOL进入高负荷状态(每次读取数据都需要进行校验得到正确数据);第二组内出现第三块离线盘,RAIDZ崩溃、ZPOOL下线、服务器崩溃。
2、重组ZPOOL,追踪数据入口。
ZFS管理的存储池与常规存储不同,所有磁盘都由ZFS进行管理。常规RAID在存储数据时,只按照特定的规则组建池,不关心文件在子设备上的位置。而ZFS在数据存储时会为每次写入的数据分配适当大小的空间,并计算得到指向子设备的数据指针。这种特性使得RAIDZ缺盘时无法直接进行校验得到数据,必须将整个ZPOOL作为一个整体进行解析。
北亚数据恢复工程师手工截取事务块数据,编写程序获取最大事务号入口:
获取文件系统入口
获取到文件系统入口后,北亚数据恢复工程师编写数据指针解析程序进行地址解析:
解析数据指针
获取到文件系统入口点在各磁盘分布情况后,北亚数据恢复工程师手工截取并分析文件系统内部结构。由于入口分布所在的磁盘组无缺失盘,可直接提取信息。根据ZFS文件系统的数据存储结构顺利找到原服务器映射的LUN名称,进而找到其节点。
3、编写数据提取程序并运行。
经过仔细分析,北亚数据恢复工程师发现故障服务器中的ZFS版本与开源版本有较大差别,无法使用北亚数据恢复中心以前开发的解析程序进行解析,所以重新编写了数据提取程序。
由于磁盘组内缺盘个数较多,每个IO流都需要通过校验得到,提取进度极为缓慢。与服务器管理员沟通后得知ZVOL卷映射到XenServer作为存储设备,所需恢复的文件在其中一个大小约为2T的vhd内。北亚数据恢复工程师提取ZVOL卷头部信息,按照XenStore卷存储结构进行分析,发现2T vhd在整个卷的尾部,计算得到其起始位置后从此位置开始提取数据。
4、验证恢复数据。
Vhd提取完毕后,北亚数据恢复工程师对其内部的压缩包及图片、视频等文件进行验证,文件都可以正常打开使用。
联系服务器管理员验证数据,确定文件数量与系统自动记录的文件个数一致,文件都可正常打开,服务器数据恢复成功。