今天在检查报警的时候发现部分数据异常,登陆备份机查看文件状态的时候发现磁盘空间已经满了,inode也已经有问题了,因此先停掉了所有的备份进程,开始检查问题。
首先是磁盘空间满了,尝试删除部分文件,发现部分文件无法删除,文件状态比较异常。
于是乎,先将所有的脚本拷贝出来,备份系统日志,备份计划任务,各种备份。
然后开始动刀了。
进不去,删不了。还好有几个是比较正常的,最后恢复出500G的空间,但由于每次备份都很多,因此还是先把所有的备份计划停止。
再看一下inode空间,也释放了一些,然后卸载盘再挂载,inode正常了,但上面的异常情况仍然存在。没有办法就继续处理。
后来找系统组的同事过来帮忙,处理的时候突然说了一下XFS格式的分区在大容量的情况下可能会出现异常的事儿时,突然想起今年处理过另外的一台类似机器,但那台机器的现象是提示磁盘空间不足,但df 和 df -i都可以看到没有问题,就是死活不足的故障发生过,当时的处理方法就是加了一个inode64,在/etc/fstab里面,因此我们尝试把这个参数也加在了这台机器的配置文件里面,卸载、挂载,最后成功!
问题还是出现在了XFS对于大磁盘空间的支持上面,默认会把inode文件存储在第一个T里面,因此在磁盘空间使用量较多的时候可能会出现类似的问题,因此最后决定需要把所有使用了XFS的机器上面都加上inode64参数,避免类似问题再次发生。
今年出现的同类事故当时我的同事也进行了记录,里面有加这个参数的含义,我就不重复写了~地址是http://imysql.cn/2013/02/21/using-xfs-with-large-partition-for-backup.html