今天遇到一个问题,看些资料后得到解决,是以记之备忘。
问题描述:公司测试库磁盘空间不足,归档频繁撑爆磁盘。今日才接收到新划分的存储空间,以前分配的NAS存储已经找用了98%,不能讲新划分的空间直接挂载到老的数据文件存储目录,故要将较大的表空间移到新分配的NAS存储上。经历了新建挂载目录、表空间脱机、拷贝数据文件、表空间联机、删除老目录数据文件后问题出现:删除了90G的数据文件后,查看空间发现并未释放磁盘空间,原有目录占有率仍为98%,一段时间后逐渐降低,但并未释放出90G空间。
移动数据文件过程:
- 新建挂载目录
mkdir /oracledb1 mount /dev/sdb /oracledb1
- 表空间脱机
alter tablespace bolan offline;
- 拷贝数据文件
cp /oracedb/bolan/bolan* /oracledb1/bolan/
- 表空间联机
alter tablespace bolan rename datafile '/oracledb/bolan/bolan.dbf' to /oracledb1/bolan/bolan.dbf'; alter tablespace bolan rename datafile '/oracledb/bolan/bolan02.dbf' to '/oracledb1/bolan/bolan02.dbf'; alter tablespace bolan rename datafile '/oracledb/bolan/bolan03.dbf' to '/oracledb1/bolan/bolan03.dbf'; alter tablespace bolan online;
--下一步:测试表空间是否可用
- 删除原目录中数据文件
rm -rf /oracledb/bolan/bolan* df -h
查看磁盘空间后发现空间并未释放。百度查了一些资料,原来原因是:linux系统与windows不同,linux系统即使文件正在被使用,使用rm删除命令也可以将其移除,而win则报文件被占用错误。理解这样的问题需要理解rm的操作内含,一个文件的存放有数据部分和指针部分,而指针位于文件系统的头,删除操作系统的一个文件与oracle drop表的实质有些相似:处理掉指针,文件数据部分占用的空间就可以写入新内容了,之所以出现rm不释放即为有进程在用这个文件而引起操作系统认为这个文件未实质释放,从而df或bdf空间统计不正确。
解决办法:1.umount及mount那个文件系统;2.重启系统;3.安装lsof(list open files),一个列出当前系统打开文件的工具。前两种都会影响数据库的正常运行,所以选择第三种方法。具体过程:安装lsof(下载地址:http://down1.chinaunix.net/distfiles/lsof_4.76.tar.gz)、查看正在用但被删文件的进程、杀进程。
[root@dbserver software]# tar -zxvf lsof_4.76.tar.gz [root@dbserver software]# cd lsof_4.76 [root@dbserver lsof_4.76]# tar -xvf lsof_4.76_src.tar [root@dbserver lsof_4.76]# cd lsof_4.76_src [root@dbserver lsof_4.76_src]# ./Configure linux [root@dbserver lsof_4.76_src]# lsof | grep deleted --下一步用kill -9 进程号杀掉相关进程即可
进程杀掉后用df -h查看空间回复正常。
常用lsof命令:
lsof filename 显示打开指定文件的所有进程
lsof -a 表示两个参数都必须满足时才显示结果
lsof -c string 显示COMMAND列中包含指定字符的进程所有打开的文件
lsof -u username 显示所属user进程打开的文件
lsof -g gid 显示归属gid的进程情况
lsof +d /DIR/ 显示目录下被进程打开的文件
lsof +D /DIR/ 同上,但是会搜索目录下的所有目录,时间相对较长
lsof -d FD 显示指定文件描述符的进程
lsof -n 不将IP转换为hostname,缺省是不加上-n参数
lsof -i 用以显示符合条件的进程情况
lsof -i[46] [protocol][@hostname|hostaddr][:service|port]
46 --> IPv4 or IPv6
protocol --> TCP or UDP
hostname --> Internet host name
hostaddr --> IPv4地址
service --> /etc/service中的 service name (可以不只一个)
port --> 端口号 (可以不只一个)
lsof使用实例
一、查找谁在使用文件系统
在卸载文件系统时,如果该文件系统中有任何打开的文件,操作通常将会失败。那么通过lsof可以找出那些进程在使用当前要卸载的文件系统,如下:
# lsof /GTES11/
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
bash 4208 root cwd DIR 3,1 4096 2 /GTES11/
vim 4230 root cwd DIR 3,1 4096 2 /GTES11/
在这个示例中,用户root正在其/GTES11目录中进行一些操作。一个 bash是实例正在运行,并且它当前的目录为/GTES11,另一个则显示的是vim正在编辑/GTES11下的文件。要成功地卸载/GTES11,应该在通知用户以确保情况正常之后,中止这些进程。 这个示例说明了应用程序的当前工作目录非常重要,因为它仍保持着文件资源,并且可以防止文件系统被卸载。这就是为什么大部分守护进程(后台进程)将它们的目录更改为根目录、或服务特定的目录(如 sendmail 示例中的 /var/spool/mqueue)的原因,以避免该守护进程阻止卸载不相关的文件系统。
二、恢复删除的文件
当Linux计算机受到入侵时,常见的情况是日志文件被删除,以掩盖攻击者的踪迹。管理错误也可能导致意外删除重要的文件,比如在清理旧日志时,意外地删除了数据库的活动事务日志。有时可以通过lsof来恢复这些文件。
当进程打开了某个文件时,只要该进程保持打开该文件,即使将其删除,它依然存在于磁盘中。这意味着,进程并不知道文件已经被删除,它仍然可以向打开该文件时提供给它的文件描述符进行读取和写入。除了该进程之外,这个文件是不可见的,因为已经删除了其相应的目录索引节点。
在/proc 目录下,其中包含了反映内核和进程树的各种文件。/proc目录挂载的是在内存中所映射的一块区域,所以这些文件和目录并不存在于磁盘中,因此当我们对这些文件进行读取和写入时,实际上是在从内存中获取相关信息。大多数与 lsof 相关的信息都存储于以进程的 PID 命名的目录中,即 /proc/1234 中包含的是 PID 为 1234 的进程的信息。每个进程目录中存在着各种文件,它们可以使得应用程序简单地了解进程的内存空间、文件描述符列表、指向磁盘上的文件的符号链接和其他系统信息。lsof 程序使用该信息和其他关于内核内部状态的信息来产生其输出。所以lsof 可以显示进程的文件描述符和相关的文件名等信息。也就是我们通过访问进程的文件描述符可以找到该文件的相关信息。
当系统中的某个文件被意外地删除了,只要这个时候系统中还有进程正在访问该文件,那么我们就可以通过lsof从/proc目录下恢复该文件的内容。 假如由于误操作将/var/log/messages文件删除掉了,那么这时要将/var/log/messages文件恢复的方法如下:
首先使用lsof来查看当前是否有进程打开/var/logmessages文件,如下:
# lsof |grep /var/log/messages
syslogd 1283 root 2w REG 3,3 5381017 1773647 /var/log/messages (deleted)
从上面的信息可以看到 PID 1283(syslogd)打开文件的文件描述符为 2。同时还可以看到/var/log/messages已经标记被删除了。因此我们可以在 /proc/1283/fd/2 (fd下的每个以数字命名的文件表示进程对应的文件描述符)中查看相应的信息,如下:
# head -n 10 /proc/1283/fd/2
Aug 4 13:50:15 holmes86 syslogd 1.4.1: restart.
Aug 4 13:50:15 holmes86 kernel: klogd 1.4.1, log source = /proc/kmsg started.
Aug 4 13:50:15 holmes86 kernel: Linux version 2.6.22.1-8 (root@everestbuilder.linux-ren.org) (gcc version 4.2.0) #1 SMP Wed Jul 18 11:18:32 EDT 2007
Aug 4 13:50:15 holmes86 kernel: BIOS-provided physical RAM map:
Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 0000000000000000 - 000000000009f000 (usable)
Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 000000000009f000 - 00000000000a0000 (reserved)
Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 0000000000100000 - 000000001f7d3800 (usable)
Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 000000001f7d3800 - 0000000020000000 (reserved)
Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 00000000e0000000 - 00000000f0007000 (reserved)
Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 00000000f0008000 - 00000000f000c000 (reserved)
从上面的信息可以看出,查看 /proc/8663/fd/15 就可以得到所要恢复的数据。如果可以通过文件描述符查看相应的数据,那么就可以使用 I/O 重定向将其复制到文件中,如:
cat /proc/1283/fd/2 > /var/log/messages
对于许多应用程序,尤其是日志文件和数据库,这种恢复删除文件的方法非常有用。