内核使用三种数据结构表示打开的文件,它们之间的关系决定了在文件共享方面一个进程对另一个进程可能产生的影响。
1>每个进程在进程表中都有一个记录项,记录项中包含有一张打开文件描述符表,可将其视为一个矢量,每个描述项占用一项。与每个文件描述符相关联的是:
- 文件描述符标志(close-on-exec)(每个进程独有)
- 指向一个文件表项的指针
注:其中close-on-exec标志,如果某个文件符设置了该标志,fcntl(fd, F_SETFD, 1), 则在该进程调用exec函数之前为exec族函数关闭对应的文件描述符。
2>内核为所有打开文件维持一张文件表项。每个文件表项包含:
- 文件状态标志:读、写、添写、同步、非阻塞等(任何进程中的所有描述符都可指向同一个文件状态标志)
- 当前文件偏移量
- 指向该文件v节点表项的指针
注:在文件表或者v索引节点中都有索引计数,引用计数为0的时候,文件引用为0的时候就可以收回此表项
fork后父子进程各自的每一个打开的文件描述符共享同一个文件表项
3>每个打开文件(或设备)都有个v节点结构。v节点包含了文件类型和对此文件进行各种操作的函数指针。 对于大多数文件,v节点还包含了该文件的i节点(索引节点)。这些信息是在打开文件时从磁盘上读入内存的,所以所有关于文件的信息都是快速可供使用的。
例如:i节点包含了文件的所有者、文件长度、文件所在设备、只想文件实际数据块在磁盘上所在位置的指针等等。
注:Linux没有使用v节点,而是使用了通用的i节点结构。虽然这两种实现有所不同,但在概念上,v节点和i节点是一样的。两者都指向文件系统所特有的i节点结构。
进程表(也称进程控制块PCB,由结构task_struct所定义的数据结构),Linux系统的所有进程控制块组织成结构数组形式,结构数组:struct task_struct *task[NR_TASK]={&init_task}来记录指向各PCB的指针,
进程表(如几乎所有其他操作系统)只是计算机RAM中的数据结构.它保存有关操作系统当前处理的进程的信息。此信息包括有关每个流程的一般信息
UNIX系统中,把PCB分为四个区:
- 进程表项,进程标识符(PID),用户标识符(UID),进程状态,事件描述符,进程和U区在内存或外存的地址,软中断信息,计时域,进程的大小,偏置值nice,P-Link指针,指向U区进程正文、数据及栈在内存区域的指针
- U区:进程表项指针,真正用户标识符u-ruid(real user ID),有效用户标识符u-euid(effective user ID),用户文件描述符表,当前目录和当前根,计时器,内部I/O参数,限制字段,差错字段,返回值,信号处理数组
- 进程区表:区的类型和大小,区的状态,区在物理存储器中的位置,引用计数,指向文件索引结点的指针
- 系统区表:进程区表项,系统区表项和区的关系
两个独立进程各自打开同一个文件(下图),此图中可以看出,对于同一个文件,打开该文件的每个进程都得到一个文件表项,但对一个给定的文件只有一个v节点表项。而每个进程都有自己的文件表项的一个理由是:使每个进程都有它自己的对该文件的当前偏移量。
- 每个write后,在文件表项中的当前文件偏移量既增加所写入的字节数,如果这导致文件偏移量超出了当前文件长度,则将i节点表项中的当前文件长度设置为当前文件偏移量(即文件长度增加)
- 如果用O_APPEND标志打开了一个文件,则相应标志也被设置到文件表项的文件状态标志中,每次对这种具有追加写标志的文件执行写操作时,文件表项中的当前文件偏移量首先会被设置为i节点表项中的文件长度,这就使得每次写入的数据都追加到文件的当前的尾端处
- 若一个文件用lseek定位到文件的当前尾端,则文件表项中的当前文件偏移量被设置为i节点表项中当前文件长度(与O_APPEND标志打开是不同的)
- lseek函数只修改文件表项中的当前文件偏移量,不进行任何I/O操作
dup后的文件表项
Linux读文件的过程