一、文件的基本概念( 识记 )
对数据结构来说, 文件是性质相同的记录的集合 (这不同于我们说的操作系统中的文件概念) 。
与文件有关的概念还有: 记录是文件中存取的基本单位,数据项是文件可使用的 最小单位 ,数据项有时称字段或者属性 。主关键字项 (唯一标识一个记录的字段)、 次关键字项 、 主关键字 、 次关键字 。 单关键字文件 、 多关键字文件 等。
文件的逻辑结构是一种线性结构 。
文件上的操作主要有两类: 检索和维护 。并有实时和批量处理两种处理方式。
文件的存储结构是指文件在外存上的组织方式, 基本 的组织方式 有: 顺序组织 、索引组织 、散列组织和链组织 。文件组织的各种方式往往是这四种基本方式的结合。
常用的文件组织方式 : 顺序文件 、 索引文件 、 散列文件和多关键字文件 。
评价一个文件组织的效率 ,是执行文件操作所花费的时间和文件组织所需的存储空间 。通常文件组织的主要目的,是为了能高效、方便地对文件进行操作,而检索功能的多寡和速度的快慢 ,是衡量文件操作质量的重要标志 。
二、顺序文件( 识记 )
顺序文件是指按记录进入文件的先后顺序存放、其逻辑顺序和物理顺序一致的文件。
一切存储在顺序存储器(如磁带)上的文件都只能顺序文件 。这种顺序文件只能按顺序查找法存取(注意,没有折半法了)。
存储在直接存取存储器(如磁盘) 上的顺序文件可以顺序查找法存取,也可以用分块查找法或二分查找法存取。
顺序文件多用于磁带。
三、索引文件( 识记 )
索引文件的组织方式:通常是在文件本身(主文件)之外,另外建立一张表,它指明逻辑记录和物理记录之间一一对应的关系,这张表就叫做索引表 ,它和主文件一起 构成索引文件 。
索引非顺序文件中的索引表为稠密索引 。索引顺序文件中的索引表为稀疏索引 。
若记录很大使得索引表也很大时,可对索引表再建立索引,称为查找表 。通常可达四级索引。
四、索引顺序文件( 识记 )
索引顺序文件是最常用的文件组织 :因为索引顺序文件的主文件也是有序的,所以它既适合于随机存取也适合于顺序存取。另一方面,索引非顺序文件的索引是稠密索引,而索引顺序文件的稀疏索引,占用空间较少,因此索引顺序文件是最常用的一种文件组织。
索引顺序文件 常用的有两种: ISAM 文件和 VSAM 文件。ISAM(Indexed Sequential Access Methed,索引顺序存取方法)是一种专为磁盘存取文件设计的文件组织方式,采用静态索引结构。
VSAM(Virtual Storage Access Method,虚拟存储存取方法)也是一种索引顺序文件的组织方式,采用B+树作为动态索引结构。
五、散列文件( 识记 )
散列文件是利用散列存储方式组织的文件,亦称为直接存取文件。
它类似于散列表,即根据文件中关键字的特点,设计一个散列函数和处理冲突的方法,将记录散列到存储设备上。与散列表不同的是,对于文件来说,记录通常是成组存放的,若干个记录组成一个存储单位,称为桶。 对散列而言,处理冲突的方法主要采用拉链法。
散列文件的优点是:文件随机存放,记录不需要排序;插入删除方便;存取速度快;不需要索引区,节省存储空间。缺点是:不能进行顺序存取,只能按关键字随机存取,且询问方式限地简单询问,需要重新组织文件。
六、多关键字文件( 识记 )
对被查询的次关键字也建立相应的索引,则这种包含有多个次关键字索引的文件称为多关键字文件 。
两种多关键字文件的组织方法: 多重表文件 和倒排表 。
一般的文件组织中,是先找记录,然后再找到该记录所含的各次关键字;而倒排文件是先给定次关键字,然后查找含有该次关键字的各个记录,因此称为倒排。