二叉查找树:
特性:左子树的键值小于根的键值,右子树的键值大于根的键值,下图是一个二叉查找树
对该二叉树进行查找发现深度为1的节点查找次数是1,深度为2的查找次数为2,查找为n的节点查找次数为n,因此平均查找次数为(1+2+2+3+3+3)/6=2.3次。
二叉树可以任意的构造,同样是2,3,5,6,7,8这几个数字,可以构造为
但是这颗二叉树的效率就低了,所以需要这棵树是平衡的,就有了平衡二叉树,或叫AVL树。
平衡二叉树
平衡二叉树在符合二叉树查找条件下,还满足任何节点的两个子树的高度的最大差为1,下边这两张图,左边是AVL树,右边是非AVL树。
平衡多路二叉树(B-Tree)
多路:即节点不再是多个子节点,可以有多个
B-Tree是为磁盘等外部设备设计的一种平衡查找树
系统从磁盘读取数据到内存是以磁盘块(block)为基本单位的,位于同一个磁盘块的数据会被一次性读取出来,而不是需要什么取什么。
而innodb存储引擎有页(page)的概念,页是其磁盘管理的最小单位。innodb存储引擎中默认每页的大小为16K,可以通过参数innode_page_size将页的大小设置为4K、8K、16K。
而一个磁盘的存储空间往往没这么大,因此innodb每次申请磁盘空间时都会是若干地址连续磁盘块来达到页的大小16K。
innodb在把磁盘数据读入到磁盘时会以页为基本单位,在查询数据时,如果一个页中的每条数据都能有助于定位数据记录的具体位置,那么将会减少磁盘I/O的次数,提高查询效率。
B-Tree结构的数据可以让系统高效的找到数据所在的磁盘块。
以下为每页的结构:
每个节点占用一个盘块的磁盘空间,一个节点上有两个升序排序的关键字和三个指向子树根节点的指针, 指针存储的是指针所在磁盘块的地址。
两个关键词划分成的三个范围域对应三个指针指向的子树的数据的范围域,以根节点为例:关键字为17和35,P1指向指针的子树的数据范围为小于17,P2指针指向的子树的数据范围为17-35,P3指针指向的子树的数据范围为大于35。
模拟查找关键字29的过程:
- 根据根节点找到磁盘块1,读入内存【磁盘I/O为第一次】
- 比较关键字29在区间[17-35],找到磁盘块1的指针P2
- 根据P2的指针找到磁盘块3,读入内存【磁盘I/O为第二次】
- 比较关键字29在区间(26-30),找到磁盘块3的指针P2
- 根据P2指针找到磁盘块8,读入内存【磁盘I/O为第三次】
- 在磁盘块8的关键字列表中找到关键字29
分析上面过程,需要3次I/O操作和3次内存查找操作,由于内存中的关键字是一个有序表结构,可以利用二分法查找提高效率。而三次磁盘I/O操作是影响B-Tree查找的决定因素。B-Tree相对于AVL-Tree缩减了节点个数,使每次磁盘I/O取到内存的数据都发挥了作用,从而提高了查询效率。
B+Tree(balance+tree)
B+Tree是B-Tree的一种优化,使其更适合实现外存储数据结构,innodb存储引擎就是用B+Tree实现其结构。
B-Tree结构图中可以看到每个节点中不仅包含数据的key值,还有data值(非叶子节点也有),而每个页的存储空间是有限的。
如果data数据较大时将会导致每个节点(即一个页)能存储的key的数量很小。
当存储的数据量很大时同样会导致B-Tree的深度较大,增加磁盘I/O的次数,进而影响查询效率。
在B+Tree中,所有数据记录节点都是按照键值大小顺序存放在同一层的叶子节点上,而非叶子节点上只存储key值信息,这样可以大大加大每个节点存储key值数量,降低B+Tree的高度。
且B+Tree的所有关键字的具体信息都存储在叶子节点,通常都会使用链表将叶子节点连接起来,遍历叶子节点就能够获取所有的数据,也就可以进行区间查询,而B-Tree只有中序遍历才能够获取所有数据。
1.提高深度,提高存储量
2.适合区间查询
参考地址: