对索引的认识:
什么是索引?
我最初的理解是把索引当场一本字典的目录。
假如一本字典没有目录,那我们想查到某个字只能从头找到尾。
所以才会对字典按照页码来进行划分,并且在字典的最开始几页,有相应的目录可以让我们知道目标字在哪一页,从而快速定位到目标。
而且根据需求的不同,一般用过字典的小伙伴都知道,有按照拼音开头的目录,有按照偏旁部首开头的目录,等等。。。 其实和mysql中的 主键索引 联合索引 等等种类的索引是异曲同工的。
数据结构:
mysql索引使用的数据结构是B+树,目前大部分数据库系统都采用 B+Tree 或 B-Tree 这两种数据结构,本文不打算详解其中原因(对两种数据结构细节感兴趣的可以参考其他文章)
简单来说,索引文件一般是存在于硬盘当中,由于数据量大无法全部一次加载进内存。而磁盘的IO读取代价相比于内存读取代价要高很多倍,所以我们在选择数据结构上面,最重要的一点就是尽可能减少对磁盘io的操作。
数组:索引文件无法一次加载进内存
链表:查询需要从头到尾的查询
上面的两种B树特点决定了他们可以保证尽可能少的进行io操作,而且相对于平衡二叉树、二叉搜索树等数据结构,树的高度要低很多,查询对应的io次数更少。
而B+Tree和B-Tree的区别主要是前者的非叶子节点不存储数据,目的是能够存储更多的索引,保证整颗树更“矮”,但是想要找到数据必须进行树的高度次IO操作(即B+Tree的高度为3,则需要进行3次IO操作,在叶子节点上找到目标数据)
而B-Tree不论叶子节点还是非叶子节点都存放数据,好处是可能在没有到达叶子结点的时候就找到了目标数据
但是B-Tree如果想要存放和B+Tree相同量的索引,则必须让树的高度增加,也就是增加io次数,所以B+Tree相对更稳定
聚集索引和非聚集索引:
在mysql当中,不同的存储引擎对索引的实现是不同的,本文介绍常见的两种mysql存储存储引擎对索引的实现,即MyISAM存储引擎和InnoDB存储引擎,二者对索引的实现分别为非聚集索引(非聚簇索引)和聚集索引(非聚簇索引),这也是最常见的两种索引的实现
1、MyISAM索引实现:
MyISAM引擎使用的是非聚集索引的形式,简单来说是索引和数据是分开存放的,索引存放的是数据文件的地址,我们需要先找到索引,然后再通过索引找到数据
在MyISAM引擎中,主键和一般索引在结构上没有区别,只是主键必须是唯一的,但是在查询时,普通索引和主键索引都是需要先获得数据文件地址,再去找到相应的数据
2、InnoDB索引实现
该存储引擎使用的是聚集索引,该索引方式最明显的特点就是主键索引和数据是在一起的(同一个文件中),可以理解为找到了主键索引也就找到了数据,不需要二次查找
而该索引结构当中的普通索引,想找到数据,也必须通过主键索引进行二次查找才可以
即:通过主键索引查找数据,查找一次 ,而通过普通索引查找数据,则需要普通索引找到主键索引,通过主键索引找到数据,也就是所谓的二次查找
如图为:mysql中两种索引方式的对比
如图,为B+树组织数据的方式:
实际存储时当然不会每个节点只存3条数据。
以InnoDB引擎为例,简单计算一下一颗B+树可以存放多少行数据。
B+树特点:只有叶子节点存储数据,而非叶子节点存放的是用来找到叶子节点数据的索引(如上图:key和指针)
InnoDB存储引擎的最小存储单元为16k(就像操作系统的最小单元为4k 即1页),在这即B+树的一个节点的大小为16k
假设数据库一条数据的大小为1k,则一个节点可以存储16条数据
而非叶子节点,key一般为主键假设8字节,指针在InnoDB中是6字节,一共为14字节,一个节点可以存储 16384/14 = 1170个索引指针
可以算出一颗高度为2的树(即根节点为存储索引指针节点,还有1170个叶子节点存储数据),每个节点可以存储16条数据,一共1170*16条数据 = 18720条
高度为3的树,可以存放 1170 * 1170 * 16 = 21902400条记录
两千多万条数据,我们只需要B+树为3层的数据结构就可以完成,通过主键查询只需要3次IO操作就能查到对应记录。