mysql 9 hash索引和B+tree索引的区别

不同的引擎对于索引有不同的支持：Innodb和MyISAM默认的索引是Btree索引；而Mermory默认的索引是Hash索引。

我们在mysql中常用两种索引算法BTree和Hash，两种算法检索方式不一样，对查询的作用也不一样。

区别：

哈希索引适合等值查询，但是无法进行范围查询 

哈希索引没办法利用索引完成排序 

哈希索引不支持多列联合索引的最左匹配规则 

如果有大量重复键值的情况下，哈希索引的效率会很低，因为存在哈希碰撞问题

详解

一、BTree
BTree索引是最常用的mysql数据库索引算法，因为它不仅可以被用在=,>,>=,<,<=和between这些比较操作符上，而且还可以用于like操作符，

只要它的查询条件是一个不以通配符开头的常量，例如：
select * from user where name like ‘jack%’;
select * from user where name like ‘jac%k%’;
如果一通配符开头，或者没有使用常量，则不会使用索引，例如：
select * from user where name like ‘%jack’;
select * from user where name like simply_name;

二、Hash
Hash索引只能用于对等比较，例如=,<=>（相当于= 会严格比较两个NULL值是否相等，NULL<=>NULL = 1）操作符。由于是一次定位数据，不像BTree索引需要从根节点到枝节点，最后才能访问到页节点这样多次IO访问，所以检索效率远高于BTree索引。
但为什么我们使用BTree比使用Hash多呢？主要Hash本身由于其特殊性，也带来了很多限制和弊端：

1 Hash索引仅仅能满足“=”,“IN”,“<=>”查询，不能使用范围查询。
2 联合索引中，Hash索引不能利用部分索引键查询。
3 对于联合索引中的多个列，Hash是要么全部使用，要么全部不使用，并不支持BTree支持的联合索引的最优前缀，也就是联合索引的前面一个或几个索引键进行查询时，Hash索引无法被利用。
4 Hash索引无法避免数据的排序操作
5 Hash索引是将索引键通过Hash运算之后，将Hash运算结果的Hash值和所对应的行指针信息存放于一个Hash表中，由于不同索引键存在相同Hash值，所以即使满足某个Hash键值的数据的记录条数，
也无法从Hash索引中直接完成查询，还是要通过访问表中的实际数据进行比较，并得到相应的结果。
Hash索引遇到大量Hash值相等（hash碰撞）的情况后性能并不一定会比BTree高
6 对于选择性比较低的索引键，如果创建Hash索引，那么将会存在大量记录指针信息存于同一个Hash值相关联。这样要定位某一条记录时就会非常麻烦，会浪费多次表数据访问，而造成整体性能底下。

1. hash索引查找数据基本上能一次定位数据，当然有大量hash碰撞的话性能也会下降。而btree索引就得在节点上挨着查找了，很明显在数据精确查找方面hash索引的效率是要高于btree的；

2. 那么不精确查找呢，也很明显，因为hash算法是基于等值计算的，所以对于“like”等范围查找hash索引无效，不支持；所以这时候就只能全表扫描去查了

3. 对于btree支持的联合索引的最优前缀，hash也是无法支持的，联合索引中的字段要么全用要么全不用。

最左前缀匹配?

在创建多列索引时，我们根据业务需求，where子句中使用最频繁的一列放在最左边，因为MySQL索引查询会遵循最左前缀匹配的原则，即最左优先，在检索数据时从联合索引的最左边开始匹配。所以当我们创建一个联合索引的时候，如(key1,key2,key3)，相当于创建了（key1）、(key1,key2)和(key1,key2,key3)三个索引，这就是最左匹配原则

一张表格说明白差异

索引名	hash	Btree
支持最左前缀匹配原则？	不支持，只有索引的全部字段都用上才会匹配到	支持，用上索引的第一个字段就可以匹配索引
MyISAM和InnoDB是否支持？	不支持（只有Memory和NDB引擎索引支持）	支持
范围查询能否命中索引？	不可以，只有“=”,“IN”,“<=>”（等价于的意思）查询能命中	可以，支持between ， > ，< ，>= ， <= ， like 等
数据结构	hash表，通过键去找值的一种数据结构，hash碰撞的数据放到链表里	B-tree，多路搜索树，并不是二叉的

三其实有很多优秀的数据结构可以优化查询

为什么哈希表、完全平衡二叉树、B树、B+树都可以优化查询，为何Mysql独独喜欢B+树？

hash表上面已经讲过了

有序数组，它就比较优秀了呀，它在等值查询的和范围查询的时候都很Nice

不是的，有序的适合静态数据，因为如果我们新增、删除、修改数据的时候就会改变他的结构。

比如你新增一个，那在你新增的位置后面所有的节点都会后移，成本很高。

此言差矣，可以用来做静态存储引擎啊，用来保存静态数据，例如你2019年的支付宝账单，2019年的淘宝购物记录等等都是很合适的，都是不会变动的历史数据。

二叉树

二叉树是有序的，所以是支持范围查询的。

但是他的时间复杂度是O(log(N))，为了维持这个时间复杂度，更新的时间复杂度也得是O(log(N))，那就得保持这棵树是完全平衡二叉树了。

怎么听你一说，平衡二叉树用来做索引还不错呢？

此言差矣，索引也不只是在内存里面存储的，还是要落盘持久化的，可以看到图中才这么一点数据，如果数据多了，树高会很高，

查询的成本就会随着树高的增加而增加。

B树呢

可以发现同样的元素，B树的表示要比完全平衡二叉树要“矮”，原因在于B树中的一个节点可以存储多个元素。

B树其实就已经是一个不错的数据结构，用来做索引效果还是不错的。

那为啥没用B树，而用了B+树？

我们可以发现同样的元素，B+树的表示要比B树要“胖”，原因在于B+树中的非叶子节点会冗余一份在叶子节点中，并且叶子节点之间用指针相连，

同时非叶子节点不存储数据，

那么B+树到底有什么优势呢？

其实很简单，我们看一下上面的数据结构，最开始的Hash不支持范围查询，二叉树树高很高，只有B树跟B+有的一比。

B树一个节点可以存储多个元素，相对于完全平衡二叉树整体的树高降低了，磁盘IO效率提高了。

而B+树是B树的升级版，只是把非叶子节点冗余一下，这么做的好处是为了提高范围查找的效率。

提高了的原因也无非是会有指针指向下一个节点的叶子节点。

小结：到这里可以总结出来，Mysql选用B+树这种数据结构作为索引，可以提高查询索引时的磁盘IO效率，并且可以提高范围查询的效率，

并且B+树里的元素也是有序的。

四 B+树的一个节点，最多存储多少数据？

相关阅读:
编译原理词/语法分析
 【转】 c# 中为何load事件中不能画图
 [原创]GAMITGLOBK数据处理报告
 Google Earth上的点标记
 序贯平差
 【原创】C#写的水准网平差程序
 楼梯问题：一次最多跨两个阶梯，有多少种走法
 springMVC + Dubbo + zooKeeper超详细步骤
 Git(to be continued...)
autoconf & automake
原文地址：https://www.cnblogs.com/hup666/p/13388570.html