哈希表的实现

哈希表的实现
哈希表的实现
目录
- 哈希表的实现
  1、TreeMap分析
  2、哈希表（Hash Table）
  3、哈希冲突（Hash Collision）
  4、JDK1.8的哈希冲突解决方案
  5、哈希函数
  6、如何生成Key的哈希值
  7、Long和Double的哈希值
  8、字符串的哈希表
  9、关于31的探讨
  10、自定义对象的哈希值
  11、自定义对象作为Key
  12、哈希值的进一步处理”扰动计算
  13、装填因子
  14、TreeMap vs HashMap
  15、LinkedHashMap
  16、LinkedHashMap – 更换节点的连接位置
  17、关于使用%来计算索引
1、TreeMap分析
- 时间复杂度（平均）
  - 添加、删除、搜索：O(logn)
- 特点
  - Key必须具备可比较性
  - 元素的分布是有顺序的
- 在实际应用中，很多时候的需求
  - Map中存储的元素不需要讲究顺序
  - Map中的Key不需要具备可比较性
- 不考虑顺序、不考虑Key的可比较性，Map有更好的实现方案，平均时间复杂度可以达到O(1)
  - 那就是采取哈希表来实现Map
2、哈希表（Hash Table）
- 哈希表也叫作散列表
- 它是如何实现高效处理数据的？
  - put("Jack",666)
  - put("Rose",777)
  - put("Kate",888)
- 添加、搜索、删除的流程都是类似的
  - 利用哈希函数生成Key对应的index【O(1)】
  - 根据index操作定位数组元素【O(1)】
- 哈希表是【空间换时间】的典型应用
- 哈希函数，也叫做散列函数
- 哈希表内部的数组元素，很多地方也叫Bucket（桶），整个数组叫Buckets或者Bucket Array
3、哈希冲突（Hash Collision）
- 哈希冲突也叫做哈希碰撞
  - 2个不同的Key，经过哈希函数计算出相同的结果
  - Key1 != key2，hash(Key1) = hash(key2)
- 解决哈希冲突的常见方式
  - 开放定址法（Open Addressing）
    
    按照一定规则向其他地址探测，知道遇到空桶
  - 再哈希法（Re-Hashing）
    
    设计多个哈希函数
  - 链地址法（Separate Chaining）
    
    比如通过链表将同一index的元素串起来
4、JDK1.8的哈希冲突解决方案
- 默认使用单向链表将元素串起来
- 在添加元素时，可能会由单向链表转为红黑树来存储元素
  - 比如当哈希表容量>=64且单向链表的节点数量大于8时
- 当红黑树节点数量少到一定程度时，又会转为单向链表
- JDK1.8中的哈希表是使用链表+红黑树解决哈希冲突
5、哈希函数
- 哈希表中哈希函数的实现步骤大概如下
  - 1.先生成Key的哈希值（必须是整数）
  - 2.再让Key的哈希值跟数组的大小进行相关运算，生成一个索引值
```
Public int hash(Object key){
	return hash_code(key) % table.length;
}
```
- 为了提高效率，可以使用&位运算取代%运算【前提：将数组的长度设计为2的幂（2^n）】
```
Public int hash(Object key){
	return hash_code(key) & (table.length - 1);
}
```
- 良好的哈希函数
  - 让哈希表更加均匀分布-->减少哈希冲突次数-->提升哈希表的性能
6、如何生成Key的哈希值
- key的常见类型种类可能有
  - 整数、浮点数、字符串、自定义对象
  - 不同种类的Key，哈希值的生成方式不一样，但目标是一致的
    
    尽量让每个key的哈希值是唯一的
    
    尽量让key的所有信息参与运算
- 在Java中，HashMap的key必须实现hashCode、equals方法，也允许key为null
- 整数
  - 整数值当做哈希值
  - 比如10的哈希值就是10
- 浮点数
  - 将存储的二进制格式转为整数值
```
public static int hashCode(int value){
	return value;
}
```
```
public static int hashCode(float value){
	return floatToIntBits(value);
}
```
7、Long和Double的哈希值
```
public static int hashCode(long value){
	return (int)(value ^ (value >>> 32));
}
```
```
public static int hashCode(double value){
	long bits = doubleToLongBits(value);
	return (int)(bits ^ (bits >>> 32));
}
```
>>>和^的作用是？
- 高32bit和低32bit混合计算出32bit的哈希值
- 充分利用所有信息计算出哈希值
8、字符串的哈希表
- 整数5489是如何计算出来的
  - 5 ∗ 103 + 4 ∗ 102 + 8 ∗ 101 + 9 ∗ 100
- 字符串是由若干个字符组成的
  - 比如字符串 jack，由 j、a、c、k 四个字符组成（字符的本质就是一个整数）
  - 因此，jack 的哈希值可以表示为 j ∗ n 3 + a ∗ n 2 + c ∗ n 1 + k ∗ n 0，等价于 [ ( j ∗ n + a ) ∗ n + c ] ∗ n + k
  - 在JDK中，乘数 n 为 31，为什么使用 31？
  - 31 是一个奇素数，JVM会将 31 * i 优化成 (i << 5) – i
```
String string = "jack";
int hashCode = 0;
int len = string.length;
for(int i = 0; i < len; i++){
	char c = string.charAt(i);
	hashCode = 31 * hashCode + c;
}
```
```
String string = "jack";
int hashCode = 0;
int len = string.length;
for(int i = 0; i < len; i++){
	char c = string.charAt(i);
	hashCode = (hashCode << 5) - hasCode + c;
}
```
9、关于31的探讨
- 31 * i = (2^5 – 1) * i = i * 2^5 – i = (i << 5) – i
- 31不仅仅是符合2^n – 1，它是个奇素数（既是奇数，又是素数，也就是质数）
  - 素数和其他数相乘的结果比其他方式更容易产成唯一性，减少哈希冲突
  - 最终选择31是经过观测分布结果后的选择
10、自定义对象的哈希值
```
public class Person implements Comparable<Person> {
	private int age;   // 10  20
	private float height; // 1.55 1.67
	private String name; // "jack" "rose"
	
	public Person(int age, float height, String name) {
		this.age = age;
		this.height = height;
		this.name = name;
	}
	
	@Override
	/**
	 * 用来比较2个对象是否相等
	 */
	public boolean equals(Object obj) {
		// 内存地址
		if (this == obj) return true;
		if (obj == null || obj.getClass() != getClass()) return false;
		// if (obj == null || !(obj instanceof Person)) return false;
		
		// 比较成员变量
		Person person = (Person) obj;
		return person.age == age
				&& person.height == height
				&& (person.name == null ? name == null : person.name.equals(name));
	}
	
	@Override
	public int hashCode() {
		int hashCode = Integer.hashCode(age);
		hashCode = hashCode * 31 + Float.hashCode(height);
		hashCode = hashCode * 31 + (name != null ? name.hashCode() : 0);
		return hashCode;
	}

	@Override
	public int compareTo(Person o) {
		return age - o.age;
	}
}
```
11、自定义对象作为Key
- 自定义对象作为 key，最好同时重写 hashCode 、equals 方法
  - equals ：用以判断 2 个 key 是否为同一个 key
    
    自反性：对于任何非 null 的 x，x.equals(x)必须返回true
    
    对称性：对于任何非 null 的 x、y，如果 y.equals(x) 返回 true，x.equals(y) 必须返回 true
    
    传递性：对于任何非 null 的 x、y、z，如果 x.equals(y)、y.equals(z) 返回 true，那么x.equals(z) 必须返回 true
    
    一致性：对于任何非 null 的 x、y，只要 equals 的比较操作在对象中所用的信息没有被修改，多次调用 x.equals(y) 就会一致地返回 true，或者一致地返回 false
    
    对于任何非 null 的 x，x.equals(null) 必须返回 false
  - hashCode ：必须保证 equals 为 true 的 2 个 key 的哈希值一样
  - 反过来 hashCode 相等的 key，不一定 equals 为 true
- 不重写 hashCode 方法只重写 equals 会有什么后果？
  - 可能会导致 2 个 equals 为 true 的 key 同时存在哈希表中
12、哈希值的进一步处理”扰动计算
```
private int hash(K key){
	if(key == null){
		return 0;
	}
	int h = key.hashCode();
	return (h ^ (h >>> 16)) & (table.length - 1);
}
```
13、装填因子
- 装填因子（Load Factor）：节点总数量 / 哈希表桶数组长度，也叫做负载因子
- 在JDK1.8的HashMap中，如果装填因子超过0.75，就扩容为原来的2倍
14、TreeMap vs HashMap
- 何时选择TreeMap？
  - 元素具备可比较性且要求升序遍历（按照元素从小到大）
- 何时选择HashMap？
  - 无序遍历
15、LinkedHashMap
- 在HashMap的基础上维护元素的添加顺序，使得遍历的结果是遵从添加顺序的
- 删除度为2的节点node时
  - 需要注意更换 node 与前驱后继节点的连接位置
- 假设添加顺序是
  - 37、21、31、41、97、95、52、42、83
LinkedHashMap – 删除注意点
- 删除度为2的节点node时（比如删除31）
  - 需要注意更换 node 与前驱后继节点的连接位置
16、LinkedHashMap – 更换节点的连接位置
```
// 交换prev
LinkedNode<K, V> tmp = node1.prev;
node1.prev = node2.prev;
node2.prev = tmp;
if (node1.prev == null) {
	first = node1;
} else {
	node1.prev.next = node1;
}
if (node2.prev == null) {
	first = node2;
} else {
	node2.prev.next = node2;
}
```
```
// 交换next
tmp = node1.next;
node1.next = node2.next;
node2.next = tmp;
if (node1.next == null) {
	last = node1;
} else {
	node1.next.prev = node1;
}
if (node2.next == null) {
	last = node2;
} else {
	node2.next.prev = node2;
}
```
17、关于使用%来计算索引
- 如果使用%来计算索引
  - 建议把哈希表的长度设计为素数（质数）
  - 可以大大减小哈希冲突
- 右边表格列出了不同数据规模对应的最佳素数，特点如下
  - 每个素数略小于前一个素数的2倍
  - 每个素数尽可能接近2的幂（2 n）
相关阅读:
语音识别系列之区分性训练和LF-MMI【转】
node、npm安装与升级
 Vue3.0 新特性以及使用经验总结
 div垂直居中的方法
 前端性能优化
 大型网站设计总结
 前端SEO
前端埋点总结
 jenkins自动构建、自动部署
 Python常见whl文件集合
原文地址：https://www.cnblogs.com/coderD/p/14673913.html

哈希表的实现

哈希表的实现

1、TreeMap分析

2、哈希表（Hash Table）

3、哈希冲突（Hash Collision）

4、JDK1.8的哈希冲突解决方案

5、哈希函数

6、如何生成Key的哈希值

7、Long和Double的哈希值

8、字符串的哈希表

9、关于31的探讨

10、自定义对象的哈希值

11、自定义对象作为Key

12、哈希值的进一步处理”扰动计算

13、装填因子

14、TreeMap vs HashMap

15、LinkedHashMap

16、LinkedHashMap – 更换节点的连接位置

17、关于使用%来计算索引