• 【Java源码】集合类-JDK1.8 哈希表-红黑树-HashMap总结


    JDK 1.8 HashMap是数组+链表+红黑树实现的,在阅读HashMap的源码之前先来回顾一下大学课本数据结构中的哈希表和红黑树。

    什么是哈希表?

    • 在存储结构中,关键值key通过一种关系f和唯一的存储位置相对应,关系f即哈希函数,Hash(k)=f(k)。按这个思想建立的表就是哈希表。
    • 当有两个不相等的关键字key1和key2,但f(key1)=f(key2)这两个key地址相同,就发生了冲突现象。
    • 冲突不能避免只能减少,通过设计均匀的哈希函数来减少。

    常用哈希函数?

    1. 直接定址法

    Hash(key) = a*key + b (a,b为常数)

    取关键字的某种线性关系,实际中使用较少。

    2. 初留余数法

    Hash(key) = key mod p (p,整数)

    即关键字key除以p的余数作为地址。

    3.数字分析法,平方取中法,折叠法

    处理冲突的方法?

    处理冲突就是为这个关键字找到另一个空的哈希地址。

    1.开放地址法
    • 线性探测法
    • 二次探测法
    • 双哈希函数探测法
    2.拉链法
    • 拉链法的基本思想是,根据关键字k,将数据元素存放在哈希基表中的i=hash(k)位置上。如果产生冲突,则创建一个结点存放该数据元素,并将该结点插入到一个链表中。这种由冲突的数据元素构成的链表称为哈希链表。一个哈希基表与若干条哈希链表相连。
    • 例如,对于如下的关键字序列:{9,9,24,44,32,86,36,3,62,56}
      设哈希函数 hash(k) = k % 10,hash(k)对应哈希基表 table 的下标值 i,采用拉链法的哈希表结构如图:

    红黑树

    红黑树本质上就是一棵二叉查找树(二叉排序树),红黑树的查找、插入、删除的时间复杂度最坏为O(log n)。

    什么是二叉查找树(二叉排序树)?

    二叉查找树(Binary Search Tree)也就是二叉排序树。特征性质:

    • 任意结点的左子树不空,则左子树上所有结点的值均小于它的根结点的值;
    • 任意结点的右子树不空,则右子树上所有结点的值均大于它的根结点的值;
    • 左、右子树也为二叉查找树。
    • 按中序遍历可以得到有序序列。

    什么是红黑树?

    维基百科定义:https://zh.wikipedia.org/wiki/%E7%BA%A2%E9%BB%91%E6%A0%91

    红黑树(英语:Red–black tree)是一种自平衡二叉查找树,是在计算机科学中用到的一种数据结构,典型的用途是实现关联数组。它在1972年由鲁道夫·贝尔发明,被称为"对称二叉B树",它现代的名字源于Leo J. Guibas和Robert Sedgewick于1978年写的一篇论文。红黑树的结构复杂,但它的操作有着良好的最坏情况运行时间,并且在实践中高效:它可以在log n时间内完成查找,插入和删除,这里的n是树中元素的数目。

    特征性质:

    • 节点是红色或黑色。
    • 根结点是黑的。
    • 所有叶子都是黑色(叶子是NIL节点)。
    • 每个红色节点必须有两个黑色的子节点。(从每个叶子到根的所有路径上不能有两个连续的红色节点。)
    • 对于任一结点而言,其到叶结点的每一条路径都包含相同数目的黑结点

    JDK 1.8 Map接口

    public interface Map<K,V> {
        int size(); //返回Map中键值对的个数
        boolean isEmpty(); //检查map是否为空
        boolean containsKey(Object key); //查看map是否包含某个键
        boolean containsValue(Object value); //查看map是否包含某个值
        V put(K key, V value); //保存,若原来有这个key则覆盖并返回原来的值
        V get(Object key); //根据key获取值, 若没找到,则返回null
        V remove(Object key); //根据key删除, 返回key原来的值,若不存在,则返回null
        void putAll(Map<? extends K, ? extends V> m); //将m中的所有键值对到当前的Map
        void clear(); //清空Map
        Set<K> keySet(); //返回Map中所有键
        Collection<V> values(); //返回Map中所有值
        Set<Map.Entry<K, V>> entrySet(); //返回Map中所有键值对
        //内部接口,表示一个键值对
        interface Entry<K,V> {
            K getKey(); //返回键
            V getValue(); //返回值
            V setValue(V value); //setvalue
        }
    }
    

    HashMap特点

    • 根据键的hashCode值存储数据,大多数情况下可以直接定位到它的值,因而具有很快的访问速度,但遍历顺序却是不确定的。
    • HashMap最多只允许一条记录的键为null,允许多条记录的值为null。
    • HashMap非线程安全,即任一时刻可以有多个线程同时写HashMap,可能会导致数据的不一致。如果需要满足线程安全,可以用Collections的synchronizedMap方法使HashMap具有线程安全的能力,或者使用ConcurrentHashMap。
    • 负载因子可以修改,也可以大于1,建议不要轻易修改,除非特殊情况。

    内部数据结构:

    HashMap 类属性

    transient Node<k,v>[] table; 这个类属性就是哈希桶数组

    public class HashMap<K,V> extends AbstractMap<K,V> implements Map<K,V>, Cloneable, Serializable {
        // 序列号
        private static final long serialVersionUID = 362498820763181265L;    
        // 默认的初始容量是16
        static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;   
        // 最大容量
        static final int MAXIMUM_CAPACITY = 1 << 30; 
        // 默认的负载因子
        static final float DEFAULT_LOAD_FACTOR = 0.75f;
        // 当桶(bucket)上的结点数大于这个值时会转成红黑树
        static final int TREEIFY_THRESHOLD = 8; 
        // 当桶(bucket)上的结点数小于这个值时树转链表
        static final int UNTREEIFY_THRESHOLD = 6;
        // 桶中结构转化为红黑树对应的table的最小大小
        static final int MIN_TREEIFY_CAPACITY = 64;
        // 存储元素的数组,总是2的幂次倍(哈希桶数组)
        transient Node<k,v>[] table; 
        // 存放具体元素的集
        transient Set<map.entry<k,v>> entrySet;
        // 存放元素的个数,注意这个不等于数组的长度。
        transient int size;
        // 每次扩容和更改map结构的计数器
        transient int modCount;   
        // 临界值 当实际大小(容量*填充因子)超过临界值时,会进行扩容
        int threshold;
        // 负载因子
        final float loadFactor;
    }
    

    内部类Node

    static class Node<K,V> implements Map.Entry<K,V> {
            final int hash;
            final K key;
            V value;
            Node<K,V> next;
            
            Node(int hash, K key, V value, Node<K,V> next) {
                ......
            }
            public final K getKey()        { return key; }
            public final V getValue()      { return value; }
            public final String toString() { return key + "=" + value; }
    
            public final int hashCode() {
                return Objects.hashCode(key) ^ Objects.hashCode(value);
            }
            public final V setValue(V newValue) {
                ....
            }
            public final boolean equals(Object o) {
            ......
            }
        }
    

    构造函数

    • 无参构造函数默认长度16,负载因子0.75
        /**
         * Constructs an empty <tt>HashMap</tt> with the default initial capacity
         * (16) and the default load factor (0.75).
         */
        public HashMap() {
            this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
        }
    
    • 指定容量,负载因子0.75
        public HashMap(int initialCapacity) {
            this(initialCapacity, DEFAULT_LOAD_FACTOR);
        }
    
    • 指定容量和指定负载因子
        public HashMap(int initialCapacity, float loadFactor) {
            if (initialCapacity < 0)
                throw new IllegalArgumentException("Illegal initial capacity: " +
                                                   initialCapacity);
            if (initialCapacity > MAXIMUM_CAPACITY)
                initialCapacity = MAXIMUM_CAPACITY;
            if (loadFactor <= 0 || Float.isNaN(loadFactor))
                throw new IllegalArgumentException("Illegal load factor: " +
                                                   loadFactor);
            this.loadFactor = loadFactor;
            this.threshold = tableSizeFor(initialCapacity);
        }
    

    重要函数

    内部hash方法(获得的hash值用于putVal方法中确定哈希桶数组索引位置)

        static final int hash(Object key) {
            int h;
            return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
        }
    
    • 第一步调用object的hashCode:h = key.hashCode() 取hashCode值
    • h ^ (h >>> 16) 首先进行无符号右移(>>>)运算,再通过异或运算(^)得到hash值。

    put方法,put内部调用的是putVal

    final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                       boolean evict) {
            Node<K,V>[] tab; Node<K,V> p; int n, i;
            //首先确定table是不是为空,如果为空进行扩容
            if ((tab = table) == null || (n = tab.length) == 0)
                n = (tab = resize()).length;
                //取模运算,确定哈希桶数组索引位置
            if ((p = tab[i = (n - 1) & hash]) == null)
                tab[i] = newNode(hash, key, value, null);
            else {
                Node<K,V> e; K k;
                //节点key存在,直接覆盖value
                if (p.hash == hash &&
                    ((k = p.key) == key || (key != null && key.equals(k))))
                    e = p;
                //判断是否是红黑树
                else if (p instanceof TreeNode)
                    //如果是红黑树,则直接在树中插入键值对
                    e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
                //为链表
                else {
                    for (int binCount = 0; ; ++binCount) {
                        if ((e = p.next) == null) {
                            p.next = newNode(hash, key, value, null);
                            //判断链表长度是否大于8,大于8把链表转换为红黑树
                            if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                                treeifyBin(tab, hash);
                            break;
                        }
                        //key已经存在直接覆盖value
                        if (e.hash == hash &&
                            ((k = e.key) == key || (key != null && key.equals(k))))
                            break;
                        p = e;
                    }
                }
                if (e != null) { // existing mapping for key
                    V oldValue = e.value;
                    if (!onlyIfAbsent || oldValue == null)
                        e.value = value;
                    afterNodeAccess(e);
                    return oldValue;
                }
            }
            ++modCount;
            //判断实际存在的键值对数量size是否超多了最大容量threshold,如果超过,进行扩容。
            if (++size > threshold)
                resize();
            afterNodeInsertion(evict);
            return null;
        }
    
    • i = (n - 1) & hash;通过取模运算,确定哈希桶数组索引位置。位运算(&)效率要比取模运算(%)高很多,主要原因是位运算直接对内存数据进行操作,不需要转成十进制,因此处理速度非常快。

    注意:a % b == a & (b - 1) 前提:b 为 2^n

    • 下面是hash到确定数组位置的过程图:

    HashMap 如何进行扩容

    final Node<K,V>[] resize() {
            Node<K,V>[] oldTab = table;
            int oldCap = (oldTab == null) ? 0 : oldTab.length;
            int oldThr = threshold;
            int newCap, newThr = 0;
            if (oldCap > 0) {
                // 超过最大值就不再扩充
                if (oldCap >= MAXIMUM_CAPACITY) {
                    threshold = Integer.MAX_VALUE;
                    return oldTab;
                }
                // 没超过最大值,扩充为原来的2倍
                else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                         oldCap >= DEFAULT_INITIAL_CAPACITY)
                    newThr = oldThr << 1; // double threshold
            }
            else if (oldThr > 0) // initial capacity was placed in threshold
                newCap = oldThr;
            else {               // zero initial threshold signifies using defaults
                newCap = DEFAULT_INITIAL_CAPACITY;
                newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
            }
            // 计算新的resize上限
            if (newThr == 0) {
                float ft = (float)newCap * loadFactor;
                newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                          (int)ft : Integer.MAX_VALUE);
            }
            threshold = newThr;
            @SuppressWarnings({"rawtypes","unchecked"})
                Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
            table = newTab;
            if (oldTab != null) {
            // 把每个bucket都移动到新的buckets中
                for (int j = 0; j < oldCap; ++j) {
                    Node<K,V> e;
                    if ((e = oldTab[j]) != null) {
                        oldTab[j] = null;
                        if (e.next == null)
                            newTab[e.hash & (newCap - 1)] = e;
                        else if (e instanceof TreeNode)
                            ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                        else { // preserve order
                             // 链表优化重hash的代码块
                            Node<K,V> loHead = null, loTail = null;
                            Node<K,V> hiHead = null, hiTail = null;
                            Node<K,V> next;
                            do {
                                next = e.next;
                                 // 原索引
                                if ((e.hash & oldCap) == 0) {
                                    if (loTail == null)
                                        loHead = e;
                                    else
                                        loTail.next = e;
                                    loTail = e;
                                }
                                // 原索引+oldCap
                                else {
                                    if (hiTail == null)
                                        hiHead = e;
                                    else
                                        hiTail.next = e;
                                    hiTail = e;
                                }
                            } while ((e = next) != null);
                             // 原索引放到bucket里
                            if (loTail != null) {
                                loTail.next = null;
                                newTab[j] = loHead;
                            }
                             // 原索引+oldCap放到bucket里
                            if (hiTail != null) {
                                hiTail.next = null;
                                newTab[j + oldCap] = hiHead;
                            }
                        }
                    }
                }
            }
            return newTab;
        }
    

    注意事项

    扩容是一个特别耗性能的操作,所以当使用HashMap的时候,估算map的大小,初始化的时候给一个大致的数值,避免map进行频繁的扩容。

    参考:

  • 相关阅读:
    OO第四次总结
    OO第三次总结
    C语言函数指针
    Java对象集合
    emacs下最牛逼的Markdown编辑方式
    OO第二次总结
    Git复习
    Java设计原则
    多线程学习笔记1
    OO第一次总结
  • 原文地址:https://www.cnblogs.com/monkjavaer/p/11117312.html
Copyright © 2020-2023  润新知