• ConcurrentHashMap


    1、1.7版本concurrentHashMap

      ConcurrentHashMap 和 HashMap 的实现原理是差不多的,但是因为 ConcurrentHashMap 是并发安全的,所以在实现上要比hashmap复杂一些。 

      在 JDK1.7 的实现上,ConrruentHashMap 由一个个 Segment 组成,简单来说, ConcurrentHashMap是一个Segment数组,它通过继承ReentrantLock来进行加锁,通过 每次锁住一个segment来保证每个segment内的操作的线程安全性从而实现全局线程安全。

    整个结构图如下:

          

      当每个操作分布在不同的 segment 上的时候,默认情况下,理论上可以同时支持 16 个线程 的并发写入。 

    2、1.8版本的concurrentHashMap

    2.1、相比1.7改进之处

      (1)取消了segment分段设计,直接使用Node数组来保存数据,并且采用Node数组元素作 为锁来实现每一行数据进行加锁来进一步减少并发冲突的概率

      (2)将原本数组+单向链表的数据结构变更为了数组+单向链表+红黑树的结构。为什么要引入 红黑树呢?在正常情况下,key hash之后如果能够很均匀的分散在数组中,那么table数 组中的每个队列的长度主要为 0 或者 1。但是实际情况下,还是会存在一些队列长度过长的情况。如果还采用单向列表方式,那么查询某个节点的时间复杂度就变为 O(n);因此对于 队列长度超过8的链表,JDK1.8采用了红黑树的结构,那么查询的时间复杂度就会降低到 O(logN),可以提升查找的性能; 

          

      这个结构和 JDK1.8 版本中的 Hashmap 的实现结构基本一致,但是为了保证线程安全性,ConcurrentHashMap的实现会稍微复杂一下。

     2.2、源码分析

      通过put方法看一下ConcurrentHashMap的原理。

    2.1、第一阶段

    public V put(K key, V value) { 
        return putVal(key, value, false); 
    } 
    /** Implementation for put and putIfAbsent */ 
    final V putVal(K key, V value, boolean onlyIfAbsent) { 
        if (key == null || value == null) throw new NullPointerException(); 
        int hash = spread(key.hashCode()); //计算 hash 值 
        int binCount = 0; //用来记录链表的长度 
        for (Node<K,V>[] tab = table;;) { //这里其实就是自旋操作,当出现线程竞争时不断自旋 
            Node<K,V> f; int n, i, fh; 
            if (tab == null || (n = tab.length) == 0)//1、如果数组为空,则进行数组初始 
                tab = initTable(); //初始化数组 
    //2、通过 hash 值对应的数组下标得到第一个节点; 以 volatile 读的方式来读取 table 数
    组中的元素,保证每次拿到的数据都是最新的 
            else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {  
    //3、如果该下标返回的节点为空,则直接通过 cas 将新的值封装成 node 插入即可;如果 cas 失败,说明存在竞争,则进入下一次循环 
                if (casTabAt(tab, i, null, 
                             new Node<K,V>(hash, key, value, null))) 
                    break;                   // no lock when adding to empty bin 
            } 
    }

      假如在上面这段代码中存在两个线程,在不加锁的情况下:线程A成功执行casTabAt操作 后,随后的线程B可以通过tabAt方法立刻看到table[i]的改变。原因如下:线程A的 casTabAt操作,具有volatile读写相同的内存语义,根据volatile的happens-before规 则:

    线程A的casTabAt操作,一定对线程B的tabAt操作可见。

      initTable方法

      数组初始化方法,就是初始化一个合适大小的数组。其中有一个sizeCtl 属性,它是在 Node 数组初始化或者扩容的时候的一个控制位标识,负数代表正在进行初始化或者扩容操作

        -1 代表正在初始化;

        -N 代表有N-1 有二个线程正在进行扩容操作,这里不是简单的理解成 n个线程,sizeCtl就是-N,这块后续在讲扩容的时候说明;

        0标识Node数组还没有被初始化;

        正数代表初始化或者下一次扩容的大小。

    private final Node<K,V>[] initTable() { 
        Node<K,V>[] tab; int sc; 
        while ((tab = table) == null || tab.length == 0) { 
            if ((sc = sizeCtl) < 0)//被其他线程抢占了初始化的操作,则直接让出自己的 CPU时间片 
                Thread.yield(); // lost initialization race; just spin 
    //通过 cas 操作,将 sizeCtl 替换为-1,标识当前线程抢占到了初始化资格 
            else if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) { 
                try { 
                    if ((tab = table) == null || tab.length == 0) { 
                        int n = (sc > 0) ? sc : DEFAULT_CAPACITY;//默认初始容量为16 
                        @SuppressWarnings("unchecked") 
    //初始化数组,长度为 16,或者初始化在构造 ConcurrentHashMap 的时候传入的长度 
                        Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n]; 
                        table = tab = nt;//将这个数组赋值给 table 
                        sc = n - (n >>> 2); //计算下次扩容的大小,实际就是当前容量的 0.75倍,这里使用了右移来计算 
                    } 
                } finally { 
                    sizeCtl = sc; //设置 sizeCtl 为 sc, 如果默认是 16 的话,那么这个时候sc=16*0.75=12 
                } 
                break; 
           }
    }
    return tab;
    }

      tabAt方法

      该方法获取对象中offset偏移地址对应的对象field的值。实际上这段代码的含义等价于tab[i], 但是为什么不直接使用tab[i]来计算呢?

      关键在于getObjectVolatile,一旦看到volatile关键字,就表示可见性。因为对volatile写操作happenbefore于volatile读操作,因此其他线程对table的修改均对get读取可见; 虽然 table 数组本身是增加了 volatile 属性,但是“volatile 的数组只针对数组的引用具有

    volatile的语义,而不是它的元素”。 所以如果有其他线程对这个数组的元素进行写操作,那 么当前线程来读的时候不一定能读到最新的值。出于性能考虑,直接通过Unsafe类来对table进行操作。 

    static final <K,V> Node<K,V> tabAt(Node<K,V>[] tab, int i) {     
    return (Node<K,V>)U.getObjectVolatile(tab, ((long)i << ASHIFT) + ABASE);
    }

    2.2、第二阶段

      在putVal方法执行完成以后,会通过addCount来增加ConcurrentHashMap中的元素个数, 并且还可能触发扩容操作。

    //将当前 ConcurrentHashMap 的元素数量加 1,有可能触发 transfer 操作(扩容) 
        addCount(1L, binCount); 
        return null;

      这里会有三个非常经典的设计

        1)如何保证addCount 的数据安全性以及性能(分段思想)

        2)支持多线程并发扩容(通过使用扩容戳resizeStamp,巧妙使用位运算来控制同时扩容的线程数)

        3)数据迁移采用高低链

      addCount方法

      在 putVal 最后调用 addCount 的时候,传递了两个参数,分别是 1 和 binCount(链表长度),x表示这次需要在表中增加的元素个数,check参数表示是否需要进行扩容检查,大于等于0 都需要进行检查。

    private final void addCount(long x, int check) { 
        CounterCell[] as; long b, s; 
    /*判断 counterCells 是否为空, 
    1. 如果为空,就通过 cas 操作尝试修改 baseCount 变量,对这个变量进行原子累加操作(做这个操作的意义是:如果在没有竞争的情况下,仍然采用 baseCount 来记录元素个数) 
    2. 如果 cas 失败说明存在竞争,这个时候不能再采用 baseCount 来累加,而是通过CounterCell 来记录*/
    if ((as = counterCells) != null || 
            !U.compareAndSwapLong(this, BASECOUNT, b = baseCount, s = b + x)) 
    { 
            CounterCell a; long v; int m; 
            boolean uncontended = true;//是否冲突标识,默认为没有冲突 
    /*这里有几个判断 
    1. 计数表为空则直接调用 fullAddCount 
    2. 从计数表中随机取出一个数组的位置为空,直接调用 fullAddCount 
    3. 通过 CAS 修改 CounterCell 随机位置的值,如果修改失败说明出现并发情况(这里又
    用到了一种巧妙的方法),调用 fullAndCount 
    Random在线程并发的时候会有性能问题以及可能会产生相同的随机数 ,ThreadLocalRandom.getProbe可以解决这个问题,并且性能要比 Random高*/
            if (as == null || (m = as.length - 1) < 0 || 
                (a = as[ThreadLocalRandom.getProbe() & m]) == null || !(uncontended = 
                  U.compareAndSwapLong(a, CELLVALUE, v = a.value, v + x))) { 
                fullAddCount(x, uncontended);//执行 fullAddCount 方法 
                return; 
            } 
            if (check <= 1)//链表长度小于等于 1,不需要考虑扩容 
                return; 
            s = sumCount();//统计 ConcurrentHashMap 元素个数 
        } 
        //…. 
    }

      第一个经典设计:元素累加采用分段思想来支持多线程同时添加元素时的累加操作

      分段思想:baseCount和CounterCell[ ]数组(初始容量为2)分别记录元素个数,当不存在竞争时,通过baseCount来计数,当存在竞争时通过CounterCell来计数。在计数时只尝试一次通过cas来累加baseCount,失败的话则以后计数通过CounterCell来计数,也是通过cas来累加。

                                                

      当多个线程向table添加元素时,每个线程生成一个随机数(0-counterCells.length-1,及counterCells的下标),该CounterCell.value通过cas累加,如果失败,CounterCell会扩容。这样就可以支持多个线程并行累加元素个数。

                  

      可以看一下ConcurrentHashMap的size()方法:size = baseCount + CounterCell[i].value。

    final long sumCount() { 
        CounterCell[] as = counterCells; CounterCell a; 
        long sum = baseCount; 
        if (as != null) { 
            for (int i = 0; i < as.length; ++i) { 
                if ((a = as[i]) != null) 
                    sum += a.value; 
            } 
        } 
        return sum; 
    } 

      transfer扩容判断

      判断是否需要扩容,也就是当更新后的键值对总数baseCount >= 阈值sizeCtl时,进行 rehash,这里面会有两个逻辑:

        (1)如果当前正在处于扩容阶段,则当前线程会加入并且协助扩容

        (2) 如果当前没有在扩容,则直接触发扩容操作 

    if (check >= 0) {//如果 binCount>=0,标识需要检查扩容 
            Node<K,V>[] tab, nt; int n, sc; 
    //s 标识集合大小,如果集合大小大于或等于扩容阈值(默认值的 0.75) 并且 table 不为空并且 table 的长度小于最大容量 
            while (s >= (long)(sc = sizeCtl) && (tab = table) != null && 
                   (n = tab.length) < MAXIMUM_CAPACITY) { 
                int rs = resizeStamp(n);//这里是生成一个唯一的扩容戳if (sc < 0) {//sc<0,也就是 sizeCtl<0,说明已经有别的线程正在扩容了 
    /*这 5 个条件只要有一个条件为 true,说明当前线程不能帮助进行此次的扩容,直接跳出循环 
      (1)sc >>> RESIZE_STAMP_SHIFT!=rs 表示比较高 RESIZE_STAMP_BITS 位生成戳和 rs 是否相等,相同 
      (2)sc=rs+1 表示扩容结束 
      (3)sc==rs+MAX_RESIZERS 表示帮助线程线程已经达到最大值了 
      (4)nt=nextTable -> 表示扩容已经结束 
      (5)transferIndex<=0 表示所有的 transfer 任务都被领取完了,没有剩余的hash 桶来给自己自己好这个线程来做 transfer */
      if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 || sc == rs + MAX_RESIZERS || (nt = nextTable) == null || transferIndex <= 0) 
    break;
    if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1))//当前线程尝试帮助此次扩容,如果成功,则调用 transfer
    transfer(tab, nt); }
    // 如果当前没有在扩容,那么 rs 肯定是一个正数,通过 rs<<RESIZE_STAMP_SHIFT 将 sc 设置为一个负数,+2 表示有一个线程在执行扩容
    else if (U.compareAndSwapInt(this, SIZECTL, sc, (rs << RESIZE_STAMP_SHIFT) + 2)) transfer(tab, null);
    s
    = sumCount();// 重新计数,判断是否需要开启下一轮扩容
    }
    }

      第二个经典设计:扩容戳resizeStamp ,通过位运算来控制多线程并行扩容

       int rs = resizeStamp(n)生成生成一个扩容戳:

    static final int resizeStamp(int n) { 
        return Integer.numberOfLeadingZeros(n) | (1 << (RESIZE_STAMP_BITS - 1)); 
    }

      Integer.numberOfLeadingZeros 这个方法是返回无符号整数 n 最高位非 0 位前面的 0 的个数。比如10的二进制是 0000 0000 0000 0000 0000 0000 0000 1010 那

    么这个方法返回的值就是28。

      根据resizeStamp的运算逻辑,假如n=16,那么resizeStamp(16)=32796 转化为二进制是 [0000 0000 0000 0000 1000 0000 0001 1100]。接着再来看,当第一个线

    程尝试进行扩容的时候,会执行下面这段代码 U.compareAndSwapInt(this, SIZECTL, sc, (rs << RESIZE_STAMP_SHIFT) + 2) rs左移16位,相当于原本的二进制低位变

    成了高位1000 0000 0001 1100 0000 0000 0000 0000,然后再+2 =1000 0000 0001 1100 0000 0000 0000 0000+10=1000 0000 0001 1100 0000 0000 0000 0010。所

    以高16位代表扩容的标记、低16位代表并行扩容的线程数。

      这样设计的意义:

    (1)每次扩容都会生成唯一的扩容戳,因为每次扩容的容量n不同,则扩容戳也不同。

    (2)高16位作为扩容标记可以保证所有参与扩容的线程都在同一扩容周期(即扩容容量相同)。

    (3)低16位表示同时参与扩容的线程数,达到限制数后其他线程则不能再参与扩容。

      transfer扩容过程

      ConcurrentHashMap没有直接锁住整个扩容过程,而是采用CAS实现无锁的并发同步策略,最精华的是它可以利用多线程来进行协同扩容。简单来说,将 Node 数

    组当作多个线程之间共享的任务队列,然后通过维护一个指针来划分每个线程锁负责的区间(一个区间称为一个bucket),每个线程通过区间逆向遍历来实现扩容,一

    个已经迁移完的 bucket会被替换为一个ForwardingNode节点,标记当前bucket已经被其他线程迁移完了。 private final void transfer(Node<K,V>[] tab, Node<K,V>[] nextTab) { 

    int n = tab.length, stride; 
    //将 (n>>>3 相当于 n/8) 然后除以 CPU 核心数。如果得到的结果小于 16,那么就使用 16 这里的目的是让每个 CPU 处理的桶一样多,
    避免出现转移任务不均匀的现象,如果桶较少
    的话,默认一个 CPU(一个线程)处理 16 个桶,也就是长度为 16 的时候,扩容的时候只会有一个线程来扩容 if ((stride = (NCPU > 1) ? (n >>> 3) / NCPU : n) < MIN_TRANSFER_STRIDE) stride = MIN_TRANSFER_STRIDE; // subdivide range //nextTab未初始化 , nextTab是用来扩容的 node数组 if (nextTab == null) { // initiating try { @SuppressWarnings("unchecked") //新建一个 n<<1 原始 table 大小的 nextTab,也就是 32 Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n << 1]; nextTab = nt;//赋值给 nextTab } catch (Throwable ex) { // try to cope with OOME sizeCtl = Integer.MAX_VALUE; //扩容失败,sizeCtl 使用 int 的最大值 return; } nextTable = nextTab; //更新成员变量 transferIndex = n;//更新转移下标,表示转移时的下标 } int nextn = nextTab.length;//新的 tab 的长度 /* 创建一个 fwd 节点,表示一个正在被迁移的 Node,并且它的 hash 值为-1(MOVED),也就是前面我们在讲 putval 方法的时候,
    会有一个判断 MOVED 的逻辑。它的作用是用来占位,表示原数组中位置 i 处的节点完成迁移以后,就会在 i 位置设置一个 fwd 来告诉其他线程这个位置已经 处理过了,具体后续还会在讲 */ ForwardingNode
    <K,V> fwd = new ForwardingNode<K,V>(nextTab); // 首次推进为 true,如果等于 true,说明需要再次推进一个下标(i--),反之,如果是 false,那么就不能推进下标,需要将当前的下标处理完毕才能继续推进 boolean advance = true; //判断是否已经扩容完成,完成就 return,退出循环 boolean finishing = false; // to ensure sweep before committing nextTab /*通过 for自循环处理每个槽位中的链表元素,默认 advace为真,通过 CAS设置transferIndex属性值,并初始化 i和 bound值, i指当前处理的槽位序号, bound 指需要处理的槽位边界,先处理槽位 15的节点*/ for (int i = 0, bound = 0;;) { // 这个循环使用 CAS 不断尝试为当前线程分配任务 // 直到分配成功或任务队列已经被全部分配完毕 // 如果当前线程已经被分配过 bucket 区域 // 那么会通过--i 指向下一个待处理 bucket 然后退出该循环 Node<K,V> f; int fh; while (advance) { int nextIndex, nextBound; //--i 表示下一个待处理的 bucket,如果它>=bound,表示当前线程已经分配过bucket 区域 if (--i >= bound || finishing) advance = false; else if ((nextIndex = transferIndex) <= 0) {//表示所有 bucket 已经被分配完毕 i = -1; advance = false; } //通过 cas 来修改 TRANSFERINDEX,为当前线程分配任务,处理的节点区间为 (nextBound,nextIndex)->(0,15) else if (U.compareAndSwapInt (this, TRANSFERINDEX, nextIndex, nextBound = (nextIndex > stride ? nextIndex - stride : 0))) { bound = nextBound;//0 i = nextIndex - 1;//15 advance = false; } } //i<0 说明已经遍历完旧的数组,也就是当前线程已经处理完所有负责的 bucket if (i < 0 || i >= n || i + n >= nextn) { int sc; if (finishing) {//如果完成了扩容 nextTable = null;//删除成员变量 table = nextTab;//更新 table 数组 sizeCtl = (n << 1) - (n >>> 1);//更新阈值(32*0.75=24) return; } // sizeCtl 在迁移前会设置为 (rs << RESIZE_STAMP_SHIFT) + 2// 然后,每增加一个线程参与迁移就会将 sizeCtl 加 1, // 这里使用 CAS 操作对 sizeCtl 的低 16 位进行减 1,代表做完了属于自己的任if (U.compareAndSwapInt(this, SIZECTL, sc = sizeCtl, sc - 1)) { /*第一个扩容的线程,执行 transfer 方法之前,会设置 sizeCtl = (resizeStamp(n) << RESIZE_STAMP_SHIFT) + 2) 后续帮其扩容的线程,
    执行 transfer 方法之前,会设置 sizeCtl = sizeCtl+1 ,每一个退出 transfer 的方法的线程,退出之前,会设置 sizeCtl = sizeCtl-1 那么最后一个线程退出时:必然有 sc == (resizeStamp(n) << RESIZE_STAMP_SHIFT) + 2),即 (sc - 2) == resizeStamp(n) <<
    RESIZE_STAMP_SHIFT*/ // 如果 sc - 2 不等于标识符左移 16 位。如果他们相等了,说明没有线程在帮助他们扩容了。也就是说,扩容结束了。 if ((sc - 2) != resizeStamp(n) << RESIZE_STAMP_SHIFT) return; // 如果相等,扩容结束了,更新 finising 变量 finishing = advance = true; // 再次循环检查一下整张表 i = n; // recheck before commit } } // 如果位置 i 处是空的,没有任何节点,那么放入刚刚初始化的 ForwardingNode ”空节点“ else if ((f = tabAt(tab, i)) == null) advance = casTabAt(tab, i, null, fwd); //表示该位置已经完成了迁移,也就是如果线程 A 已经处理过这个节点,那么线程 B 处理这个节点时,hash 值一定为 MOVED else if ((fh = f.hash) == MOVED) advance = true; // already processed } }

    (1)fwd:这个类是个标识类,用于指向新表用的,其他线程遇到这个类会主动跳过这个类,因 为这个类要么就是扩容迁移正在进行,要么就是已经完成扩容迁移,也就

    是这个类要保证线 程安全,再进行操作。

    (2)advance:这个变量是用于提示代码是否进行推进处理,也就是当前桶处理完,处理下一个 桶的标识。

    (3)finishing:这个变量用于提示扩容是否结束用的。

      扩容过程图解:

      ConcurrentHashMap支持并发扩容,实现方式是,把Node数组进行拆分,让每个线程处理 自己的区域,假设table数组总长度是64,默认情况下,那么每个线程可

    以分到16个bucket。 然后每个线程处理的范围,按照倒序来做迁移。通过for自循环处理每个槽位中的链表元素,默认advace为真,通过CAS设置transferIndex 属性

    值,并初始化i和bound值, i指当前处理的槽位序号,bound指需要处理的槽位边界, 先处理槽位31的节点;(bound,i) =(16,31)  从31的位置往前推动。 

        

      假设这个时候ThreadA在进行transfer,那么逻辑图表示如下

        

      在当前假设条件下,槽位 15 中没有节点,则通过 CAS 插入在第二步中初始化的 ForwardingNode节点,用于告诉其它线程该槽位已经处理过了;

        

      数据迁移过程

      分配好迁移的区间之后,开始对数据进行迁移。

    synchronized (f) {//对数组该节点位置加锁,开始处理数组该位置的迁移工作 
                    if (tabAt(tab, i) == f) {//再做一次校验 
                        Node<K,V> ln, hn;//ln 表示低位, hn 表示高位;接下来这段代码的作用是把链表拆分成两部分,0 在低位,1 在高位 
                        if (fh >= 0) {//下面部分代码原理点击这里 
                            int runBit = fh & n;                          Node<K,V> lastRun = f; 
    //遍历当前 bucket 的链表,目的是尽量重用 Node 链表尾部的一部分 
                            for (Node<K,V> p = f.next; p != null; p = p.next) {  
                                int b = p.hash & n; 
                                if (b != runBit) { 
                                    runBit = b; 
                                    lastRun = p; 
                                } 
                            } 
                            if (runBit == 0) { //如果最后更新的 runBit 是 0,设置低位节点 
                                ln = lastRun; 
                                hn = null; 
                            } 
                            else {//否则,设置高位节点 
                                hn = lastRun; 
                                ln = null; 
                            } 
                             //构造高位以及低位的链表 
                            for (Node<K,V> p = f; p != lastRun; p = p.next) { 
                                int ph = p.hash; K pk = p.key; V pv = p.val; 
                                if ((ph & n) == 0) 
                                    ln = new Node<K,V>(ph, pk, pv, ln); 
                                else 
                                    hn = new Node<K,V>(ph, pk, pv, hn); 
                            } 
                            setTabAt(nextTab, i, ln);//将低位的链表放在 i 位置也就是不动 
                            setTabAt(nextTab, i + n, hn);//将高位链表放在 i+n 位置 
                             setTabAt(tab, i, fwd); // 把旧 table 的 hash 桶中放置转发节点,表明此 hash 桶已经被处理 
                            advance = true; 
                        } 
                        //红黑树的扩容部分暂时忽略         
    } 

      第三个经典设计:高低链实现数据迁移

      ConcurrentHashMap在做链表迁移时,会用高低位来实现,这里有两个问题:

      (1)如何实现高低位链表的区分

      假如我们有这样一个队列:

        

      第14个槽位插入新节点之后,链表元素个数已经达到了8,且数组长度为16,优先通过扩容 来缓解链表过长的问题,扩容这块的图解稍后再分析,先分析高低位扩

    容的原理:假如当前线程正在处理槽位为14的节点,它是一个链表结构,在代码中,首先定义两个变量 节点 ln 和 hn,实际就是 lowNode 和 HighNode,分别保存 hash

    值的第 x 位为 0 和不等于 0的节点。通过fn&n可以把这个链表中的元素分为两类,A类是hash值的第X位为0,B类是hash值 的第 x位为不等于 0(至于为什么要这么区

    分,稍后分析),并且通过lastRun记录最后要处 理的节点。最终要达到的目的是,A 类的链表保持位置不动,B 类的链表为 14+16(扩容增加 的长度)=30。

      把 14 槽位的链表单独拿出来,用蓝色表示 fn&n=0 的节点,链表的分类如下:

        

    for (Node<K,V> p = f.next; p != null; p = p.next) { 
        int b = p.hash & n; 
         if (b != runBit) { 
            runBit = b; 
            lastRun = p; 
        } 
    }

      通过上面这段代码遍历,会记录 runBit 以及 lastRun,按照上面这个结构,那么 runBit 应该 是蓝色节点,lastRun应该是第6个节点。接着,再通过这段代码进行遍

    历,生成ln链以及hn链。

    for (Node<K,V> p = f; p != lastRun; p = p.next) { 
        int ph = p.hash; K pk = p.key; V pv = p.val; 
        if ((ph & n) == 0) 
            ln = new Node<K,V>(ph, pk, pv, ln); 
        else 
            hn = new Node<K,V>(ph, pk, pv, hn); 
    } 

        

      接着,通过 CAS 操作,把 hn 链放在 i+n 也就是 14+16 的位置,ln 链保持原来的位置不动。并且设置当前节点为fwd,表示已经被当前线程迁移完了。

    setTabAt(nextTab, i, ln); 
    setTabAt(nextTab, i + n, hn); 
    setTabAt(tab, i, fwd); 

      迁移完成以后的数据分布如下:

        

      使用高低链的原理:

      假设的table长度是16, 二进制是【0001 0000】,减一以后的二进制是 【0000 1111】 假如某个key的hash值=9,对应的二进制是【0000 1001】,那么按照(n-

    1) & hash的算法 0000 1111 & 0000 1001 =0000 1001 , 运算结果是9。当扩容以后,16变成了32,那么(n-1)的二进制是 【0001 1111】 仍然以hash值=9的二进制

    计算为例 0001 1111 & 0000 1001 =0000 1001 ,运算结果仍然是9。

      换一个数字,假如某个key的hash值是20,对应的二进制是【0001 0100】,仍然按照(n-1) & hash算法,分别在16为长度和32位长度下的计算结果 16位: 

        0000 1111 & 0001 0100 =0000 0100

        0001 1111 & 0001 0100 =0001 0100 (二者区别在于相差16)

      所以在迁移时低链位置不变,高链位置+n

    2.3、第三阶段

      如果被添加的节点的位置已经存在节点的时候,需要以链表的方式加入到节点中;如果当前节点已经是一颗红黑树,那么就会按照红黑树的规则将当前节点加入到红黑树中。

    else { //进入到这个分支,说明 f 是当前 nodes 数组对应位置节点的头节点,并且不为 
                V oldVal = null; 
                synchronized (f) { //给对应的头结点加锁 
                    if (tabAt(tab, i) == f) {//再次判断对应下标位置是否为 f 节点 
                        if (fh >= 0) { //头结点的 hash 值大于 0,说明是链表 
                            binCount = 1; //用来记录链表的长度 
                            for (Node<K,V> e = f;; ++binCount) {//遍历链表 
                                K ek; 
    //如果发现相同的 key,则判断是否需要进行值的覆盖 
                                if (e.hash == hash && 
                                    ((ek = e.key) == key || 
                                     (ek != null && key.equals(ek)))) { 
                                    oldVal = e.val; 
                                    if (!onlyIfAbsent) //默认情况下,直接覆盖旧的值 
                                        e.val = value; 
                                    break; 
                                } 
    //一直遍历到链表的最末端,直接把新的值加入到链表的最后面 
                                Node<K,V> pred = e; 
                                if ((e = e.next) == null) { 
                                    pred.next = new Node<K,V>(hash, key, 
                                                              value, null); 
                                    break; 
                                } 
                            } 
                        } 
    //如果当前的 f 节点是一颗红黑树 
                        else if (f instanceof TreeBin) { 
                            Node<K,V> p; 
                            binCount = 2; 
    //则调用红黑树的插入方法插入新的值 
                            if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key, 
                                                           value)) != null) { 
                                oldVal = p.val; //同样,如果值已经存在,则直接替换 
                                if (!onlyIfAbsent) 
                                    p.val = value; 
                            } 
                        } 
                    }             } 

      判断链表的长度是否已经达到临界值 8。 如果达到了临界值,这个时候会根据当前数组的长度 来决定是扩容还是将链表转化为红黑树。也就是说如果当前数组的长度小于 64,就会先扩容。否则,会把当前链表转化为红黑树。

    private final void treeifyBin(Node<K,V>[] tab, int index) { 
        Node<K,V> b; int n, sc; 
        if (tab != null) { 
            if ((n = tab.length) < MIN_TREEIFY_CAPACITY) //tab 的长度是不是小于 64,如果是,则执行扩容 
                 tryPresize(n << 1);   
            else if ((b = tabAt(tab, index)) != null && b.hash >= 0) {//否则,将当前链表转化为红黑树结构存储 
                synchronized (b) {// 将链表转换成红黑树 
                    if (tabAt(tab, index) == b) { 
                        TreeNode<K,V> hd = null, tl = null; 
                        for (Node<K,V> e = b; e != null; e = e.next) { 
                            TreeNode<K,V> p = 
                                new TreeNode<K,V>(e.hash, e.key, e.val, 
                                                  null, null); 
                            if ((p.prev = tl) == null) 
                                hd = p; 
                            else 
                                tl.next = p; 
                            tl = p; 
                        } 
                        setTabAt(tab, index, new TreeBin<K,V>(hd)); 
                    } 
                } 
            } 
        } 
    }

    补充:说一点关于HashMap和ConcurrentHashMap中关于负载因子的理解

      在HashMap中,负载因子会影响其扩容的判断,源码如下:

    final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
    boolean evict) {
    。。。。。。
    ++modCount;
    if (++size > threshold)
    resize();
    afterNodeInsertion(evict);
    return null;
    }
    final Node<K,V>[] resize() {
    。。。。。。
    if (newThr == 0) {
    float ft = (float)newCap * loadFactor;
    newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
    (int)ft : Integer.MAX_VALUE);
    }
    threshold = newThr;

      所以负载因子大的,其扩容几率小,但是每条entry链上的元素会相对较多,查询的时间也会增长;反之扩容的可能性会增加。

      但是在ConcurrentHashMap中负载因子只会影响其初始的数组大小,不会影响扩容。

      当链表长度大于等于8时会转换成红黑树,当删除后长度小于等于6时转换成链表,以7为分水岭,根据泊松分布,在负载因子默认为0.75的时候,单个hash槽内元素个数为8的概率小于百万分之一。

    推荐文章:

      https://mp.weixin.qq.com/s/mvDAObvzqJ25AUoMbeqZlw

           https://juejin.im/post/5df8d7346fb9a015ff64eaf9

  • 相关阅读:
    is 和 == 区别@编码
    python字典
    python的简介
    初始python3
    初始python2
    初始python1
    Codeforces Round #596 (Div. 2, based on Technocup 2020 Elimination Round 2) B2. TV Subscriptions (Hard Version)
    Codeforces Round #596 (Div. 2, based on Technocup 2020 Elimination Round 2) A. Forgetting Things
    2019ICPC区域赛(银川)总结
    Educational Codeforces Round 74 (Rated for Div. 2) D. AB-string
  • 原文地址:https://www.cnblogs.com/jing-yi/p/12781653.html
Copyright © 2020-2023  润新知