• 源码分析—ThreadPoolExecutor线程池三大问题及改进方案


    前言

    在一次聚会中,我和一个腾讯大佬聊起了池化技术,提及到java的线程池实现问题,我说这个我懂啊,然后巴拉巴拉说了一大堆,然后腾讯大佬问我说,那你知道线程池有什么缺陷吗?我顿时哑口无言,甘拜下风,所以这次我再回来思考一下线程池的实现原理

    源码分析

    ThreadPoolExecutor构造器

    public ThreadPoolExecutor(int corePoolSize,
                              int maximumPoolSize,
                              long keepAliveTime,
                              TimeUnit unit,
                              BlockingQueue<Runnable> workQueue,
                              ThreadFactory threadFactory,
                              RejectedExecutionHandler handler) {
    	  //校验几个参数不能小于零,否则抛出异常
        if (corePoolSize < 0 ||
            maximumPoolSize <= 0 ||
            maximumPoolSize < corePoolSize ||
            keepAliveTime < 0)
            throw new IllegalArgumentException();
        if (workQueue == null || threadFactory == null || handler == null)
            throw new NullPointerException();
        this.acc = System.getSecurityManager() == null ?
                null :
                AccessController.getContext();
        this.corePoolSize = corePoolSize;
        this.maximumPoolSize = maximumPoolSize;
        this.workQueue = workQueue;
        this.keepAliveTime = unit.toNanos(keepAliveTime);
        this.threadFactory = threadFactory;
        this.handler = handler;
    }
    
    • corePoolSize:核心线程数
    • maximumPoolSize:最大线程数,线程池允许创建的最大线程数
    • workQueue:任务队列,BlockingQueue 接口的某个实现(常使用 ArrayBlockingQueue 和 LinkedBlockingQueue)
    • keepAliveTime:空闲线程的保活时间,如果某线程的空闲时间超过这个值都没有任务给它做,那么可以被关闭了。注意这个值并不会对所有线程起作用,如果线程池中的线程数少于等于核心线程数 corePoolSize,那么这些线程不会因为空闲太长时间而被关闭,当然,也可以通过调用 allowCoreThreadTimeOut(true)使核心线程数内的线程也可以被回收
    • threadFactory:用于生成线程,一般我们使用Executors.defaultThreadFactory()
    • handler:当线程池已经满了,但是又有新的任务提交的时候,该采取什么策略由这个来指定

    默认的几个属性:

    private final AtomicInteger ctl = new AtomicInteger(ctlOf(RUNNING, 0));
    // 这里 COUNT_BITS 设置为 29(32-3),意味着前三位用于存放线程状态,后29位用于存放线程数
    private static final int COUNT_BITS = Integer.SIZE - 3;
    //最大线程数是 2^29-1=536870911
    private static final int CAPACITY   = (1 << COUNT_BITS) - 1;
    
    // runState is stored in the high-order bits
    //111 00000000000000000000000000000
    private static final int RUNNING    = -1 << COUNT_BITS;
    // 000 00000000000000000000000000000
    private static final int SHUTDOWN   =  0 << COUNT_BITS;
    // 001 00000000000000000000000000000
    private static final int STOP       =  1 << COUNT_BITS;
    // 010 00000000000000000000000000000
    private static final int TIDYING    =  2 << COUNT_BITS;
    // 011 00000000000000000000000000000
    private static final int TERMINATED =  3 << COUNT_BITS;
    
    // Packing and unpacking ctl
    //将CAPACITY取费后和c进行取与运算,可以得到高3位的值,即线程池的状态
    private static int runStateOf(int c)     { return c & ~CAPACITY; }
    //将c和CAPACITY取与运算,可以得到低29位的值,即线程池的个数
    private static int workerCountOf(int c)  { return c & CAPACITY; }
    private static int ctlOf(int rs, int wc) { return rs | wc; }
    

    采用一个 32 位的整数来存放线程池的状态和当前池中的线程数,其中高 3 位用于存放线程池状态,低 29 位表示线程数(CAPACITY)

    • RUNNING:这个没什么好说的,这是最正常的状态:接受新的任务,处理等待队列中的任务
    • SHUTDOWN:不接受新的任务提交,但是会继续处理等待队列中的任务
    • STOP:不接受新的任务提交,不再处理等待队列中的任务,中断正在执行任务的线程
    • TIDYING:所有的任务都销毁了,workCount 为 0。线程池的状态在转换为 TIDYING 状态时,会执行钩子方法 terminated()
    • TERMINATED:terminated() 方法结束后,线程池的状态就会变成这个

    execute方法

    public void execute(Runnable command) {
        if (command == null)
            throw new NullPointerException();
         
        int c = ctl.get();
    	  //如果当前的线程数小于corePoolSize
        if (workerCountOf(c) < corePoolSize) {
    		  //调用addWorker新建一个线程
            if (addWorker(command, true))
                return;
            c = ctl.get();
        }
     	   // 到这里说明,要么当前线程数大于等于核心线程数,要么刚刚 addWorker 失败了
    	  //校验当前线程状态是RUNNING,并将command入队
        if (isRunning(c) && workQueue.offer(command)) {
            int recheck = ctl.get();
    		  //如果不是运行状态,那么移除队列,并执行拒绝策略
            if (! isRunning(recheck) && remove(command))
                reject(command);
            // 如果线程池还是 RUNNING 的,并且线程数为 0,那么开启新的线程
    		  //防止任务提交到队列中了,但是线程都关闭了
            else if (workerCountOf(recheck) == 0)
                addWorker(null, false);
        }
    	  //到这里说明队列已经满了,所以新建一个线程,如果新建的线程数已经超过了maximumPoolSize,那么执行拒绝策略
        else if (!addWorker(command, false))
            reject(command);
    }
    

    用一张图来概括一下上面的内容:

    • 如果线程池中的线程数少于 coreThreadCount 时,处理新的任务时会创建新的线程;
    • 如果线程数大于 coreThreadCount 则把任务丢到一个队列里面,由当前空闲的线程执行;
    • 当队列中的任务堆积满了的时候,则继续创建线程,直到达到 maxThreadCount;
    • 当线程数达到 maxTheadCount 时还有新的任务提交,那么我们就不得不将它们丢弃了。

    我们下面看一下addWorker是如何创建线程的:

    addWorker

    private boolean addWorker(Runnable firstTask, boolean core) {
        retry:
        for (;;) {
            int c = ctl.get();
    		  //获取当前线程池状态
            int rs = runStateOf(c);
    		   
    		  //1
            // Check if queue empty only if necessary.
            if (rs >= SHUTDOWN &&
                ! (rs == SHUTDOWN &&
                   firstTask == null &&
                   ! workQueue.isEmpty()))
                return false;
    
            for (;;) {
                int wc = workerCountOf(c);
    			   //2. 校验传入的线程数是否超过了容量大小, 或者是否超过了corePoolSize或maximumPoolSize
                if (wc >= CAPACITY ||
                    wc >= (core ? corePoolSize : maximumPoolSize))
                    return false;
    			  //到了这里说明线程数没有超,那么就用CAS将线程池的个数加1
                if (compareAndIncrementWorkerCount(c))
                    break retry;
                c = ctl.get();  // Re-read ctl
    			  //3 说明有其他的线程抢先更新了状态,继续下一轮的循环,跳到外层循环
                if (runStateOf(c) != rs)
                    continue retry;
                // else CAS failed due to workerCount change; retry inner loop
            }
        }
    
        boolean workerStarted = false;
        boolean workerAdded = false;
        Worker w = null;
        try {
    		  //创建一个线程
            w = new Worker(firstTask);
            final Thread t = w.thread;
            if (t != null) {
                final ReentrantLock mainLock = this.mainLock;
                mainLock.lock();
                try {
                    // Recheck while holding lock.
                    // Back out on ThreadFactory failure or if
                    // shut down before lock acquired.
                    int rs = runStateOf(ctl.get());
    				  //4 如果线程是没有问题的话,那么将worker加入到队列中
                    if (rs < SHUTDOWN ||
                        (rs == SHUTDOWN && firstTask == null)) {
                        if (t.isAlive()) // precheck that t is startable
                            throw new IllegalThreadStateException();
                        workers.add(w);
                        int s = workers.size();
                        // largestPoolSize 用于记录 workers 中的个数的最大值
                        // 因为 workers 是不断增加减少的,通过这个值可以知道线程池的大小曾经达到的最大值
                        if (s > largestPoolSize)
                            largestPoolSize = s;
                        workerAdded = true;
                    }
                } finally {
                    mainLock.unlock();
                }
    			   //如果worker入队成功,那么启动线程
                if (workerAdded) {
                    t.start();
                    workerStarted = true;
                }
            }
        } finally {
    		  //如果worker启动失败,那么就回滚woker线程创建的状态
            if (! workerStarted)
                addWorkerFailed(w);
        }
    	  // 返回线程是否启动成功
        return workerStarted;
    }
    
    1. 这里主要是列举了几个条件不能创建新的worker的情况
      1. 线程池状态大于 SHUTDOWN,其实也就是 STOP, TIDYING, 或 TERMINATED
      2. firstTask != null
      3. workQueue.isEmpty()
        如果线程池处于 SHUTDOWN,但是 firstTask 为 null,且 workQueue 非空,那么是允许创建 worker 的
    2. 如果传入的core参数是true代表使用核心线程数 corePoolSize 作为创建线程的界限,也就说创建这个线程的时候,如果线程池中的线程总数已经达到 corePoolSize,那么不能响应这次创建线程的请求;如果是false,代表使用最大线程数 maximumPoolSize 作为界限
    3. 如果CAS失败并不是因为有其他线程在嘈杂哦导致的,那么就直接在里层循环继续下一次的循环就好了,如果是因为其他线程的操作,导致线程池的状态发生了变更,如有其他线程关闭了这个线程池,那么需要回到外层的for循环
    4. 如果是 小于 SHUTTDOWN 那就是 RUNNING,则继续往下继续,或者状态是SHUTDOWN但是传入的firstTask为空,代表继续处理队列中的任务

    addWorkerFailed

    private void addWorkerFailed(Worker w) {
        final ReentrantLock mainLock = this.mainLock;
        mainLock.lock();
        try {
            if (w != null)
                workers.remove(w);
            decrementWorkerCount();
            tryTerminate();
        } finally {
            mainLock.unlock();
        }
    }
    

    addWorkerFailed的处理就是将workers集合里面的worker移除,然后count减1,

    worker对象

    private final class Worker
        extends AbstractQueuedSynchronizer
        implements Runnable
    {
          
        final Thread thread;
        /** Initial task to run.  Possibly null. */
        Runnable firstTask;
        /** Per-thread task counter */
        volatile long completedTasks;
     
        Worker(Runnable firstTask) {
            setState(-1); // inhibit interrupts until runWorker
            this.firstTask = firstTask;
            this.thread = getThreadFactory().newThread(this);
        }
    	  ....
    }
    

    Worker是继承AQS对象的,在创建Worker对象的时候会传入一个Runnable对象,并设置AQS的state状态为-1,并从线程工厂中新建一个线程

    调用thread.start方法会调用到Worker的run方法中

    public void run() {
        runWorker(this);
    }
    

    Worker的run方法会调用到ThreadPoolExecutor的runWorker方法

    final void runWorker(Worker w) {
        Thread wt = Thread.currentThread();
        Runnable task = w.firstTask;
        w.firstTask = null;
        w.unlock(); // allow interrupts
        boolean completedAbruptly = true;
        try {
    		  //如果task为空,那么就从workQueue里面获取task
            while (task != null || (task = getTask()) != null) {
                w.lock();
    			  // 如果线程池状态大于等于 STOP,那么意味着该线程也要中断
                if ((runStateAtLeast(ctl.get(), STOP) ||
                     (Thread.interrupted() &&
                      runStateAtLeast(ctl.get(), STOP))) &&
                    !wt.isInterrupted())
                    wt.interrupt();
                try {
    				  // 这是一个钩子方法
                    beforeExecute(wt, task);
                    Throwable thrown = null;
                    try {
    					   //执行任务
                        task.run();
                    } catch (RuntimeException x) {
                        thrown = x; throw x;
                    } catch (Error x) {
                        thrown = x; throw x;
                    } catch (Throwable x) {
                        thrown = x; throw new Error(x);
                    } finally {
    					   // 这是一个钩子方法
                        afterExecute(task, thrown);
                    }
                } finally {
    				   // 置空 task,准备 getTask 获取下一个任务
                    task = null;
                    w.completedTasks++;
                    w.unlock();
                }
            }
            completedAbruptly = false;
        } finally {
    		  //异常情况或getTask获取不到任务时会执行关闭
            processWorkerExit(w, completedAbruptly);
        }
    }
    

    传入一个Worker首先去校验firstTask是不是null,如果是那么就调用getTask方法从workQueue队列里面获取,然后判断一下当前的线程是否需要中断,如需要的话执行钩子方法,然后调用task的run方法执行task;
    如果while循环里面getTask获取不到任务的话,就结束循环调用processWorkerExit方法执行关闭;
    如果是异常原因导致的while循环退出,那么会调用processWorkerExit并传入为true

    getTask

    private Runnable getTask() {
        boolean timedOut = false; // Did the last poll() time out?
    
        for (;;) {
            int c = ctl.get();
            int rs = runStateOf(c);
            //要么状态大于STOP,要么状态等于SHUTDOWN并且队列是空的,那么线程数减一后返回null
            // Check if queue empty only if necessary.
            if (rs >= SHUTDOWN && (rs >= STOP || workQueue.isEmpty())) {
                decrementWorkerCount();
                return null;
            }
    
            int wc = workerCountOf(c);
            // 允许核心线程数内的线程回收,或当前线程数超过了核心线程数,那么有可能发生超时关闭
            // Are workers subject to culling?
            boolean timed = allowCoreThreadTimeOut || wc > corePoolSize;
    		  //校验线程数是否超了,或者是否超时
            if ((wc > maximumPoolSize || (timed && timedOut))
                && (wc > 1 || workQueue.isEmpty())) {
                if (compareAndDecrementWorkerCount(c))
                    return null;
                continue;
            }
    
            try {
    			  // 到 workQueue 中获取任务
                Runnable r = timed ?
                    workQueue.poll(keepAliveTime, TimeUnit.NANOSECONDS) :
                    workQueue.take();
                if (r != null)
                    return r;
                timedOut = true;
            } catch (InterruptedException retry) {
                timedOut = false;
            }
        }
    }
    

    这个方法返回null有如下几种情况:

    1. 当前状态是SHUTDOWN并且workQueue队列为空
    2. 当前状态是STOP及以上
    3. 池中有大于 maximumPoolSize 个 workers 存在(通过调用 setMaximumPoolSize 进行设置)

    processWorkerExit

    private void processWorkerExit(Worker w, boolean completedAbruptly) {
    	  //如果是异常原因中断,那么需要将运行线程数减一
        if (completedAbruptly) // If abrupt, then workerCount wasn't adjusted
            decrementWorkerCount();
    
        final ReentrantLock mainLock = this.mainLock;
        mainLock.lock();
        try {
    		  //设置完成任务数
            completedTaskCount += w.completedTasks;
    		  //将worker从集合里移除
            workers.remove(w);
        } finally {
            mainLock.unlock();
        }
    	  //判断当前的线程池是否处于SHUTDOWN状态,判断是否要终止线程
        tryTerminate();
    
        int c = ctl.get();
    	  //如果是RUNNING或SHUTDOWN则会进入这个方法
        if (runStateLessThan(c, STOP)) {
    		  //如不是以外中断则会往下走
            if (!completedAbruptly) {
    			  //判断是否保留最少核心线程数
                int min = allowCoreThreadTimeOut ? 0 : corePoolSize;
                if (min == 0 && ! workQueue.isEmpty())
                    min = 1;
                if (workerCountOf(c) >= min)
                    return; // replacement not needed
            }
    		  //如果当前运行的Worker数比当前所需要的Worker数少的话,那么就会调用addWorker,添加新的Worker
            addWorker(null, false);
        }
    }
    
    1. 判断是否是意外退出的,如果是意外退出的话,那么就需要把WorkerCount--
    2. 加完锁后,同步将completedTaskCount进行增加,表示总共完成的任务数,并且从WorkerSet中将对应的Worker移除
    3. 调用tryTemiate,进行判断当前的线程池是否处于SHUTDOWN状态,判断是否要终止线程
    4. 判断当前的线程池状态,如果当前线程池状态比STOP大的话,就不处理
    5. 判断是否是意外退出,如果不是意外退出的话,那么就会判断最少要保留的核心线程数,如果allowCoreThreadTimeOut被设置为true的话,那么说明核心线程在设置的KeepAliveTime之后,也会被销毁。
    6. 如果最少保留的Worker数为0的话,那么就会判断当前的任务队列是否为空,如果任务队列不为空的话而且线程池没有停止,那么说明至少还需要1个线程继续将任务完成
    7. 判断当前的Worker是否大于min,也就是说当前的Worker总数大于最少需要的Worker数的话,那么就直接返回,因为剩下的Worker会继续从WorkQueue中获取任务执行
    8. 如果当前运行的Worker数比当前所需要的Worker数少的话,那么就会调用addWorker,添加新的Worker,也就是新开启线程继续处理任务

    线程池的三大问题

    这个任务处理流程看似简单,实际上有很多坑,你在使用的时候一定要注意。

    1. JDK 实现的这个线程池优先把任务放入队列暂存起来,而不是创建更多的线程,它比较适用于执行 CPU 密集型的任务,也就是需要执行大量 CPU 运算的任务。所以当当前线程数超过核心线程数时,线程池不会增加线程,而是放在队列里等待核心线程空闲下来。

    但是,我们平时开发的 Web 系统通常都有大量的 IO 操作,比方说查询数据库、查询缓存等等。任务在执行 IO 操作的时候 CPU 就空闲了下来,这时如果增加执行任务的线程数而不是把任务暂存在队列中,就可以在单位时间内执行更多的任务,大大提高了任务执行的吞吐量。所以你看 Tomcat 使用的线程池就不是 JDK 原生的线程池,而是做了一些改造,当线程数超过 coreThreadCount 之后会优先创建线程,直到线程数到达 maxThreadCount,这样就比较适合于 Web 系统大量 IO 操作的场景了,你在实际运用过程中也可以参考借鉴。

    1. 线程池中使用的队列的堆积量也是我们需要监控的重要指标,对于实时性要求比较高的任务来说,这个指标尤为关键。

    我在实际项目中就曾经遇到过任务被丢给线程池之后,长时间都没有被执行的诡异问题。最初,我认为这是代码的 Bug 导致的,后来经过排查发现,是因为线程池的 coreThreadCount 和 maxThreadCount 设置的比较小,导致任务在线程池里面大量的堆积,在调大了这两个参数之后问题就解决了。跳出这个坑之后,我就把重要线程池的队列任务堆积量,作为一个重要的监控指标放到了系统监控大屏上。

    1. 如果你使用线程池请一定记住不要使用无界队列(即没有设置固定大小的队列)。也许你会觉得使用了无界队列后,任务就永远不会被丢弃,只要任务对实时性要求不高,反正早晚有消费完的一天。但是,大量的任务堆积会占用大量的内存空间,一旦内存空间被占满就会频繁地触发 Full GC,造成服务不可用,我之前排查过的一次 GC 引起的宕机,起因就是系统中的一个线程池使用了无界队列。

    线程池的改造方案

    我们这里直接学习Tomcat是如何优化线程池的,在我们平时的使用中如果使用LinkedBlockingQueue的话,默认是使用Integer.MAX_VALUE,即无界队列(这种情况下如果没有配置队列的capacity的话,队列始终不会满,那么始终无法进入开启新线程到达maxThreads个数的地步,则此时配置maxThreads其实是没有意义的)。

    而在Tomcat中使用的是TaskQueue,TaskQueue的队列capacity为maxQueueSize,默认也是Integer.MAX_VALUE。但是,其重写offer方法,当其线程池大小小于maximumPoolSize的时候,返回false,即在一定程度改写了队列满的逻辑,修复了使用LinkedBlockingQueue默认的capacity为Integer.MAX_VALUE的时候,maxThreads失效的"bug"。从而可以继续增长线程到maxThreads,超过之后,继续放入队列。

    所以综上,Tomcat的线程池使用了自己扩展的taskQueue,修改了offer的逻辑,以做到最小的改动实现了线程池的改造。

    我们再来回顾一下ThreadPoolExecutor的execute方法是怎么写的:
    ThreadPoolExecutor#execute

    public void execute(Runnable command) {
        if (command == null)
            throw new NullPointerException();
        int c = ctl.get();
        if (workerCountOf(c) < corePoolSize) {
            if (addWorker(command, true))
                return;
            c = ctl.get();
        }
    	  //这里,如果使用workQueue的offer成功的话,那么就不会创建新的线程,如果失败的话,就会走到else if方法进行创建新的线程
        if (isRunning(c) && workQueue.offer(command)) {
            int recheck = ctl.get();
            if (! isRunning(recheck) && remove(command))
                reject(command);
            else if (workerCountOf(recheck) == 0)
                addWorker(null, false);
        }
        else if (!addWorker(command, false))
            reject(command);
    }
    

    TaskQueue

    public class TaskQueue extends LinkedBlockingQueue<Runnable> {
       private ThreadPoolExecutor parent = null;
        @Override
        public boolean offer(Runnable o) {
            //we can't do any checks
            if (parent==null) return super.offer(o);
            //we are maxed out on threads, simply queue the object
            if (parent.getPoolSize() == parent.getMaximumPoolSize()) return super.offer(o);
            //we have idle threads, just add it to the queue
            if (parent.getSubmittedCount()<(parent.getPoolSize())) return super.offer(o);
            //当其线程池大小小于maximumPoolSize的时候,返回false
            if (parent.getPoolSize()<parent.getMaximumPoolSize()) return false;
            //if we reached here, we need to add it to the queue
            return super.offer(o);
        }
    }
    

    我们从这里可以看到

    1. 如果当前线程数已达到MaximumPoolSize,那么就放入到队列里去
    2. 如果当前线程池的数量大于正在运行的线程数,说明有空闲的线程,那么就将任务放入到队列中去
    3. 若当其线程池大小小于maximumPoolSize的时候,返回false
  • 相关阅读:
    HDU4666+POJ2926【最远曼哈顿距离】
    IOS学习之路九(配置restful webservice 框架restkit)
    vb.net 模拟UDP通信
    微信公众平台开发之万能表单
    学习Qt,Getting started
    spring的xml配置文件出现故障
    POJ 1731 Orders(STL运用)
    hiho1080 更为复杂的买卖房屋姿势
    Linux学习笔记(三):系统执行级与执行级的切换
    数据结构之哈希表
  • 原文地址:https://www.cnblogs.com/luozhiyun/p/12037536.html
Copyright © 2020-2023  润新知