通过一次生产case深入理解tomcat线程池

通过一次生产case深入理解tomcat线程池
最近生产上遇到一个case，终于想明白了原因，今天周末来整理一下

生产case

最近测试istio mesh的预热功能(调用端最小连接数原则)

来控制调用端进入k8s刚扩出来的容器的流量

因为刚启动的JVM解释执会导致慢请求，如果不控制流量会导致cpu突然飙升等带来的一系列连锁反应！

表像这里我借用github上有个哥们的相类似提问：

image

翻译一下：

首先突发流量导致线程突然上升到最大线程（800），

流量下来后还在工作的线程(busy threads)线程就下降到了 10，

但是tomcat的 currentThreadCount 仍然是 800。

根据对于线程池的理解，tomcat的工作线程空闲 60 秒(默认)，它就会被回收呀，为啥一直下不来呢？

我和他只是配置有点不一样,表像是一样的，也是同样的疑问

问题重点
- 为什么流量下来后tomcat的工作线程居高不下迟迟得不到回收？
- 查文档或者搜google，都说设置maxIdleTime，其实它是有坑的
假设tomcat的配置如下(关键参数)：
```
           
            
<Connector port="8080" 
          protocol="org.apache.coyote.http11.Http11NioProtocol"
          minSpareThreads="20"
          maxThreads="1024"
          maxConnections="10000" 
          connectionTimeout="60000" 
          acceptCount="150"/>
```
问题排查

根据tomcat源码

我们把上面几个核心参数都理一遍

acceptCount

TCP SYN QUEUE队列的长度默认 100

image

connectionTimeout

image

默认 20000ms

对应Socket的SO_TIMEOUT属性是用于指定 ServerSocket.accept 和 Socket.getInputStream().read 超时的套接字选项，超时会抛出SocketTimeoutException 【60000意味着如果超过1分钟还没有数据到达】

tomcat的核心流程

我们先讲讲下当请求进入，tomcat经历了哪些步骤：

tcp建立相关略
- 1)Acceptor线程处理 socket accept
- 2)Acceptor线程处理注册registered OP_READ到多路复用器
- 3)ClientPoller线程监听多路复用器的事件(OP_READ)触发
- 4)从tomcat的work线程池取一个工作线程来处理socket[http-nio-8080-exec-xx]
maxConnections

accptor线程和clientPoller线程的交互逻辑如下：

image

image

在这个交互中，每serverSock.accept()会被org.apache.tomcat.util.threads.LimitLatch计数在closeSocket的时候减少计数！

LimitLatch这个对象的计数初始值就是配置的maxConnections值（默认为10000）

minSpareThreads和maxThreads
- minSpareThreads 核心线程数
- maxThreads 最大线程数
ClientPoller线程拿到read或者write事件后进行处理就会从tomcat的线程池拿到一个工作线程去处理

这里的tomcat的Connector在创建工作线程池就会用到这2个参数

image

注意这里的线程池的keepAlivetime=60s

线程池相关知识（参考我之前的文章）

用一张图来表达各个参数的起作用点

image

梳理一下

当tomcat容器启动后

image

根据配置创建 acceptor线程池(默认1个) poller线程池(默认2个)

工作线程池(20个根据我的配置)

假设突发流量打进来，因为我设置的maxThreads=1024

那么会一直创建新的nio处理线程到1024

等后面流量下去了，由于线程的keepalivetime=60s

只要服务一直都有请求进来，

工作线程会从 queue 中抢任务，只要抢到了一个任务，它的 keepalivetime 就会重置

由于我的服务高峰过后，每分钟的请求数量大约是 3000 ~ 4000 个，也就是说每个线程都有机会抢到任务，这应该就是线程一直存活的原因

（当然了没有机会抢到任务的就回收了，所以也不会一直是1024）

第二个问题，既然这样我有办法修改工作线程的keepalivetime吗

可以的，但是得换成用Executor创建的线程池(如下我改成了10s)
```
  
<Executor name="tomcatThreadPool" namePrefix="catalina-exec-"
    maxThreads="1024" minSpareThreads="20" maxIdleTime="10000"/>
          
            
<Connector port="8080" 
          protocol="org.apache.coyote.http11.Http11NioProtocol"
          executor="tomcatThreadPool"
          maxConnections="10000" 
          connectionTimeout="60000" 
          acceptCount="150"/>
```
如果你配置了Executor的话,那么Executor的创建线程池逻辑如下：

image

确认使用了maxIdleTime值来设置线程的keepalivetime

tomcat7配置解说官网：https://tomcat.apache.org/tomcat-7.0-doc/config/http.html

tomcat8配置解说官网：https://tomcat.apache.org/tomcat-8.0-doc/config/http.html

注意的一点是，一定要却别理解Excutor和Connector两种在创建线程池是有区别的，不能混淆了

如果用Connector创建的线程池是写死60s！

由于tomcat默认都是不推荐使用共享的Executor(被注释的)，但是在Connector里面又不支持设置工作线程的maxIdleTime，这个有点不理解为什么这么设计！

总结

通过这个case，带着这些参数在tomcat里是怎么起作用的疑问，结合tomcat的源码，是次很有收获的梳理！
如果您觉得阅读本文对您有帮助，请点一下“推荐”按钮，您的“推荐”将是我最大的写作动力！欢迎各位转载，转载文章之后须在文章页面明显位置给出作者和原文连接，谢谢。
相关阅读:
分布式系统的架构思路
 Dubbo分布式服务框架的简单理解
 Java Worker 设计模式
 进程和线程
 alibaba-Java开发手册心得-一编程规约-6并发处理
 swagger的简单了解
 alibaba-Java开发手册心得-一编程规约-5集合处理
 serialVersionUID的简单理解
 java序列化对象简单理解
 最简单的调用freetype库实现在控制台输出文字显示
原文地址：https://www.cnblogs.com/yudongdong/p/16320583.html

通过一次生产case深入理解tomcat线程池

生产case

问题重点

问题排查

acceptCount

connectionTimeout

tomcat的核心流程

maxConnections

minSpareThreads和maxThreads

用一张图来表达各个参数的起作用点

梳理一下

总结