1.前言
本文记录一下Java的线程与内存等知识,更好的理解Java的线程是如何工作的。
让计算机并发执行若干个运算任务和更充分地利用计算机处理器的效能之间看起来是因果关系,但实际上没那么简单。CPU的运算能力十分强大,但是任何任务都不太可能单单靠CPU就能够完成,比如读取内存,存储的数据,网络的请求等IO操作是很难消除的,更糟糕的是存储设备与CPU之间的运算差距过大,所以在内存和CPU之间又会加一道高速缓存介质进行提速。为了充分利用CPU的性能,通常会采取异步IO的方式进行,这样CPU可以去处理其他的运算请求,如果是同步IO,则会阻塞在等待数据准备完成上,浪费CPU的时间。多线程技术也是为了更好的利用CPU的资源。
上面说到高速缓存,这个将内存的数据读取到缓存,再提供给CPU,当CPU修改后写回高速缓存,最后又同步到内存中。高速缓存会带来缓存一致性的问题,因为在多处理器系统中,每个处理器都有一个高速缓存,但是它们共享内存,这个时候就存在不同的CPU读取、修改内存数据不一致的问题,比如A读取变量a是1,B之前修改过这个值,但是没有来得及同步到内存中。为了解决这个一致性问题,需要处理器访问缓存时遵守一些协议,有:MSI、MESI、MOSI、Synapse、Firefly、Dragon Protocol等。
这里说的内存模型可以理解成,在特定的操作协议下,对特定的内存或高速缓存进行读写访问的过程抽象。另外,除了增加高速缓存外,为了使得处理器的运算单元能充分利用,可能对输入的指令进行乱序执行优化,执行后将结果重组成顺序的结果。所以,如果一个任务依赖另一个任务的结果,顺序性并不能靠代码的先后顺序来保证,Java中也有类似的指令重排序。
2.Java内存模型
java企图用一种内存模型来屏蔽操作各种硬件和内存访问的差异,其他语言直接使用物理硬件和操作系统的内存模型,所以同一份代码在不同平台上可能出问题,需要针对处理。
2.1 主内存与工作内存
Java内存模型的主要目标是定义程序中各个变量的访问规则,即在虚拟机中将变量存储到内存和从内存中读取变量的底层细节。这里的变量包括了类的实例字段,静态字段和构成数组对象的元素,不包括局部变量与方法参数,那个是线程私有的,不会有并发问题。为了获得更好的执行效能,Java内存模型没有限制执行引擎使用处理器的特定寄存器或缓存来和主内存进行交互,也没有限制即时编译器进行调整代码执行顺序这类优化措施。
内存模型规定所有的变量存储在主内存中,每条线程有自己的工作内存,线程的工作内存中保存了被该线程使用到的变量和主内存副本拷贝,线程对变量的所有操作(读取、赋值等)都必须在工作内存中完成,不能直接读写主内存中的变量(对volatile也不例外)。线程之间也无法直接访问对方工作内存中的变量,传递需要通过主内存完成。
这个内存模型和Java内存区域中的堆、栈、方法区划分层次不同,没有关系。
2.2 内存间交互操作
主内存和工作内存之间如何交互的,Java内存模型中定义了8种操作用来解答这个问题,虚拟机必须保证下面的每一种操作都是原子的、不可再分的(对于double和float可能有些例外)。
lock(锁定):作用于主内存的变量,它把一个变量标识成一条线程独占的状态。
unlock(解锁):作用于主内存的变量,它把一个处于锁定状态的变量释放出来,释放后的变量才能被其他线程锁定。
read(读取):作用于主内存的变量,它把一个变量的值从主存中传输到线程的工作内存中,以便随后的load动作。
load(载入):作用于工作内存的变量,把read的变量放入内存的变量副本中。
use(使用):作用于工作内存,把工作内存的一个变量的值交给执行引擎。
assign(赋值):作用于工作内存,它把一个从执行引擎接收到的值赋值给工作内存的变量。
store(存储):作用于工作内存,将内存变量传给主内存,随着方便后面wirite一同使用。
wirte(写入):把Store的值传递到主内存中,方便以后随时write操作。
如果把一个变量从内存复制到工作内存,要顺序调用read和load操作,如果同步回去,要顺序执行store和write操作。但是只保证了顺序执行,而没有保证连续执行,比如read a、read b、load b、load a这种情况。
另外执行这8种基本操作需要满足以下规则:
1.不运行read和load、store和write操作之一单独出现。
2.不允许一个线程丢弃最近的assign操作,即修改必须同步变化
3.不允许一个线程无原因的把数据从线程工作内存同步回主内存中
4.一个新的变量只能在主内存中“诞生”,不允许在工作内存中直接使用一个未被初始化的变量
5.一个变量同一个时刻只允许一条线程对其进行lock操作,但可以被一个线程重复lock,lock多少次,需要执行多少次unlock。
6.对一个变量进行lock,会清除工作内存中此变量的值,在使用的时候,需要重新执行load或者assign操作。
7.如果一个变量没有被lock,不允许进行unlock,也不允许unlock其他线程lock的变量
8.对变量进行unlock的时候,必须将数据回写到主内存中。
由于这些规定,和volatile的特殊规定,可以确定哪些内存访问操作在并发下是安全的。这种定义十分繁琐,实践很麻烦,所以采取happen before原则来确定一个访问是否在并发环境下安全。
2.3 volatile的特殊规则
关键字volatile是JVM提供的最轻量级的同步机制,需要被正确、完整的理解才不会用错。
当一个变量被定义成volatile之后,它将具备两种特性:
第一个是保证此变量对所有线程的可见性,指的是当一条线程修改了这个变量的值,新值对于其他线程来说是可以立即得知的。普通变量需要传递到主内存,再到工作内存才会可见。这里会有一个误解:volatile对所有线程立刻可见,写操作都会反应到其他线程,所以基于volatile变量的运算在并发下是安全的。前面说的没有错,但是不能推导出运算在并发下是安全的这一结论。实际上volatile变量在所有线程一致的原因在于其每次使用之前都会刷新,执行引擎看不到不一致的情况,但是Java里面的运算并不是原子的,所以并发下进行运算一样是不安全的。比如两个线程对volatile x = 1开始进行x++操作,A线程读取了x,放入栈的本地变量表,这个时候B线程完成了x++操作,x变成了2。虽然A线程知道x变成了2,但是其运算是从局部变量表中获取原本的值1,而没有重新获取,这个时候执行下去就产生了问题,结果变成了2,实际上要是3才是正确的。
volatile只保证可见性,不符合以下两条规则的运算场景中,我们仍需要通过加锁来保证原子性:1.运算结果并不依赖变量当前的值,或者保证只有一条线程可以对其修改。2.变量不需要与其他的状态变量共同参与不变约束。
第二个特性在于禁止指令重排序优化,普通变量只保证执行过程中所有依赖赋值结果的地方能够获得正确的结果,不保证赋值操作的顺序与代码中的执行顺序一致。因为在一个线程的方法执行过程中无法感知到这点,这就是所说的“线程内表现为串行语义”。指令重排很难理解,举个例子就很清楚了。
A: boolean init = false
// do something
init = true
B : while(!init) {
sleep()
}
// do something
A线程准备开启一个服务,设置了一个boolean变量为flase,执行了一串操作,最终将这个变量设置成了true,开启服务成功。B线程在此过程中一直在请求判断这个变量是否是true,当判断服务开启开始执行其他的操作。这么描述一看上去并没有什么问题,但如果这个变量不是volatile类型,就可能因为指令重排而出问题。原因就在于根据指令重排的规则,A线程的变量没有被其他地方使用,所以其最后赋值为true可能被提前执行,也就是初始化动作没做完就设置成true了,这个时候对B线程来说就麻烦大了,B线程必须等服务初始化启动好了才能进行下面的操作,由于指令重排造成B线程的判断失误。
另外volatile禁止指令重排是在JDK5才完全正确,之前的版本是有bug的。使用volatile会多执行一个lock addl $0x0, (%esp)操作,这个相当于一个内存屏障,重排序时不能将后面的操作,排在这个操作之前。addl $0x0 (%esp)是一个空操作,作用是使得本CPU的Cache写入了内存,该写入动作会引起别的CPU或者内核无效化其Cache,这个操作保证了volatile变量的修改对其他CPU立即可见。禁止指令重排的原理在于:指令重排指CPU采用了允许将多条指令不按程序规定的顺序分开发送给各相应电路单元处理,但不是说任意重排,而是要正确处理指令依赖情况保证程序能够得到正确的执行结果。比如x=x+10;x*=2;y-=3;这3条指令,前两条的顺序就不能改变,但是3可能在1前面执行或者12中间执行。结果看起来是一致的。所以通过lock指令将修改同步到内存时,意味着之前的所有操作都已经执行完毕了,就形成了指令重排无法越过的内存屏障了。
最后一个问题,volatile比其他同步工具要快吗?这个很难说,只能是某些场景会优于锁,虚拟机对锁有很多的优化,volatile变量读操作的性能消耗与普通变量基本没什么差别,但是写会慢一些,因为需要在代码中插入许多内存屏障保证处理器不发生乱序执行。不过即便如此,大多数场景开销还是比锁低。选择依据只是volatile语义是否满足需求。
2.4 long和double类型的特殊规则
内存模型要求上述8个操作都是原子性的,但是对于64位的数据类型long和double来说,定义了一条宽松的规则:允许虚拟机将没有被volatile修饰的64位数据的读写操作划分为2次32位操作。所以虚拟机实现可以不保证64位数据的load、store、read和write操作的原子性。这就是long和double的非原子协定。
如果有多个线程同时对这个进行读取修改,可能会造成其中32位数据出现问题,这种情况非常罕见。虽然允许不把long和double变量的读写实现原子操作,但是强烈建议这么做,所以商用虚拟机基本将64位数据的读写操作作为原子操作对待,在编码的时候不需要对long和double变量专门声明为volatile。
2.5 原子性、可见性与有序性
这3个特性之前陆陆续续提到过,这里总结一下:
原子性:由内存模型直接保证原子性变量操作包括read、load、assign、use、store、write,大致可以认为基本数据类型的访问读写是具备原子性的。至于long和double的非原子协定,了解一下即可,实际上无须过多关注。如果需要更大范围的原子性,可以使用lock和unlock,这两个虚拟机没有直接开放给用户使用,但是提供了字节码指令monitorenter和monitorexit来隐式地使用这两个操作,反映到Java代码中就是synchronized关键字,所以synchronized块是具备原子性的。
可见性:指当一个线程修改了共享变量的值,其他线程能够立即得知这个修改。详情见上面的volatile说明。除了这个外,还有两个关键字能实现可见性:synchronized和final。同步块的可见性是通过规则”对一个变量执行unlock操作之前必须把这个变量同步回主内存中“实现的。final的可见性指,被final修饰的字段在构造器中一旦初始化完成,并且构造器没有把this的引用传递出去,那么其他线程就能看见final字段的值。
有序性:volatile中提到的指令重排也说过。总结就是:在本线程中观察,所有的操作都是有序的(即结果与正常顺序是一致的),在其他线程中观察,所有的操作都是无序的(即发生了重排)。前半句指的是“线程内表现为串行语义”,后面句指的是指令重排现象和工作内存与主内存同步延迟现象。Java提供了volatile和synchronized关键字保证两个线程之间的操作有序,synchronized是由规则“一个变量在同一个时刻只允许一条线程对其进行lock操作”,决定了持有一个锁的两个块只能串行进入。
2.6 happens-before原则(先行发生原则)
有序性如果只靠volatile和synchronized,那么并发编程会非常麻烦,但是实际上写代码的时候却并没有这么复杂。原因在于Java语言中有一个happens-before原则。这个原则很重要,是判断数据是否存在竞争、线程是否安全的主要依据。
先行发生指的是什么呢?其实就是Java内存模型中定义的两项操作之间的偏序关系,如果操作A先行发生于操作B,就是在说发生在B之前的操作A产生的影响能被B观察到。举个例子:
A:i = 1; B:j = i; C:i = 2;
如果A先行发生于B,则j的值一定等于1,原因有两个,根据定义i=1可以被B观察到,C没有执行。如果C在A、B之间执行,但是并不是先行于B,j的值就无法确定了。因为C对B的影响可能被B观察到了,也可能没有。这样就存在线程安全的问题。
上面的例子简单的说就是如果存在先行关系,就不用担心指令重排对两个线程的影响,不存在先行关系就要特别小心了。Java内存模型中有一些先天的先行发生关系,不需要借助同步可以在编码中直接使用:
1.程序次序规则:在一个线程内,按照程序代码顺序执行。准确的说是:控制流顺序而不是程序代码顺序(有选择和循环)
2.管程锁定规则:一个unlock操作先行发生于后面对同一个锁的lock操作。必须是同一个锁,后面指的是时间上的先后顺序
3.volatile变量规则:对一个volatile变量的写操作先行发生于后面对这个变量的读操作。后面指的时间先后顺序
4.线程启动规则:Thread对象的start()方法先行发生于此线程的每一个动作
5.线程终止规则:线程中所有操作都先行发生于对此线程的终止检测。
6.线程中断规则:对线程的interrupt方法的调用先行发生于被中断线程的代码检测到中断事件的发生。
7.对象终结规则:一个对象的初始化完成,先行发生于它的finalize方法的开始
8.传递性:如果操作A先行发生于B,B先行于C,那么A先行于C
Java语言无须任何同步手段保障就能成立的先行规则就只有上面这些。下面说明一下时间先后和先行的区别,比如有个共享变量x = 0,A线程在时间上先set其为1,线程B获取这个值,这个时候B获取的是1吗?答案是否定的,应该是不知道。因为这个操作没有任何先行规则匹配,虽然set操作先执行,但是不能确保get操作能获得修改后的值。修改方法很简单,加上synchronized或者定义成volatile。
时间上先发生,不一定是先行发生,那么先行发生,一定在时间上是先发生的吗?不一定,因为指令重排。比如int i = 1; j = 2。指令重排后j可能先被执行,但是根据程序次序规则,在一个线程内i = 1是先行于j=2的。
3 Java与线程
并发不一定要用多线程完成,比如PHP的多进程并发,但是在Java里面并发和线程密切相关。
3.1 线程的实现
线程是比进程更轻量级的调度执行单位,线程的引入可以把一个进程的资源分配和执行调度分开。各个线程既可以共享进程资源(内存地址,文件IO等),又可以独立调度(线程是CPU调度的基本单位)。
主流的操作系统都提供了线程实现,Java提供了不同操作系统对线程的统一处理,每个执行了start方法的Thread实例,就开启了一个线程。Thread的大部分API都是native,所以本章介绍的是线程的实现,而不关系Java是如何封装的。
基本的实现方式有3种:使用内核线程实现、使用用户线程实现和使用用户线程加轻量级进程混合实现。
3.1.1 使用内核线程实现
内核线程KLT kernel-level thread就是直接由操作系统内核支持的线程,这种线程由内核来完成线程切换,内核通过操纵调度器对线程进行调度,并负责将线程的任务映射到各个处理器上。每个内核线程可以视为内核的一个分身,这样操作系统就有能力同时处理多件事情,支持多线程的内核就叫做多线程内核。
程序一般是不会直接使用内核线程,而是去使用内核线程的一种高级接口——轻量级进程(Light Weight Process,LWP),轻量级进程就是我们通常意义上所讲的线程,由于每个轻量级进程都由一个内核线程支持,因此只有先支持内核线程,才能有轻量级进程。
由于内核线程的支持,每个轻量级进程都是一个独立的调度单元,即使有一个阻塞了,也不会影响整个进程的工作。但是局限在于:基于内核线程实现,线程的操作,创建,析构及同步都需要进行系统调用,代价较高,在用户态和系统态来回切换。轻量级进程需要一个对应的内核线程,会消耗内核资源,支持数量有限。
3.1.2 使用用户线程实现
广义上一个线程只要不是内核线程,就可以认为是用户线程。所以轻量级进程也算是用户线程,但是实现是建立在内核之上。狭义上的用户线程指的是完全建立在用户空间的线程库上,系统内核不能感知线程的存在。用户线程的创建、同步、销毁、调度都在用户态完成,实现得当都不需要切换到内核态。所以低消耗,支持线程数大。
劣势在于没有内核的支援,所有动作都需要自己处理,由于操作系统只承担了分配资源,那么阻塞如何处理,多处理器系统中如何将线程映射到其他处理器上之类的问题解决会非常困难,甚至办不到。所以程序复杂,现在使用用户线程的程序越来越少了,Java、Ruby等语言曾经使用过,最终放弃了。
3.1.3 使用用户线程加轻量级进程混合实现
这是种混合实现的方式,用户线程还是完全建立在用户空间,所以线程的创建、切换、析构等操作代价小,并且可以支持大规模用户线程并发。而操作系统提供支持的轻量级进程则作为用户线程和内核线程之间的桥梁,可以使用内核提供的线程调度功能及处理映射,并且用户线程的系统调用要通过轻量级线程来完成,大大降低了整个进程被完全阻塞的风险。许多Unix系列的操作系统,如Solaris、HP-UX等都提供了N:M的线程模型实现。
3.1.4 Java线程实现
JDK1.2之前,是基于称为“绿色线程”的用户线程实现的。1.2中,线程模型替换成基于操作系统原生线程模型实现。因此,目前操作系统支持怎么样的线程模型,很大程度上决定了Java虚拟机线程是怎么样映射的,这点在不同的平台上无法达成一致。线程模型只对线程并发规模和操作成本产生影响,对Java的编码和运行差异是透明的。
对于Sun JDK而言,其Windows和Linux版本都是使用1对1的线程模型实现的,一条Java线程对应一条轻量级进程。
在Solaris平台中,操作系统支持1对1和多对多,所以Solaris版的JDK提供了平台专有参数-XX:+UseLWPSynchronization(默认这个)和-XX:+UseBoundThreads决定使用哪种线程模型。
3.2 Java线程调度
线程调度指系统为线程分配处理器使用权的过程,主要调度方式有两种,分别是协同式线程调度和抢占式线程调度。
协同式调度的多线程系统中,线程的执行时间由线程本身控制,执行完了主动通知切换到另一个线程,最大的好处就是实现简单。切换线程是可知的,没什么线程同步的问题。Lua中的协同例程就是这类实现。坏处是线程执行时间不可控制,如果程序有问题,一直不切换,就会发生阻塞,会导致整个系统崩溃。
抢占式调度的多线程系统中,线程由系统分配执行时间,Thread.yield可以让出执行时间,但是获取执行时间没办法。这种方式执行时间是系统可控的,不会出现一个线程阻塞导致整个系统崩溃。Java就是采取这种方式。虽然调度是自动完成的,但是还是可以通过设置优先级给一些线程多一点执行时间,Java设置了10个优先级1~10,数值越大越优先。不过要注意,线程优先级并不靠谱,原因就是Java是通过映射到系统的原生线程上来实现的,所以线程调度最终还是取决于操作系统,虽然操作系统大部分提供了优先级的概念,但是不见得能和Java线程的优先级一一对应。比如windows只有7种,对应10种级别的划分就坑了。此外,优先级可能被系统自行改变,windows中存在一个优先级推进器的功能,大致作用是当系统发现一个线程执行的很勤奋,就会越过线程的优先级为它分配时间,所以不能通过线程优先级来完全确定一组状态都ready的线程哪个先执行。
3.3 状态转换
Java语言定义了5种线程状态,任意时间只能处于一个状态。
新建new:创建后未启动
运行runnable:包括running和ready,可能正在被执行,可能在等待CPU分配时间
无限期等待waiting:这种状态不会被分配执行时间,需要等待其他线程显示唤醒,陷入waiting的方法:
Object.wait();
Thread.join();
LockSupport.park();
限期等待timed waiting:这种状态也不会被分配时间,不过不需要唤醒,到时间就会自动唤醒。
Thread.sleep()
Object.wait(timeout);
Thread.join(timeout);
LockSupport.parkNanos();
LockSupport.parkUnitl();
阻塞blocked:线程被阻塞了,阻塞状态与等待状态的区别在于,阻塞状态在等待一个排他锁,这个事件将在另一个线程放弃这个锁时发生。等待只是等待一段时间,或者是唤醒动作发生。在程序等待进入同步区域的时候,线程将进入这种状态。
结束terminated:已终止线程的线程状态。