java并发编程中的重排序问题
重排序
在多核处理器的环境下,编写的顺序结构,这种操作执行的顺序可能是没有保障的:
编译器、处理器可能会改变两个操作的先后顺序
这种一个处理器上执行的多个操作,在其他处理器来看它的顺序与目标代码指定的顺序可能是不一样的,这种现象称为重排序。
重排序是对内存访问有序操作的一种优化,可以在不影响单线程程序正确的情况下提升程序的性能,但是,可能对多线程程序的正确性产生影响,即可能产生线程安全问题。
重排序与可见性问题类似,不是必然出现的,与内存操作顺序有关的几个概念:
- 源代码执行顺序:就是源码中指定的内存访问顺序
- 程序顺序:处理器上运行的目标代码所指定的内存访问顺序
- 执行顺序:内存访问操作在处理器上的实际执行顺序
- 感知顺序:给定处理器所感知到的该处理器及其他处理器的内存访问操作顺序
可以把重排序分为指令重排序与存储子系统重排序两种,指令重排序和存储子系统重排序。指令重排序主要是由编译器、处理器引起的,指程序顺序与执行顺序不一样。存储子系统重排序是由高速缓存,写缓存器引起的,感知顺序与执行顺序不一致。
指令重排序
在源码顺序与程序不一致或者程序顺序与执行顺序不一致的情况下,我们就说发生了指令重排序。
指令重排序是一种动作,确实对指令的顺序做了调整,重排序的对象指令,javac编译器一般不会执行指令重排序,而JIT编译器可能执行指令编译器,处理器也可能执行指令重排序,使得执行顺序和程序顺序不一致,指令重排序不会对单线程的程序结果产生影响(因为编译器和处理器不会改变存在数据依赖的两个操作的顺序),可能导致多线程出现非预期的结果。
存储子系统重排序
存储子系统是指缓冲器和高速缓存,高速缓存(Cache)是CPU中为了匹配与内存处理速度不匹配而设计的一个高速缓存写缓冲器用来提高些高速缓存操作的效率。
即使处理器严格按照程序执行顺序执行两个内存访问操作,在存储子系统的作用下,其他处理器对这两个操作的感知顺序与程序顺序不一致,即这两个操作的顺序看起来是发生了变化,这种现象称之为存储子系统重排序。
存储子系统重排序并没有真正的对指令执行顺序进行调整,而是造成一种指令执行顺序被调整的现象,存储子系统重排序对象是内存操作的结果,从处理器的角度来看,读内存就是从指定的RAM地址中加载数据到寄存器,称为Load(下面简称为L)操作;写内存就说把数据存储到指定的地址表示的RAM存储单元中,称为Store(下面简称为S)操作,内存重排序有以下四种可能:
- LL重排序:一个处理器先后执行两个读操作L1和L2,其他处理器对两个内存操作的感知顺序可能是L2->L1
- SS重排序:一个处理器先后执行两个写操作W1和W2,其他处理器对两个内存操作的感知顺序可能是W2->W1
- LS重排序:一个处理器先执行读内存操作L1,再执行写内存操作W1,其他处理器对两个内存操作的感知顺序可能是W1->L1
- SL重排序:一个处理器先执行写内存操作,再执行读内存操作L1,其他处理器对两个内存操作的感知顺序可能是L1->W1
首先为何要进行指令重排序
编译器或者运行时环境为了优化程序性能而采取的对指令进行重排序的一种手段。
也就是说,对于下面两条语句:
int a=10;
int b=10;
在计算机执行上面两句话的时候,有可能第二条语句会先于第一条语句的执行。所以,千万不要假设指令执行的顺序。
是不是所有的语句都可以进行重排序呢?
答案是否定的,为了将清除这个问题,先讲解另一个概念:数据依赖性
2.1、什么是数据依赖性
如果两个操作访问同一个变量,且这两个操作中有一个为写操作,此时这两个操作之间就存在数据依赖。数据依赖分为下列三种类型:
名称 | 代码示例 | 说明 |
---|---|---|
写后读 | a=1;b=a; | 写一个变量之后,在读这个变量 |
写后写 | a=1;a=2; | 写一个变量之后,在改变这个变量的值 |
读后写 | a=b;b=1; | 读一个变量之后,在改变这个变量的值 |
上面三种情况,只要重排序两个操作的执行顺序,程序的执行结果将会被改变。所以,编译器和处理器在重排顺序的时候,会遵守数据依赖性,编译器和处理器不会改变存在数据依赖关系的两个操作的执行顺序。也就是说:在单线程环境下,指令执行的最终效果应当与器在顺序执行下的效果一致,否则这种优化便会失去意义。这句话有个专业术语叫做as-if-serial语义
as-if-serial语义(貌似串行语义):
JIT编译器、处理器、存储子系统是按照一定的规则对指令、内存操作的结果进行重排序,给单线程程序造成一种假象 ----- 指令是按照源码的顺序执行的,这种现象称为貌似串行语义,并不能保证多线程环境程序的正确性。
as-if-serial语义的意思是指不管怎么重排序(编译器和处理器为了提高并行度),(单线程)程序的执行结果不能改变,编译器、runtime和处理器都必须遵守as-if-serial语义
为了遵守as-if-serial语义,编译器和处理器不会对存在数据依赖关系的操作做重排序,因为这种重排序会改变执行结果。但是如果操作之间不存在数据依赖关系,这些操作可能被编译器和处理器重排序。
重排序对多线程的影响
现在让我们来看看,重排序是否会改变多线程程序的执行结果,请看下面的示例代码:
class ReorderExample {
int a = 0;
boolean flag = false;
public void writer() {
a = 1; // 1
flag = true; // 2
}
public void reader() {
if (flag) { // 3
int i = a * a; // 4
}
}
}
flag变量是个标记,用来标识变量a是否已经被写入。这里假设有两个线程A和B,A首先执行write方法,随后B线程接着执行reader()方法。线程B在执行操作4的时候,能否看到线程A在操作1对共享变量的写入吗?
这里是不一定能够看到
由于操作1和操作2没有数据依赖关系,编译器和处理器可以对这两个操作重排序;同样,操作3和操作4也没有数据依赖关系,编译器和处理器也可以对这两个操作重排序。让我们先来看看,当操作1和操作2重排序的时候,可能会产生什么效果?请看下面的
如上图所示,操作1和操作2做了重排序。程序执行的时候,线程A首先写标记变量flag,随后随后线程B读了这个变量。由于条件判断为真,线程B将读取变量a,此时变量a还根本没有被线程A写入,在这里多线程程序的语义被重排序破坏了。
注意:本文同一用红色的虚线表示错误的读操作,用绿色的虚箭线表示正确的读操作
下面再让我们看看,当操作3和操作4重排序的时候会产生什么效果(借助这个重排序,可以顺便说明控制依赖性),下面是操作3和操作4重排序后,程序的执行时序图:
在程序中,操作3和操作4存在控制依赖关系,当代码中存在控制依赖性的时候,会影响程序序列执行的并行度,为此,编译器会采用猜测执行来克服相关性对并行度的影响,以处理器的猜测执行为例,执行线程B的处理器可以提前读取并计算a*a,然后把计算结果保存到一个名为重排序缓冲的硬件缓存中。当接下来的判断条件为真的时候,就把该计算结果写入变量i中。
从图中我们可以看出,猜测执行实质上对操作3和4做了重排序,重排序在这里破坏了多线程程序的语义。
在单线程程序中,对存在控制依赖的操作重排序,不会改变执行结果(这也是as-if-serial语义允许对存在控制依赖的操作进行重排序的原因);但在多线程程序中,对存在控制依赖的操作重排序,可能会改变程序的执行结果。