垃圾收集器与内存分配策略
概述
垃圾收集器(Garbage Collection。GC)须要解决的三个问题:
- 哪些内存须要回收?
- 什么时候回收?
- 怎样回收?
前面介绍了Java内存运行时区域的各个部分,当中程序计数器、虚拟机栈和本地方法栈三个区域随线程而生,随线程而灭。栈中的栈帧随着方法的进入和退出而有条不紊地运行着出栈和入栈操作。因此这几个区域的内存分配和回收都具备确定性,不须要过多考虑回收的问题。
而Java堆和方法区则不一样,是线程共享区域。没有确定的销毁时间,所以垃圾收集器所关注的就是这部分内存。
推断对象是否存活
在堆里面存放着Java世界中差点儿全部的对象实例,垃圾收集器在对堆进行回收前,第一件事就是要确定这些对象之中哪些还“存活”着,哪些已经“死去”(不可能再被不论什么途径使用的对象)。
引用计数算法(Reference Counting)
给对象一个引用计数器,每当有一个地方引用它时,计数器就加1;当引用失效时,计数器就减1;不论什么时候计数器为0的对象就是不可能再被使用的。这就是引用技术算法。
尽管引用计数算法(Reference Counting)的实现非常简单,判定效率也高,可是在主流的Java虚拟机里面没有选用引用计数算法来管理内存,当中最基本的原因是它非常难解决对象之间相互循环引用的问题。请看例如以下代码:
/**
* testGC()方法运行后,objA和objB会不会被GC呢?
*/
public class ReferenceCountingGC {
public Object instance = null;
private static final int _1MB = 1024 * 1024;
/**
* 这个成员属性的唯一意义就是占点内存,以便在能在GC日志中看清楚是否有回收过
*/
private byte[] bigSize = new byte[2 * _1MB];
public static void testGC() {
ReferenceCountingGC objA = new ReferenceCountingGC();
ReferenceCountingGC objB = new ReferenceCountingGC();
objA.instance = objB;
objB.instance = objA;
objA = null;
objB = null;
// 假设在这行发生GC,objA和objB能否被回收?
System.gc();
}
}
这段代码非常easy看懂,就是objA对象和objB对象互相引用,所以它们的引用计数不为0。可是实际上它们已经不可能再被訪问。于是引用计数算法无法通知垃圾收集器回收它们。
可达性分析算法(Reachability Analysis)
在主流的商用程序语言(Java、C#)的主流实现中,都是通过可达性分析(Reachability Analysis)来判定对象是否存活的。这个算法的基本思路就是通过一系列的称为“GC Roots”的对象作为起始点,从这些节点開始向下搜索,搜索所走过的路径称为引用链(Reference Chain)。当一个对象到GC Roots没有不论什么引用链相连(从GC Roots到这个对象不可达)时,则证明此对象是不可用的。
例如以下图所看到的。对象object5、object6和object7尽管互相有关联,可是它们到GC Roots是不可达的,所以会被判定为可回收对象。
在Java语言中。可作为GC Rootss的对象包含以下几种:
- 虚拟机栈(栈帧中的本地变量表)中引用的对象。
- 方法区中类静态属性引用的对象
- 方法区中常量引用的对象
- 本地方法中JNI(即一般说的Native方法)引用的对象
引用
在JDK1.2之后,Java将引用分为强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Weak Reference)、虚引用(Phantom Reference)4种。这4种引用强度依次逐渐减弱。
强引用:强引用就是指在程序代码中普遍存在的。相似“Object obj = new Object()”这类的引用,仅仅要强引用还在,垃圾收集器就永远不会回收。
软引用:软引用是用来描写叙述一些还实用但并没必要的对象。
对于软引用关联着的对象,在系统将要发生内存溢出异常之前,将会把这些对象列进回收范围之中进行第二次回收。假设这次回收还没有足够的内存,才会抛出内存溢出异常。在JDK1.2之后。提供了SoftReference类实现软引用。
弱引用:弱引用也是用来描写叙述非必需对象的,可是强度比软引用更弱一点,被弱引用关联的对象仅仅能生存到下一次垃圾收集发生之前。当垃圾收集器工作时,不管当前内存是否足够,都会回收掉仅仅被弱引用关联的对象。在JDK1.2之后,提供了WeakReference类来实现弱引用。
虚引用:虚引用也称幽灵引用或幻影引用。它是最弱的一种引用关系。一个对象是否有虚引用的存在,全然不会对其生存时间构成影响,也无法通过虚引用来取得一个对象实例。为一个对象设置虚引用的唯一目的就是能在这个对象被收集器回收时受到一个系统通知。
在JDK1.2之后,提供了PhantomReference类来实现虚引用。
回收方法区
方法区的垃圾收集主要回收两部分内容:废弃常量和没用的类。回收废弃常量与回收Java堆中的对象非常相似。增加一个字符串“abc”已经进入了常量池中,可是当前系统没有不论什么一个String对象引用常量池中的“abc”常量,也没有其他地方引用了这个字面量,假设这时发生了垃圾收集。这个“abc”就会被清理。常量池中其他类(接口)、方法、字段的符号引用也与此相似。
没用的类须要满足下列三个条件:
- 该类全部的实例都已经被回收。
- 载入该类的ClassLoader已经被回收。
- 该类相应的java.lang.Class对象没有在不论什么地方被引用,无法再不论什么地方通过反射訪问该类的方法。
垃圾收集算法
标记-清除算法(Mark-Sweep)
最基础的收集算法是“标记-清除”(Mark-Sweep)算法,如同它的名字一样,算法分为“标记”和“清除”两个阶段:首先标记出全部须要回收的对象,在标记完毕后统一回收全部被标记的对象。之所以它是最基础的收集算法。是由于兴许的收集算法都是基于这样的思路并对其不足进行改进而得到的。它的主要不足有两个:
一个是效率问题,标记和清除效率都不高;
还有一个是空间问题,标记清除之后会产生大量不连续的内存碎片,空间碎片太多了可能会导致以后再程序运行过程中须要分配较大对象时,无法找到足够的连续内存而不得不提前触发一次垃圾收集动作。
复制算法(Copying)
复制算法是先将可用内存按容量划分为大小相等的两块,每次仅仅是用当中的一块。当这一块内存用完了。就将还存活着的对象拷贝到另外一块上面去。然后再把已使用过的内存空间一次清理掉。这样实现简单,运行高效。
只是代价是内存缩小为原来的一半,代价高。
如今的商业虚拟机都採用这样的收集算法来回收新生代,IBM公司的专门研究表明,新生代的对象98%是“朝生夕死”的,所以并不须要依照1:1的比例来划分内存空间,而是将内存分为一块较大的Eden空间和两块较小的Survivor空间。每次使用Eden和当中一块Survivor。当回收时,将Eden和Survivor中还存活的对象一次性地拷贝到另外一块Survivor空间上。最后清理掉Eden和刚才用过的Survivor空间。HotSpot虚拟机默认Eden和Survivor的大小比例是8:1。我们没有办法保证每次回收都仅仅有不多余10%的对象存活。当Survivor空间不够用时,须要依赖其他内存(这里指老年代)进行分配担保(Handle Promotion)。
标记-整理算法(Mark Compact)
依据老年代的特点。有人提出了还有一种“标记-整理”(Mark Compact)算法,标记过程仍然与“标记-清除”算法一样。但兴许步骤不是直接对可回收对象进行清理,而是让全部存活对象都向一端移动,然后直接清理掉端边界以外的内存,“标记-整理”算法示意图如图3-4所看到的。
分代收集算法(Generational Collection)
当前商业虚拟机的垃圾收集都採用“分代收集”(Generational Collection)算法,这样的算法并没有什么新的思想,仅仅是依据对象存活周期的不同将内存划分为几块。通常是把Java堆分为新生代和老年代,这样就能够依据各个年代的特点採用最适当的手机算法。在新生代中。每次垃圾收集时都发现有大批的对象死去。仅仅有少量存活。那就选用复制算法。而老年代中由于对象存活率高、没有额外空间对它进行分配担保,就必须使用“标记-清除”或者“标记-整理”算法来进行回收。
HotSpot的算法实现
枚举根节点
在可达性分析中,可作为GC Roots的节点主要在全局性的引用(比如常量或静态属性)与运行上下文(比如栈帧中的本地变量表)中,如今非常多应用仅仅方法区就有数百兆,假设要逐个检查这里面的引用,必定会消耗非常多时间。
另外一个问题是。在进行可达性分析的时候,必定须要临时停顿全部Java运行线程(Stop The World)。
由于眼下主流的虚拟机使用的都是准确式GC,所以当运行系统停顿下来后。并不须要一个不漏地检查全然部运行上下文和全局引用位置,虚拟机应当是有办法直接得知哪些地方存放着对象引用。
在HotSpot虚拟机当中,是使用一组称为OopMap的数据结构来达到这个目的的,在类载入完毕的时候,HotSpot就把对象内存什么偏移量上是什么类型的数据计算出来,在JIT编译过程中,也会在特定的位置记录下栈和寄存器中哪些位置是引用。这样,GC在扫描时就能够直接得知这些信息了。
安全点
在OopMap协助下。HotSpot能够高速且准确地完毕GC Roots枚举,但一个非常现实的问题随之而来:OopMap内容变化的指令非常多,假设为每一条指令都生成相应的OopMap,那将会须要大量的额外空间,这样GC的空间成本将会变得非常高。
前面已经提到,仅仅是在“特定的位置”记录这些信息。这些位置称为安全点(Safapoint)。即程序运行时并不是在全部地方都能停顿下来開始GC,仅仅有在到达安全电视才干暂停。
对于怎样在GC发生时让全部线程都“跑”到近期的安全点再停顿下来,这里有两种方案:抢先式中断(Preemptive Suspension)和主动式中断(Voluntary Suspension)。
抢先式中断是在GC发生时,首先把全部线程全部中断。假设发现有线程中断的地方不在安全点上,就恢复线程,让它“跑”到安全点上。
主动式中断是当GC须要中断线程的时候,不直接对线程操作。仅仅简单地设置一个标志,各个线程运行时主动轮询这个标志,发现中断标志为真时就自己中断挂起。
安全区域
Safapoint机制保证了程序运行的时候,可是,程序“不运行”的时候呢?比如线程处于Sleep状态或者Blocked状态,这时候线程无法“走”到安全的地方挂起,对于这样的情况,就须要安全区域(Safa Region)来解决。
安全区域是指在一段代码片段之中,引用关系不会发生变化。
在这个地方随意地方发生GC都是安全的。
垃圾收集器
Serial收集器
这个收集器是一个单线程收集器,但它的“单线程”的意义并不仅仅说明它仅仅会使用一个CPU或一条收集线程去完毕垃圾收集工作。更重要的是它在进行垃圾收集时,必须暂停其他全部线程,直到它工作结束。Serial是一个新生代收集器。
长处:简单高效。
缺点:“Stop The World”停顿。
ParNew收集器
ParNew是Serial收集器的多线程版。也是一个新生代收集器,除了使用多条线程进行垃圾收集之外,其余行为都与Serial收集器全然一样。
Parallel Scavenge收集器
Parallel Scavenge收集器是一个新生代收集器。也是使用复制算法的收集器。又是并行的多线程收集器。
这个收集器的特点是与其他收集器的关注点不同,其他收集器关注点是尽可能缩短垃圾收集时用户线程的停顿时间,而Parallel Scavenge收集器的目标则是达到一个可控制的吞吐量(Throughput)。所谓吞吐量就是CPU用于运行用户代码的时间与CPU总消耗时间的比值,即吞吐量=运行用户代码时间/(运行用户代码时间+垃圾收集时间)。
新生代选择此选择器,老年代仅仅能选择Parallel Old收集器和Serial Old收集器与其搭配。
Serial Old收集器
Serial Old收集器是Serial收集器的老年代版本号,相同是一个单线程收集器。使用“标记-整理”算法。
在Server模式下,主要有两大用途:一种用途是在JDK1.5之前版本号中与Parallel Scavenge收集器搭配使用。还有一种用途就是作为CMS收集器的后备预案。
Parallel Old收集器
是Parallel Scavenge收集器的老年代版本号,使用多线程和“标记-整理”算法。
CMS收集器
CMS(Concurrent Mark Sweep)收集器是一种以获取最短回收停顿时间为目标的收集器。
从名字上就能够看出,CMS收集器是基于“标记-清除”算法实现的,它的运作过程相对于前面几种收集器来说更复杂一些,整个过程分为4个步骤:
- 初始标记(CMS initial mark)
- 并发标记(CMS concurrent mark)
- 又一次标记(CMS remark)
- 并发清除(CMS concurrent sweep)
当中初始标记、又一次标记这两个步骤仍然须要“Stop The World”。初始标记仅仅是标记一下GC Roots能直接关联到的对象,速度非常快。并发标记阶段就是进行GC Roots Tracing的过程。而又一次标记阶段则是为了修正并发标记期间因用户程序继续运作而导致标记产生变动的那一部分对象的标记记录,这个阶段的停顿时间通常会比初始标记阶段长一点,但远比并发标记的时间短。整个过程中耗时最长的并发标记和并发清除过程收集器线程都能够和用户线程一起工作。
长处:并发收集、低停顿。
缺点:
- 对CPU资源非常敏感。
它尽管不会导致用户线程停顿。可是会占用一部分线程(或者说CPU资源)而导致应用程序变慢,总吞吐量减少。
- CMS收集器无法处理浮动垃圾(Floating Garbage),可能出现“Concurrent Mode Failure”失败而导致还有一次Full GC的产生。由于CMS并发清理阶段用户线程还在运行着,伴随程序运行自然就还会有新的垃圾不断产生。这一部分垃圾出如今标记过程之后。CMS无法再当次收集中处理它们,仅仅好等下一次GC时再清理。
- “标记-清除”算法会差生大量空间碎片。
G1收集器
特点:
- 并行与并发:G1能够充分利用多CPU、多核环境下的硬件优势,使用多个CPU来缩短Stop-The-World停顿的时间。
- 分代收集。
- 空间整合:採用“标记-整理”算法。
- 可预測的停顿:能够让使用者明白指定在一个长度为M毫秒的时间片段内。消耗在垃圾收集上的时间不得超过N毫秒。
在G1之前的其他收集器进行收集的范围都是正规新生代或者老年代。而G1不再是这样。
使用G1收集器时,Java堆的内存布局就与其他收集器有非常大差别,它将正规Java堆划分为多个大小相等的独立区域(Region)。尽管还保留新生代和老年代的概念,但新生代和老年代不再是物理隔离了。它们都是一部分Region(不须要连续)的集合。
运行步骤:
- 初始标记(Initial Marking)
- 并发标记(Concurrent Marking)
- 终于标记(Final Marking)
- 筛选回收(Live Data Counting and Evacuation)
初始标记阶段仅仅仅仅是标记一下GC Roots能直接关联的对象。而且改动TAMS(Next Top at Mark Start)的值,让下一阶段用户程序并发运行时,能在正确可用的Region中创建新对象。这阶段须要停顿线程,但时间非常短。
并发标记阶段是从GC Roots開始对堆中对象进行可达性分析,找出存活的对象。这阶段耗时较长,但可与用户线程并发运行。
终于标记阶段则是为了修正在并发标记期间因用户线程继续运作而导致标记产生变动的那一部分记录,虚拟机将这段时间对象变化记录在线程Remembered Set中,这阶段须要停顿线程,但可并行运行。
筛选回收阶段首先对各个Region的回收价值和成本进行排序,依据用户所期望的GC停顿时间来指定回收计划。