Java程序而言,Java虚拟机有自动内存管理机制,不需要开发人员去手动释放内空间,也不容易出现内存泄漏和溢出的问题,一切看起来都很完美。一旦出现内存泄漏和溢出方面的问题,如果不了解Java虚拟机是怎么样使用内存的,那么排查起来将困难。以往对内存的理解仅仅停留在栈、堆这两个部分,其实Java虚拟机的还有其他分区远比这复杂。接下来将介绍Java虚拟机主要的几个区域及其作用、内存溢出。
java虚拟机在执行Java程序时会把其管理的内存划分为若干个不同的数据区域,这些区域都有各自的用途、创建和销毁时间。线程共享区域的数据区域随着虚拟机启动而存在,线程隔离的数据区域依赖线程的启动而创建、线程结束而销毁。
Java虚拟机运行时数据区
程序计数器
程序计数器是一块较小的内存空间,它可以看成是当前线程执行的字节码的行号指示器。其实程序计数器就是一个寄存器用来存放当前正在被执行的指令,也可以存放下一个要被执行的指令。
在虚拟机的概念模型中,字节码解释器工作时就是通过改变这个计数器的值来选择下一条需要执行的字节码指令,由于Java虚拟机的多线程是通过线程轮流切换并分配处理执行时间的方式实现的,在任何一个确定的时刻,一个处理器(一个内核)都只会执行一条线程中的指令。因此,为了线程切换后还能恢复到正确的执行位置,每条线程都需要拥有一个独立的程序计数器,各条线程之间计数器互不影响,独立存储,所以这部份内存区域我们称之为线程私有内存,即线程隔离。
Java虚拟机栈
和程序计数器一样,Java虚拟机栈也是线程私有的,它的生命周期与线程相同。虚拟机栈描述的是Java方法执行的内存模型:每个方法在执行时都会创建一个栈帧用来存储局部变量表、操作数栈、动态链接、方法出口等信息。每一个方法从调用直至执行完成的过程,就对应着一个栈帧在虚拟机栈中入栈到出栈的过程。
局部变量表存放了编译期可知的各种基本数据类型(boolean-1、byte-1、char-2、short-2、int-4、float-4、long-8、double-8),对象引用(reference类型,可能是一个对象起始地址的引用指针,也可能是指向一个代表对象的句柄或其他与此对象相关的位置)和returnAddress类型(指向一条字节码指令的地址)。局部变量表所需要的内存空间在编译时期完成分配。进入一个方法时,这个方法需要在帧中分配多大的局部变量空间是完全确定的,在方法运行期间不会改变局部变量表的大小。
本地方法栈
本地方法栈是与虚拟机栈所发挥的作用是非常相似的,他们之间的区别就是虚拟机栈为虚拟机执行Java方法(也就是字节码)服务,而本地方法栈则为虚拟机使用到的Native方法服务。虚拟机规范中对本地方法栈中方法所使用的语音、使用方式以及数据结构 都没有强制规定,因此具体的虚拟机可以自由地实现它。甚至在有的虚拟机中直接将虚拟机栈和本地方法栈合并为一个。和虚拟机栈一样,本地方法栈区也会抛出StackOverflowError和OutOfMemory异常。
Java 堆
对应大多数应用来说,Java堆是Java虚拟机所管理的内存中最大的一块。Java堆是被所有线程共享的一块内存区域,在虚拟机启动时候创建。此内存区域的唯一目的就是存放对象实例,几乎所有的内存实例都在这里分配内存。Java虚拟机规范中的描述是:所有的对象实例以及数组都要在堆上分配,但随着JIT编译器的发展与逃逸分析技术逐渐成熟,栈上分配、标量替换优化技术将会导致一些微妙的变化 ,所哟的对象都分配在堆上也渐渐变得不是那么“绝对”了。
Java堆是垃圾收集器管理的主要区域,因此很多时候也被称为GC堆,现在收集器基本采用分代收集算法,所以Java堆中还可以细分为:新生代和老年代。根据Java虚拟机规范的规定,Java堆可以处于物理上不连续的内存空间中,只要逻辑上是连续的即可,就像我们的磁盘空间一样。在实现时,可以固定大小,也可是可拓展的,主流的虚拟机都是按照可拓展来实现的(通过-Xmx和-Xms来控制)。如果在堆中没有内存完成实例分配,并且堆也无法继续拓展时,将会抛出OutOfMemortError异常。
方法区
方法区与Java堆一样,是各个线程共享的内存区域,它用于存储已被虚拟机加载的类信息、常量、静态变量、即时编译后的代码等数据。虽然Java虚拟机将其描述为堆的一个逻辑部分,但是它却有一个别名叫做Non-Heap(非堆)。目的是与Java堆区分开来。
Java虚拟机规范对方法区的限制非常松,除了和Java堆一样,不需要连续的内存和可以选择固定大小或者可扩展外,还可以选择不实现垃圾收集。相对而言,垃圾收集在这个区域是比较少出现的,这个区域内存回收的主要目标是针对常量池的回收和对类型的卸载。根据Java规范的规定,当方法区无法满足内存分配需要时,将抛出OutOfMemoryError异常。
运行时常量池
运行常量池是方法区的一部分。class文件中除了有类的版本、字段、方法、接口等描述信息外,还有一项信息是常量池,用于存放编译时期生成的各种字面量和符号引用,这部份内容将在类加载后进入方法区的运行时常量池中存放。
运行时常量池具备动态性,Java语音并不要求常量一定只有编译期才能产生,也就是并非预置入class文件中常量池的内容才能进入方法区运行时常量池,运行时期也可能将新的常量放入池中,这种特性被开发人员利用得比较多的便是String类的intern()方法。既然运行时常量池是方法区的一部分,自然受到方法区内存的限制,当常量池无法再申请到内存时会抛出OutOfMemoryError异常。
直接内存
由于直接内存(Direct Memory)并不是虚拟机运行时数据区的一部分,也不是Java虚拟机规范中定义的内存区域。但是这部分内存也被频繁地使用,而且也可能导致内存溢出异常(OutOfMemoryError)出现,所以也放到这部分进行介绍。显然,本机直接内存的分配不会受到Java堆大小的限制。但是肯定还是会受到本机总内存大小以及处理器寻址空间的限制。管理员在配置虚拟机参数时,会根据实际内存设置-Xmx等参数信息,但经常忽略直接内存,使得各个内存区域总和大于物理内存限制(包括物理的和操作系统级的限制),从而导致动态拓展时出现OutOfMemoryError异常。
对象的创建方式
虚拟机遇到一条new指令时,首先去检查这个指令的参数能否在常量池中定位到一个类的符合引用。并且检查这个符号引用代表的类是否已经被加载、解析和初始化过。如果没有,那就先执行加载过程。在类加载完成后,虚拟机将为新生对象分配内存。对象所需要的内存大小在类加载完成之后便可完全确定,为对象分配空间的任务等同于把一块确定大小的内存从Java堆中划分出来。
为对象分配内存空间有两种方式:
指针碰撞:假设Java堆中内存是规整的,所有用过的内存都放在一边,空闲的内存放在另一边,中间放着一个指针作为分界点的指示器,那分配内存就是将指针往空间空间挪动一段与对象大小相等的距离,这种分配内存的方式就被称为指针碰撞;
对象的内存布局
HotSpot虚拟机中,对象在内存中存储的布局分为3块区域:对象头、实例数据、对齐填充。
对象头由两部分信息组成,第一部分用于存储对象自身运行时的数据,如哈希码、GC分代年龄、锁状态标志、线程持有的锁、偏向线程ID、偏向时间戳等。第二部分是类型指针,即对象指向它的类元数据的指针,虚拟机通过这个指针来确定这个对象是哪个类的实例,并不是所有的虚拟机实现都必须在对象数据上保留类型指针,换句话说,查找对象的元数据信息并不一定要经过对象本身。另外,如果对象是一个Java数组,那在对象头中还必须有一块用于记录数组长度的数据,因为虚拟机可以通过普通Java对象的元数据信息确定Java对象的大小,但是从数组的元数据中却无法确定数组的大小。
实例数据是对象真正存储的有效信息,也是在程序代码中所定义的各种类型的字段内容。无论是从父类继承下来的,还是在子类中定义的,都需要记录起来。这部分的存储顺序会受到虚拟机分配策略参数和字段在Java源码中定义顺序的影响。
对齐填充并不是必然存在的,也没有特别的含义,它仅仅起着占位符的作用。由于HotSpot VM的自动内存管理系统要求对象起始地址必须是8个字节的整数倍,换句话说,就是对象对象的大小必须是8字节的整数倍。而对象头部分正好是8字节的整数倍,因此,当对象实例数据部分没有对齐时,就需要通过补齐填充来补全。
对象的访问定位
建立对象是为了使用对象,我们的Java程序需要通过栈上的reference数据来操作堆上的具体对象。由于reference类型在Java虚拟机规范中只规定了一个指向对象的引用,并没有定义这个引用应该通过何种方式去定位、访问堆中的对象的具体位置,所以对象访问方法也是取决于虚拟机的实现而决定的。目前主流的访问方式有使用句柄和直接指针两种。
如果使用句柄的话,那么Java堆中将会划分一块内存来作为句柄池,reference中存储的就是对象的句柄地址,而句柄中存储的就是对象实例数据与类型数据具体地址信息。优点:reference存储的是稳定的句柄地址,在对象被移动时只会改变句柄中的实例数据指针,而reference本身不需要修改。缺点:增加了一次指针定位的时间开销。
通过句柄访问对象
如果使用直接指针访问方式最大的好处就是速度更快,它节省了一次指针定位的时间开销,由于对象的访问在Java中非常频繁,因此这类开销积少成多后也是一项非常可观的执行成本。缺点:在对象被移动时reference本身需要被修改。
通过直接指针访问对象
内存溢出
堆溢出
Java堆唯一的作用就是存储对象实例,只要保证不断创建对象并且对象不被回收,那么对象数量达到最大堆容量限制后就会产生内存溢出异常了。
虚拟机栈和本地方法栈溢出
Java虚拟机规范中描述了如果线程请求的栈深度太深(换句话说方法调用的深度太深),就会产生栈溢出了。那么,我们只要写一个无限调用自己的方法,自然就会出现方法调用的深度太深的场景了。
如果线程请求的栈深度大于虚拟机所允许的最大深度,将抛出StackOverflowError异常;
如果虚拟机在扩展栈时无法申请到足够的内存空间,则抛出OutOfMemoryError异常。
这里把异常分为两种情况,看似较为严谨,但却存在着一些互相重叠的地方:当栈空间无法继续分配时,到底是已使用的栈空间太大,还是内存太小,其本质上都只是对同一件事情的两种描述而已。