当我们的java程序遇到频繁full gc或者oom的时候,我们常常需要将当前的heap dump出来进行进一步的分析。MAT是用于分析heap dump的神器。
1 生成heap dump
heap dump是jvm内存中某一时刻所有对象的的快照。通常用于定位java程序的内存泄露或者优化内存。通常可以通过以下几种方式生称dump文件:
1.1 jmap
jmap -dump:[live,]format=b,file=
live是可选项,如果加上了live,那么只会dump存活的对象,不会dump将被gc的对象。 jmap的使用举例来说,假如通过jps得到进程id为19234:
jmap -dump:format=b,file=heap.hprof 19234
注意: jmap是实验性质的,并且不会长久支持的(This command is experimental and unsupported)
1.2 jcmd
jcmd的功能非常多,用来向jvm发送请求。使用jcmd命令必须是在和jvm进程同一个机器上运行。使用jcmd生成head dump的命令是:
jcmd
GC.heap_dump [-all]
从试验来看,这里的file-path须要是绝对路径,不能是相对路径。 all是可选项,不写all就类似jmap写上了live。使用举例如:
jcmd 19234 GC.heap_dump -all /tmp/dump.hprof
1.3 自动捕获head dump文件
可以通过加入jvm参数,当程序出现oom的时候,自动产生heap dump文件
java -XX:+HeapDumpOnOutOfMemoryError
该参数默认情况下会在我们启动java进程的目录下,产生一个名字叫 java_pid
java -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=
当然还有其他生成head dump文件的方式,具体可以参考java-heap-dump-capture
2 GC root
2.1 概念
深入理解java虚拟机中提到,可作为GC Roots的对象包括下面几种:
- 虚拟机栈(栈帧中的本地变量表)中引用的对象
- 方法区中类静态属性引用的对象
- 方法去中常量引用的对象
- 本地方法栈JNI引用的对象
怎么理解呢?
- 首先对于上述的第一点应该注意是一个虚拟机栈而不是方法栈,每个java线程有一个虚拟机栈
- 其次为什么这些可以作为GC root,其实比较好理解,因为栈中的对象肯定是正在使用的,所以可以从这些对象开始遍历,然后得出所有还在引用的对象;
- 最后,GC root到底是对象还是引用呢?可以理解为这里的引用就是对象,因为对于Java语言(非字节码)来说单独的引用(没有指向对象的引用)没有意义。也就是说我们写了个引用但是没有赋值,其实和没写是一样的。可以通过2.2的举例来加深下理解
2.2 举例
我们可以用MAT来更详细的理解:
public static void main(String[] args) throws Exception {
Stu stu = new Stu();
stu.teacher = new Teacher();
while (true) {
Thread.sleep(1000);
}
}
使用jcmd生成heap dump文件,用MAT打开后,搜索Teacher,然后我们看下这个类对应对象的“Path to gc root”:
小黄点表示这是个GC root. 这里具体表示这个是当前线程栈中的
注意:一个对象可以有多个GC root,同样在MAT上看也就是多条“Path to gc root”
3 使用MAT分析heap dump
了解了如何生成heap dump和对gc root有了进一步的了解,我们可以用MAT来进一步分析heap dump
3.1 打开
MAT默认没有显示unreachable objects,在使用前我们先勾选上
Preferences -> Memory Analyzer
然后勾选上Keep unreachable objects
如果之前没有勾选,后面要改的话,不会立刻生效,需要把解析的文件删除掉,重新解析打开heap dump文件
然后打开文件
File -> Open Heap Dump
3.2 Overview
Overview 显示了java堆的一些基本信息,比如大小、对象个数等,也包括一个对象所占内存比例的饼图,有助于我们直观上去查看占用内存比较大的对象
3.3 Histogram
Histogram即直方图,是以类的粒度来显示,可以使用正则表达式搜索感兴趣的类
如图中我们搜索Teacher,出现一个匹配项;Objects列为1,表示有一个Teacher的对象;Shallow Heap和Retained Heap的概念不在这里阐述了,简单来说Shallow Heap就是对象本身的大小,Retained Heap是指当对象释放后,引起其他对象释放总共大小,Retained Heap和支配树(dominator tree)概念有关系。一般情况下在分析的时候,我们会按照Retained Heap大小来排序,占用比较大的很有可能就是引起oom的对象。
前面说了Histogram是类粒度的,可以右击来显示该类的对象
“with incomming references”表示显示对象和引用该对象的对象,如下图。左边的黑色字体表示变量名,而变量名的类型是它的上一行的左边的类。
看到对象后,我们一般右击来看下对象的GC root,来确定对象没有被释放的原因,有两个选项
- 右击 -> path to gc roots -> exclude all phantom/weak/soft etc. references
- 右击 -> merge shortest paths to gc roots -> exclude all phantom/weak/soft etc. references
两个的区别是1是显示从该对象到gc roots的路径,而且会显示所有的gc roots(一个对象的gc root可以有多个); 2显示的是从gc roots到对象的路径,而且只显示最短的一条路径。 gc root的显示在2.2中已经显示过了
一般通过分析gc root的路径和逻辑代码,就可以很容易确定oom或者内存泄露的原因了
3.4 dominator tree
dominator tree即支配树。支配树的概念可以参考 支配树。需要注意的是,支配树并不等于path to gc roots。
Histogram是类粒度的,可以找到哪个类占用的堆内存比较多;dominator tree是对象粒度的,可以用来查看哪个对象引起占用堆内存比较大。
4 总结
一般来说对heap dump的分析是个比较综合的过程,通过Histogram和dominator tree,通过gc roots和源码综合分析,可以得出最后的结论
5 参考
- https://www.baeldung.com/java-heap-dump-capture
- https://help.eclipse.org/luna/index.jsp?topic=%2Forg.eclipse.mat.ui.help%2Fconcepts%2Fgcroots.html&cp=37_2_3
- https://stackoverflow.com/questions/26232733/thread-as-a-gc-root
- https://www.zhihu.com/question/47258557
- https://blog.csdn.net/jji8877032/article/details/84503063
- http://www.lightskystreet.com/2015/09/01/mat_usage/