为了提升项目的响应速度,为用户提供更好的体验,原来的DAO使用的是JdbcTemplate,最近开发了一个有点类似Hibernate的组件,用来支持DAO对象的缓存。在数据插入和数据删除时,多次使用锁,有CLH自旋锁和ReentrantReadWriteLock读写锁。设计的时候就觉得,多线程下逻辑有点复杂,很可能会发生死锁,开发完成后进行测试,多线程同时进行查询、插入和删除操作,在测试程序执行了1个小时左右时,果然出现了请求未响应、响应处理慢的情况。
首先要做的是判断问题是否由于死锁导致:
请求没有响应,处理慢,很有可能是处理线程被阻塞,或者是发生未捕获的异常导致线程直接挂掉。开发时候有在自旋锁上增加异常警告日志,如果自旋时间过长,则会打印日志。查看日志信息:
果然打印了此日志,那么就有理由怀疑是死锁导致的了。
接下来是定位死锁发生的位置:
第一种可以使用jamp命令生成dump文件(以前发过的:使用mat工具分析内存占用 或百度用法)。因为我debug是用的idea,所以这里使用的是第二种方法:直接在idea中,分析dump。
接下来,找到请求处理线程,查看对应的调用栈信息。尤其要关注WAIT状态和RUNNING状态的(WAIT状态大概率是读写锁,而自旋锁会占用CPU,RUNNING状态下的也能是自旋锁)。如下:
然后像下图这样将所有由于锁导致等待的线程的加锁过程列出来,可以更清楚的分析是哪里可能发生死锁,哪里可以去优化。
这里很容易就看出了是删除和插入操作在并发时可能导致死锁。修复代码bug完善逻辑,死锁的问题得以解决。