應用服務器發生內存溢出怎么辦?兩個工具幫你解決問題
問題描述
對于B/S架構的J2EE應用系統,應用服務器發生內存溢出(OutOfMemoryError)錯誤是非常棘手的問題,解決問題的關鍵是要定位哪里出了問題。一般內存溢出的原因有以下幾類:
Jvm內存參數設置不合理
如:
- -Xmx設置的比較小
- -Xms設置的過大
- sun的jvm沒有設置
- -XX:MaxPermSize大小等等
由于參數設置問題導致的內存溢出往往容易發現,調整一下參數,問題基本就可以解決。
應用服務器缺少必要的補丁
例如Websphere的某些版本存在很多性能缺陷,某些情況下也會導致內存溢出,打上補丁后,問題基本可以得到解決。
應用程序代碼存在缺陷
此類問題是內存溢出最常見的原因,解決起來也最麻煩,本文主要描述這類內存溢出問題如何進行分析和定位。
解決方案
工欲善其事,必先利其器,有了好的工具,解決問題往往能起到事半功倍的作用,很多時候沒有工具支持,問題很難解決。
本文主要涉及到2個工具的運用:
- 分析JavaCore的工具:IBM Thread and Monitor Dump Analyzer for Java。
- 分析Heapdump的工具:Eclipse Memory Analyzer。
通過這2個工具,一般的內存溢出問題基本可以定位。
在介紹這2個工具之前,先對一些相關概念做下解釋說明:
Heapdump
某一時刻Java進程內存的快照,記錄當時內存中各對象的存儲和引用關系等。Heapdump中不包含對象的調用信息,即無法從Heapdump中看出某個對象是哪段程序代碼生成出來的。
JavaCore
某一時刻Java進程中線程的快照,記錄當時所有線程的執行堆棧信息等。JavaCore中可以看到各線程都在處理哪些程序代碼,可以看到當前Java都在“做什么事”,在線程的執行堆棧中,有代碼的調用信息,也有對象生成的相關信息等。
兩種內存溢出
內存溢出一般分兩種,內存使用過度和內存泄露。
- 使用過度指在短時間內急劇耗盡大量內存導致內存溢出。
- 內存泄露指長時間內,內存逐漸耗盡導致內存溢出,時間可能是幾個小時或幾天(通過開啟詳細垃圾回收可以清晰地觀察到內存的分配情況)。
Java系統的內存溢出大部分都是由于內存使用過度導致,內存泄露比較少見。本文后面介紹的也都是關于內存使用過度導致內存溢出的分析方法。
對于內存使用過度導致的內存溢出,可以通過Heapdump和JavaCore結合分析定位問題,對于內存泄露,主要還是分析Heapdump。
當Java進程出現內存溢出錯誤時,通常會生成Heapdump文件和JavaCore文件,例如Websphere部署的web應用,當出現內存溢出時,會在如下目錄
/opt/IBM/WebSphere/AppServer/profiles/server1看到出現類似這樣的文件:
Heapdump.*.phd文件記錄Heapdump信息,javacore.*.txt記錄JavaCore信息,一般內存溢出時會出現多個phd文件和JavaCore文件,分析時用其中一個即可。
下面就介紹如何通過工具分析這2個文件,如何通過對這2個文件的分析定位出內存溢出(內存使用過度導致)的原
1. 分析 javacore
Javacore 的分析工具 IBM Thread and Monitor Dump Analyzer for Java(簡稱 JCA),以圖形化的方式展現 java 線程的堆棧信息及相互關系等。下面是工具使用的截圖:
對于 Websphere,主要關注 WebContainer 線程的執行堆棧情況,上圖顯示WebContainer:57 號線程的執行堆棧。Javacore 文件本身就是個文本文件,直接通過文本編輯器如 editplus 也可以打開,下面是用文本編輯器打開 javacore 文件后看到的WebContainer:57 號線程的執行堆棧:
可以看到,通過 JCA 打開 javacore 和通過 editplus 打開 javacore,沒有本質的區別,只是展現形式有所區別而已,有關 JCA 工具的具體使用這里不作詳細介紹。分析 javacore的重點是根據每個線程的堆棧信息找出哪個或哪幾個線程導致 java 進程的內存溢出,對應線程堆棧中的代碼段就是罪魁禍首。例如,如果通過分析得到 WebContainer:57 號線程可能導致內存溢出,那么 57 號線程中的這段代碼就是問題所在。
為什么是 WebContainer:57 號線程有問題,而不是其它線程呢?這就需要結合heapdump 進行綜合分析,下面會有詳細介紹。
2. 分析 Heapdump
Heapdump 的分析工具推薦 Eclipse Memory Analyzer(簡稱 MAT),該工具比 IBM 的HA(Heap Analyzer)工具更強大,更易使用。下面是工具的使用截圖:
該工具可以看到對象占用內存的大小、對象的個數等信息,通過分析占用內存比例最大的對象,可以初步判斷是哪個對象導致的內存溢出,有關 MAT 工具的具體使用這里不作詳細介紹。heapdump 分析的重點是找到占用內存最大的“業務對象”,所謂業務對象,就是和應用業務相關的對象,需要能靠到應用程序上。例如上圖所示,雖然java.lang.String 比 DicRestrict 對象占用的內存要多,但是我們做分析時應該重點關注DicRestrict 對象,因為 String 對象是通用的業務無關對象,可能很多業務對象都會引用它。Heapdump 分析需要結合業務知識,需要相當的開發和業務經驗。
3. 雙劍合并
Javacore 和 heapdump 的單獨分析,都只是看到了事情的一面,通過一定方法將二者有機的結合起來,問題基本就可以水落石出了。