簡明的 Arthas 入門教程
Arthas是一款強大的開源Java診斷程序,它可以非常方便的啟動并以界面式的方式和Java程序進行交互,支持監(jiān)控程序的內存使用情況、線程信息、gc情況、甚至可以反編譯并修改現(xiàn)上代碼等。
如下圖,arthas的運行原理大致是以下幾個步驟:
- 啟動arthas選擇目標Java程序后,artahs會向目標程序注入一個代理。
- 代理會創(chuàng)建一個集HTTP和Telnet的服務器與客戶端建立連接。
- 客戶端與服務端建立連接。
- 后續(xù)客戶端需要監(jiān)控或者調整程序都可以通過服務端Java Instrumentation機制和應用程序產生交互。
為了讓讀者可以快速了并熟練掌握Arhtas的基本使用,筆者就以幾個比較常見的例子來演示一下Arthas的日常使用的常規(guī)套路。
詳解Arthas配置與使用
快速開始
在介紹幾個典型的案例之前,我們需要先下載一下Arthas,并了解Arthas的一些簡單的使用方式(注意:筆者為了方便演示所用的環(huán)境都是基于win 10,對于Linux環(huán)境而言操作也差不多),Arthas的官方地址如下:
https://arthas.aliyun.com/
考慮到方便筆者一般是使用命令行的方式下載:
curl -O https://arthas.aliyun.com/arthas-boot.jar
完成后我們通過下面這個命令就可以將Arthas啟動了。
java -jar arthas-boot.jar
可以看到剛剛進入界面時,Arthas就會分別為每個服務器中正在運行的Java程序標上序號,我們只需輸入對應序號并點擊回車即可進行對目標程序的監(jiān)控,為了演示筆者任意選擇一個2,并點擊回車。
隨后我們就進入的交互界面,如下圖:
Arthas最常用的監(jiān)控指令就是dashboard,對于dashboard的使用說明,我們可以像使用Linux一下在dashboard命令后面追加一個--help。
如下圖所示,可以看出dashboard的用法大抵是這樣的:
- 默認參數(shù)都不加,每隔5s刷新一次面板。
- -i 指定刷新面板間隔。
- -n 指定刷新次數(shù)。
所以假如我們希望每10s刷新一次,重復執(zhí)行3次的指令就是:
dashboard -i 10000 -n 3
此時面板就會每隔10s刷新一次界面,監(jiān)控界面如下圖所示,從圖中不難看出dashboard大抵范圍3個板塊:
- 線程信息版塊,對應的列名分別是:id、線程名、所屬線程組、優(yōu)先級、線程運行狀態(tài)、cpu使用率、延遲時間、運行時間、是否被打斷。
- 內存使用版塊,大體都是記錄著各代內存和gc情況。
- 服務器運行參數(shù)版塊,這一版塊記錄著程序當前運行服務器的內核版本信息、jdk版本等。
在Arthas中,如果我們希望退出dashboard直接按ctrl+c即可,如果我們希望退出當前Java程序的交互界面,輸入exit即可。
定位CPU 100%問題
CPU 100%問題算是生產環(huán)境下最難排查的問題了,在沒有Arthas之前,我們常規(guī)的排查思路大致為:
- 使用top確定是否為java進程。
- 如果是,則使用jps定位Java進程號。
- 找到最吃資源的線程號。
- 將線程號轉為十六進制。
- 通過jstack導出日志并使用全局搜索十六進制線程號定位到問題代碼段。
如上所述,是不是很繁瑣呢?有了Arthas之后,問題的定位就會簡單快速許多,為了演示這個例子,筆者使用Spring Boot項目編寫了一段模擬CPU 100%問題的代碼段,可以看到筆者使用:
/**
* 一個線程數(shù)只有1的線程池
*/
private static ExecutorService threadPool = Executors.newCachedThreadPool();
@RequestMapping("cpu-100")
public static void cpu() {
loopThread();
cpuHigh();
}
/**
* 極度消耗CPU的線程
*/
private static void cpuHigh() {
// 添加到線程
threadPool.submit(() -> {
while (true) {
log.info("cpu working");
}
});
}
/**
* 無限循環(huán)的線程
*/
private static void loopThread() {
for (int i = 0; i < 10; i++) {
new Thread(() -> {
while (true) {
log.info("死循環(huán)線程工作中");
try {
Thread.sleep(3000);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}, "thread" + i).start();
}
}
完成編寫后,我們將項目啟動并請求該地址,不久后你就會發(fā)現(xiàn)CPU直接飆升接近100%,此時我們的arthas就派上用場了,首先我們自然是將arthas啟動。
java -jar arthas-boot.jar
此時控制臺會出現(xiàn)下面幾個選項,它通過不同序號標明不同的Java程序,我們看到我們的目標程序ArthasExampleApplication,序號為1,所以我們輸入1按回車。
F:\github>java -jar arthas-boot.jar
[INFO] JAVA_HOME: D:\myinstall\jdk8\jre8
[INFO] arthas-boot version: 3.6.9
[INFO] Found existing java process, please choose one and input the serial number of the process, eg : 1. Then hit ENTER.
* [1]: 18720 com.example.arthasExample.ArthasExampleApplication
[2]: 19300 org.jetbrains.jps.cmdline.Launcher
[3]: 7876 org.jetbrains.idea.maven.server.RemoteMavenServer
[4]: 14488
進入控制臺,我們直接鍵入thread命令可以看到,有一個名為 pool-1-thread-1的線程CPU使用率非常高,所以我們需要定位它所工作的代碼段。
由控制臺可知,它的序號為59,所以我們直接鍵入:
thread 59
很快的,我們直接定位到了問題代碼段,在TestController的42行。
知道了代碼的位置之后,我們根據(jù)類的包路徑com.example.arthasExample.TestController直接通過Arthas反編譯查看源碼,命令如下:
jad --source-only com.example.arthasExample.TestController
最終我們定位到了問題代碼,即時修復即可。
定位線程死鎖問題
對于線程死鎖問題,我們也給出下面這樣一段示例代碼,線程1先取鎖1再取鎖2,線程2反之,兩者取鎖順序構成環(huán)路造成死鎖。
//兩把鎖
private Object lock1 = new Object();
private Object lock2 = new Object();
@RequestMapping("dead-lock")
public void deadLock() {
//線程1先取得鎖1,休眠后取鎖2
new Thread(() -> {
synchronized (lock1) {
try {
log.info("t1 successfully acquired the lock1......");
TimeUnit.SECONDS.sleep(5);
} catch (InterruptedException e) {
e.printStackTrace();
}
synchronized (lock2) {
log.info("t1 successfully acquired the lock1......");
}
}
}, "t1").start();
//線程2先取得鎖2,休眠后取鎖1
new Thread(() -> {
synchronized (lock2) {
try {
log.info("t2 successfully acquired the lock2......");
TimeUnit.SECONDS.sleep(5);
} catch (InterruptedException e) {
e.printStackTrace();
}
synchronized (lock1) {
log.info("t2 successfully acquired the lock1......");
}
}
}, "t2").start();
}
了解代碼流程之后,我們直接調用這個接口,打開Arthas查看鍵入thread線程信息可以看到我們的t1和t2兩個線程處于等待狀態(tài),大概率存在問題。
隨后我們直接鍵入thread -b,發(fā)現(xiàn)t2線程被鎖住了,由此斷定這兩個線程看定存在死鎖,
由上述結果我們可知兩個線程的id分別是65和66,所以使用thread id號的命令直接定位到問題代碼段并解決問題即可。
反編譯查看代碼
上文我們其實已經(jīng)用到了jad這個反編譯命令,對于筆者來說,jad有兩種比較常見的用法,除了上述那種反編譯類的指令jad --source-only 類的包路徑,還有一種定位方法代碼段的命令jad --source-only 類的包路徑 方法名。
例如筆者想定位TestController的deadLock代碼,我們就可以鍵入:
jad --source-only com.example.arthasExample.TestController deadLock
如下圖,我們可以直接看到的方法的代碼:
定位字段信息(不常用)
我們希望看到某個類下所有字段的詳情,我們就可以使用這條命令
sc -d -f 類的包路徑
例如筆者想查看TestController的字段詳情,就可以鍵入這條命令
sc -d -f com.example.arthasExample.TestController
可以看到這條指令不僅可以查看字段的定義和注解,還可以查看線程池的使用情況以及集合內部的value。
查看方法列表(不常用)
這條命令筆者不是很常用,為了教程的完整性筆者也演示一下,假如我們希望查看某個類的方法,可以使用:
sm 類的包路徑
以筆者為例,查看TestController的方法為:
sm com.example.arthasExample.TestController
輸出結果如下:
靜態(tài)變量監(jiān)控(常用)
Arthas提供了對靜態(tài)變量的分析,以下面這段代碼為例,如果筆者希望看到list 內部詳情,我們就可以使用ognl。
private static List<String> list = new ArrayList<>();
@RequestMapping("add")
public void add() {
for (int i = 0; i < 10; i++) {
list.add("val" + i);
}
}
在我們執(zhí)行完接口完成添加操作之后,我們可以直接使用ognl進行監(jiān)控。例如我們希望查看上述list的內容,我們就可以使用命令:
ognl '@類的包路徑@變量名'
所以如果筆者查看list的命令為:
ognl '@com.example.arthasExample.TestController@list'
輸出結果如下:
當然ognl還有一些比較特殊的用法,例如查看集合的長度,添加元素到集合中等操作,具體可以參考GitHub這個issue:
https://github.com/alibaba/arthas/issues/71
運行耗時性能問題排查
對于統(tǒng)計耗時的操作我們經(jīng)常會用打日志的方式來監(jiān)控,在環(huán)境復雜的生產環(huán)境,我們常因為欠缺考慮而忘記對某些方法進行監(jiān)控。 同樣的Arthas也為我們提供了一些便捷的命令來完成對方法耗時的監(jiān)控與統(tǒng)計:
筆者這里給出一段UserServiceImpl 模擬用戶查詢時進行參數(shù)校驗、其他service調用、redis調用、MySQL調用。
@Service
@Slf4j
public class UserServiceImpl {
public JSONObject queryUser(Integer uid) throws Exception {
check(uid);
service(uid);
redis(uid);
return mysql(uid);
}
public void service(Integer uid) throws Exception {
log.info("調用其他service。。。。。");
TimeUnit.SECONDS.sleep(RandomUtil.randomLong(1, 2));
}
public void redis(Integer uid) throws Exception {
log.info("查看redis緩存數(shù)據(jù)。。。。。");
TimeUnit.MILLISECONDS.sleep(RandomUtil.randomInt(100, 200));
}
public JSONObject mysql(Integer uid) throws Exception {
log.info("查詢MySQL數(shù)據(jù)......");
TimeUnit.SECONDS.sleep(RandomUtil.randomInt(3, 4));
JSONObject jsonObject = new JSONObject();
jsonObject.putOnce("name", "xiaoming");
jsonObject.putOnce("age", 18);
return jsonObject;
}
public boolean check(Integer uid) throws Exception {
if (uid == null || uid < 0) {
log.error("非法用戶id,uid:{}", uid);
throw new Exception("非法用戶id");
}
return true;
}
}
對應的controller代碼如下,假如我們在生產環(huán)境下發(fā)現(xiàn)這個接口非常耗時,我們又沒有日志,那么我們如何利用Arthas排查耗時問題呢?
@Autowired
private UserServiceImpl userService;
@GetMapping(value = "/user")
public JSONObject queryUser(Integer uid) throws Exception {
return userService.queryUser(uid);
}
我們可以用trace命令,我們首先用trace追蹤一下TestController 的queryUser耗時的調用:
trace com.example.arthasExample.TestController queryUser
可以發(fā)現(xiàn)TestController 并無異常,所有的耗時都在UserServiceImpl:
所以我們再對UserServiceImpl 的queryUser進行追鐘。
trace com.example.arthasExample.UserServiceImpl queryUser
完成命令鍵入后,控制臺就會阻塞監(jiān)控這個方法,然后我們調用一下這個接口,可以發(fā)現(xiàn)原來是MySQL查詢非常耗時,由此我們就可以進一步去推斷問題了。
方法耗時統(tǒng)計
有時候我們希望監(jiān)控某個方法單位時間內請求的耗時和調用情況,我們就可以使用monitor命令,例如我們希望每5s查看TestController 的queryUser的情況,我們就可以鍵入:
monitor -c 5 com.example.arthasExample.TestController queryUser
可以看到控制臺會每5s輸入請求次數(shù)、成功和失敗次數(shù)以及平均耗時等信息。
定位出入?yún)㈠e誤問題
有時候我們希望定位某個日志沒有打到的方法的出入?yún)⒃斍椋缟厦娴膍ysql()的出入?yún)ⅲ覀兺耆梢酝ㄟ^Arthas的watch方法做到,對應命令為:
watch com.example.arthasExample.UserServiceImpl mysql '{params[0],returnObj}'
可以看到,我們的入?yún)?,出參是一個對象。
更進一步,假如我們希望可以打印出對象的內容,那么我們就可以使用toString方法做到:
watch com.example.arthasExample.UserServiceImpl mysql '{params[0],returnObj.toString()}'
除此之外watch 還支持很多的騷操作,具體可以參考官方文檔:https://arthas.aliyun.com/doc/watch.html
監(jiān)控方法調用路徑
還是以上文mysql方法為例,如果我們希望快速定位到它的調用路徑,我們可以使用stack方法:
stack com.example.arthasExample.UserServiceImpl mysql
可以看到詳細的調用路徑直接輸出到控制臺。
獲取方法調用的過程
我們希望查看方法調用時出現(xiàn)異常的原因,出參和入?yún)r,可以使用tt這條指令,例如我們想查看check方法為何會報錯,我們就可以使用tt:
tt -t com.example.arthasExample.UserServiceImpl check
從輸出結果來看,第二次拋出異常了,我們可以基于1001這個索引去定位問題。
tt -i 1001
最終可以得出,入?yún)?1:
如果我們想重新發(fā)起調用,可以直接使用:
tt -i 1001 -p
oom問題
以下面這段代碼為例,筆者將堆內存改為100m,命令為-Xms100m -Xmx100m,啟動后直接重現(xiàn)oom問題:
final ThreadPoolExecutor poolExecutor = new ThreadPoolExecutor(100, 100, 1, TimeUnit.MINUTES,
new LinkedBlockingQueue<>());// 創(chuàng)建線程池,通過線程池,保證創(chuàng)建的線程存活
@RequestMapping(value = "/oom")
public String oom(HttpServletRequest request) {
poolExecutor.execute(() -> {
Byte[] c = new Byte[4* 1024* 1024];
localVariable.set(c);// 為線程添加變量
});
return "success";
}
然后通過arthas發(fā)現(xiàn)老年代內存幾乎已滿,gc也十分頻繁。
由此我們可以直接使用Arthas的heapdump 導出文件到mat中進行進一步分析。
heapdump D://heap.hprof
導出的結果如下,后續(xù)我們就可以點擊detail推斷到問題的源頭了。
最終我們很快速的定位到了問題代碼:
線上替換代碼
有時候我們測試難免會遺漏一些情況,如下所示,我們業(yè)務要求id小于1才拋出異常,但是我們因為粗心而將判斷條件寫成id<2,結果懵懵懂懂的就將這段代碼部到了生產環(huán)境,導致業(yè)務查詢出了問題。
@GetMapping(value={"/user/{id}"})
public JSONObject findUserById(@PathVariable Integer id) {
log.info("id: {}",id);
if (id != null && id < 2) {
throw new IllegalArgumentException("id < 1");
}
return new JSONObject().putOnce("name","user"+id).putOnce("age",18);
}
對于生產環(huán)境,我們肯定是無法立刻重啟替換jar包的,對于這類問題,我們完全可以使用arthas實現(xiàn)在線熱更新。
首先第一步,我們將生產環(huán)境的字節(jié)碼反編譯并導出到本地,如下所示:
jad --source-only com.example.arthasExample.TestController > d://TestController.java
然后我們修改一下對應的代碼段:
然后我們需要找到這個類對應類加載器的hash碼:
sc -d *TestController | grep classLoaderHash
找到對應hash碼之后,我們就可以基于這個類加載器將修改后的Java文件編譯成字節(jié)碼文件:
mc -c 18b4aac2 d://TestController.java -d d://
最后我們將代碼熱更新到正在運行的程序:
redefine d://com/example/arthasExample/TestController.class
此時我們傳1作為參數(shù)就不會報錯了,說明代碼熱更新成功了。
獲取spring上下文進行進一步分析操作
有時候我們希望在線上獲取Spring容器分析定位問題,我們完全可以通過arthas攔截到這個類并進行進一步調用和分析。
讀過Spring MVC源碼的讀者可能都知道,每當又HTTP請求發(fā)送到web容器時請求進行映射轉發(fā)處理時都會經(jīng)過RequestMappingHandlerAdapter,從下面的類圖不難看出它繼承了WebApplicationObjectSupport,而該類有一個方法getWebApplicationContext可以讓我們獲取到spring容器的上下文,進而去分析管理spring容器。
所以我們可以使用arthas的tt指令追蹤這個類的調用:
tt -t org.springframework.web.servlet.mvc.method.annotation.RequestMappingHandlerAdapter invokeHandlerMethod
然后我們隨便調用一個接口,得到調用記錄:
我們就以索引為1000的調用記錄,通過-w指定ognl獲取到spring上下文并獲取到testController然后完成一個方法調用。
tt -i 1000 -w 'target.getApplicationContext().getBean("testController").findUserById(3)'
如下圖,可以看到,我們成功的完成了調用并得到了返回結果。
小結
自此我們對Arthas的常見操作都已演示完成,更多關于Arthas的使用讀者可以參考Arthas官網(wǎng),希望對你有幫助:https://arthas.aliyun.com/doc/