簡明的 Arthas 使用教程

作者：碼農SharkChili 2025-05-08 08:20:00

Arthas已經成為筆者進行線上問題排查的重要手段，本文將從實際使用的角度介紹一下arthas的基本使用技巧，希望對你有幫助。

Arthas是一款強大的開源Java診斷程序，它可以非常方便的啟動并以界面式的方式和Java程序進行交互,支持監控程序的內存使用情況、線程信息、gc情況、甚至可以反編譯并修改現上代碼等。所以它成為筆者進行線上問題排查的重要手段，而本文將從實際使用的角度介紹一下arthas的基本使用技巧，希望對你有幫助。

一、常見的運維操作示例

1. 反編譯查看代碼

上文我們其實已經用到了jad這個反編譯命令，對于筆者來說，jad有兩種比較常見的用法，除了上述那種反編譯類的指令jad --source-only 類的包路徑，還有一種定位方法代碼段的命令jad --source-only 類的包路徑方法名。

例如筆者想定位TestController的deadLock代碼，我們就可以鍵入:

jad --source-only  com.example.arthasExample.TestController deadLock

如下圖，我們可以直接看到的方法的代碼:

2. 查看字段詳情

我們希望看到某個類下所有字段的詳情，我們就可以使用這條命令：

sc -d -f 類的包路徑

例如筆者想查看TestController的字段詳情，就可以鍵入這條命令：

sc -d -f com.example.arthasExample.TestController

可以看到這條指令不僅可以查看字段的定義和注解，還可以查看線程池的使用情況以及集合內部的value：

3. 查看方法列表

這條命令筆者不是很常用，為了教程的完整性筆者也演示一下，假如我們希望查看某個類的方法，可以使用:

sm 類的包路徑

以筆者為例,查看TestController的方法為:

sm com.example.arthasExample.TestController

輸出結果如下:

4. 靜態變量監控

Arthas提供了對靜態變量的分析，以下面這段代碼為例，如果筆者希望看到list 內部詳情，我們就可以使用ognl表達式獲取：

private static List<String> list = new ArrayList<>();


    @RequestMapping("add")
    public void add() {
        for (int i = 0; i < 10; i++) {
            list.add("val" + i);
        }
    }

在我們執行完接口完成添加操作之后，我們可以直接使用ognl進行監控。例如我們希望查看上述list的內容，我們就可以使用命令:

ognl '@類的包路徑@變量名'

所以如果筆者查看list的命令為:

ognl '@com.example.arthasExample.TestController@list'

注意，某些場景下使用ongl表達式查看字段信息需要指明classLoader的hashCode，否則會報錯，所以我們需要通過sc指令先獲取當前類的hashCode：

sc -d com.example.arthasExample.TestController

如下圖TestController的類加載器的哈希碼為68de145:

于是對應的指令我們可以改為ognl -c 68de145 '@com.example.arthasExample.TestController@list'，而輸出結果如下，可以看到變量的類型和數值都可以看到：

當然ognl還有一些比較特殊的用法，例如查看集合的長度，添加元素到集合中等操作，具體可以參考GitHub這個issue:

https://github.com/alibaba/arthas/issues/71:https://github.com/alibaba/arthas/issues/71

二、基于Arthas進行問題診斷

1. 定位CPU 100%問題

CPU 100%問題算是生產環境下最難排查的問題了，在沒有Arthas之前，我們常規的排查思路大致為:

使用top確定是否為java進程。
明確是當前java進程之后，通過jps定位java進程號。
找到最吃資源的線程號。
將線程號轉為十六進制。
通過jstack導出日志并使用全局搜索十六進制線程號定位到問題代碼段。

有了Arthas之后，問題的定位就會簡單快速許多，為了演示這個例子，筆者編寫了一段模擬CPU 100%問題的代碼段:

private static ExecutorService threadPool = Executors.newCachedThreadPool();


    @RequestMapping("cpu-100")
    public static void cpu() {
        //無限循環輸出打印
        new Thread(() -> {
            while (true) {
                log.info("cpu working");
            }
        }, "thread-1").start();
    }

我們不斷請求該地址，不久后你就會發現CPU直接飆升接近100%，此時我們的arthas就派上用場了，首先我們自然是將arthas啟動。

java -jar arthas-boot.jar

此時控制臺會出現下面幾個選項，它通過不同序號標明不同的Java程序，我們看到我們的目標程序ArthasExampleApplication，序號為1，所以我們輸入1按回車。

F:\github>java -jar arthas-boot.jar
[INFO] JAVA_HOME: D:\myinstall\jdk8\jre8
[INFO] arthas-boot version: 3.6.9
[INFO] Found existing java process, please choose one and input the serial number of the process, eg : 1. Then hit ENTER.
* [1]: 18720 com.example.arthasExample.ArthasExampleApplication
  [2]: 19300 org.jetbrains.jps.cmdline.Launcher
  [3]: 7876 org.jetbrains.idea.maven.server.RemoteMavenServer
  [4]: 14488

進入控制臺，我們直接鍵入thread命令可以看到，有一個名為 pool-1-thread-1的線程CPU使用率非常高，所以我們需要定位它所工作的代碼段。

由控制臺可知，它的序號為59，所以我們直接鍵入:

thread 59

很快的，我們直接定位到了問題代碼段，在TestController的42行。

知道了代碼的位置之后，我們根據類的包路徑com.example.arthasExample.TestController直接通過Arthas反編譯查看源碼，命令如下:

jad --source-only  com.example.arthasExample.TestController

最終我們定位到了問題代碼，即時修復即可：

2. 定位線程死鎖問題

對于線程死鎖問題，我們也給出下面這樣一段示例代碼，線程1先取鎖1再取鎖2，線程2反之，兩者取鎖順序構成環路造成死鎖。

//兩把鎖
    private Object lock1 = new Object();
    private Object lock2 = new Object();

    @RequestMapping("dead-lock")
    public void deadLock() {
        //線程1先取得鎖1，休眠后取鎖2
        new Thread(() -> {
            synchronized (lock1) {
                try {
                    log.info("t1 successfully acquired the lock1......");
                    TimeUnit.SECONDS.sleep(5);
                } catch (InterruptedException e) {
                    e.printStackTrace();
                }


                synchronized (lock2) {
                    log.info("t1 successfully acquired the lock1......");
                }
            }
        }, "t1").start();

        //線程2先取得鎖2，休眠后取鎖1
        new Thread(() -> {
            synchronized (lock2) {
                try {
                    log.info("t2 successfully acquired the lock2......");
                    TimeUnit.SECONDS.sleep(5);
                } catch (InterruptedException e) {
                    e.printStackTrace();
                }


                synchronized (lock1) {
                    log.info("t2 successfully acquired the lock1......");
                }
            }
        }, "t2").start();
    }

了解代碼流程之后，我們直接調用這個接口，打開Arthas查看鍵入thread線程信息可以看到我們的t1和t2兩個線程處于等待狀態，大概率存在問題。

隨后我們直接鍵入thread -b，發現t2線程被鎖住了，由此斷定這兩個線程看定存在死鎖，

由上述結果我們可知兩個線程的id分別是65和66，所以使用thread id號的命令直接定位到問題代碼段并解決問題即可。

3. 運行耗時性能問題排查

對于統計耗時的操作我們經常會用打日志的方式來監控，在環境復雜的生產環境，我們常因為欠缺考慮而忘記對某些方法進行監控。同樣的Arthas也為我們提供了一些便捷的命令來完成對方法耗時的監控與統計。

這里筆者這里給出一段UserServiceImpl 模擬用戶查詢時進行參數校驗、其他service調用、redis調用、MySQL調用。

@Service
@Slf4j
public class UserServiceImpl {

    public JSONObject queryUser(Integer uid) throws Exception {
        check(uid);
        service(uid);
        redis(uid);
       return mysql(uid);
    }

    public void service(Integer uid) throws Exception {
        log.info("調用其他service。。。。。");
        TimeUnit.SECONDS.sleep(RandomUtil.randomLong(1, 2));

    }

    public void redis(Integer uid) throws Exception {
        log.info("查看redis緩存數據。。。。。");
        TimeUnit.MILLISECONDS.sleep(RandomUtil.randomInt(100, 200));
    }

    public JSONObject mysql(Integer uid) throws Exception {
        log.info("查詢MySQL數據......");
        TimeUnit.SECONDS.sleep(RandomUtil.randomInt(3, 4));
        JSONObject jsonObject = new JSONObject();
        jsonObject.putOnce("name", "xiaoming");
        jsonObject.putOnce("age", 18);
        return jsonObject;
    }

    public boolean check(Integer uid) throws Exception {
        if (uid == null || uid < 0) {
            log.error("非法用戶id，uid:{}", uid);
            throw new Exception("非法用戶id");
        }
        return true;
    }
}

對應的controller代碼如下，假如我們在生產環境下發現這個接口非常耗時，我們又沒有日志，那么我們如何利用Arthas排查耗時問題呢？

@Autowired
    private UserServiceImpl userService;

    @GetMapping(value = "/user")
    public JSONObject queryUser(Integer uid) throws Exception {
        return userService.queryUser(uid);

    }

我們可以用trace命令，我們首先用trace追蹤一下TestController 的queryUser耗時的調用:

trace com.example.arthasExample.TestController queryUser

可以發現TestController 并無異常，所有的耗時都在UserServiceImpl :

所以我們再對UserServiceImpl 的queryUser進行追蹤：

trace com.example.arthasExample.UserServiceImpl queryUser

完成命令鍵入后，控制臺就會阻塞監控這個方法，然后我們調用一下這個接口，可以發現原來是MySQL查詢非常耗時，由此我們就可以進一步去推斷問題了。

4. 方法耗時統計

有時候我們希望監控某個方法單位時間內請求的耗時和調用情況，我們就可以使用monitor命令，例如我們希望每5s查看TestController 的queryUser的情況，我們就可以鍵入:

monitor  -c 5 com.example.arthasExample.TestController queryUser

可以看到控制臺會每5s輸入請求次數、成功和失敗次數以及平均耗時等信息。

5. 定位出入參錯誤問題

有時候我們希望定位某個日志沒有打到的方法的出入參詳情，例如上面的mysql()的出入參，我們完全可以通過Arthas的watch方法做到，對應命令為:

watch com.example.arthasExample.UserServiceImpl mysql '{params[0],returnObj}'

可以看到，我們的入參為1，出參是一個對象。

更進一步，假如我們希望可以打印出對象的內容，那么我們就可以使用toString方法做到：

watch com.example.arthasExample.UserServiceImpl mysql '{params[0],returnObj.toString()}'

除此之外watch 還支持很多的騷操作，具體可以參考官方文檔:

https://arthas.aliyun.com/doc/watch.html:https://arthas.aliyun.com/doc/watch.html

6. 監控方法調用路徑

還是以上文mysql方法為例，如果我們希望快速定位到它的調用路徑，我們可以使用stack方法:

stack com.example.arthasExample.UserServiceImpl mysql

可以看到詳細的調用路徑直接輸出到控制臺。

7. 獲取方法調用的過程

我們希望查看方法調用時出現異常的原因，出參和入參時，可以使用tt這條指令,例如我們想查看check方法為何會報錯，我們就可以使用tt：

tt -t com.example.arthasExample.UserServiceImpl check

從輸出結果來看，第二次拋出異常了，我們可以基于1001這個索引去定位問題。

tt -i 1001

最終可以得出，入參為-1：

如果我們想重新發起調用，可以直接使用：

tt -i 1001 -p

需要強調的是，tt 命令是將當前環境的對象引用保存起來，但僅僅也只能保存一個引用而已。如果方法內部對入參進行了變更，或者返回的對象經過了后續的處理，那么在 tt 查看的時候將無法看到當時最準確的值。這也是為什么 watch 命令存在的意義。

所以使用完tt指令后，我們建議清除所有的 tt 記錄：

tt --delete-all

8. 內存溢出問題

以下面這段代碼為例，通過不斷發起請求調用，復現OOM問題：

final ThreadPoolExecutor poolExecutor = new ThreadPoolExecutor(100, 100, 1, TimeUnit.MINUTES,
            new LinkedBlockingQueue<>());// 創建線程池，通過線程池，保證創建的線程存活

    @RequestMapping(value = "/oom")
    public String oom(HttpServletRequest request) {
        poolExecutor.execute(() -> {
            Byte[] c = new Byte[4* 1024* 1024];
            localVariable.set(c);// 為線程添加變量

        });
        return "success";
    }

然后通過arthas發現老年代內存幾乎已滿，gc也十分頻繁。

由此我們可以直接使用Arthas的heapdump 導出文件到mat中進行進一步分析。

heapdump D://heap.hprof

導出的結果如下，后續我們就可以點擊detail推斷到問題的源頭了。

最終我們很快速的定位到了問題代碼:

三、Arthas的一些進階操作

1. 線上替換代碼

有時候我們測試難免會遺漏一些情況，如下所示，我們業務要求id小于1才拋出異常，但是我們因為粗心而將判斷條件寫成id<2，結果懵懵懂懂的就將這段代碼部到了生產環境，導致業務查詢出了問題。

@GetMapping(value={"/user/{id}"})
    public JSONObject findUserById(@PathVariable Integer id) {
        log.info("id: {}",id);
        if (id != null && id < 2) {
             throw new IllegalArgumentException("id < 1");
        }
        return new JSONObject().putOnce("name","user"+id).putOnce("age",18);
    }

對于生產環境，我們肯定是無法立刻重啟替換jar包的，對于這類問題，我們完全可以使用arthas實現在線熱更新。

首先第一步，我們將生產環境的字節碼反編譯并導出到本地，如下所示：

jad  --source-only com.example.arthasExample.TestController >  d://TestController.java

然后我們修改一下對應的代碼段

然后我們需要找到這個類對應類加載器的hash碼：

sc -d *TestController | grep classLoaderHash

找到對應hash碼之后，我們就可以基于這個類加載器將修改后的Java文件編譯成字節碼文件:

mc -c 18b4aac2 d://TestController.java -d d://

最后我們將代碼熱更新到正在運行的程序：

redefine d://com/example/arthasExample/TestController.class

此時我們傳1作為參數就不會報錯了，說明代碼熱更新成功了。

2. 獲取spring上下文進行進一步分析操作

有時候我們希望在線上獲取Spring容器分析定位問題，我們完全可以通過arthas攔截到這個類并進行進一步調用和分析。

讀過Spring MVC源碼的讀者可能都知道，每當又HTTP請求發送到web容器時都會進行請求進行映射轉發處理時都會經過RequestMappingHandlerAdapter這個適配器上，查看RequestMappingHandlerAdapter的類圖，可以看到它繼承了WebApplicationObjectSupport，而該類有一個方法getApplicationContext它就可以直接獲得Spring上下文，所以接下來筆者就演示如何通過tt指令獲得RequestMappingHandlerAdapter從而調用getApplicationContext拿到上下文，開始各種騷操作。

首先我們使用tt指令對RequestMappingHandlerAdapter 進行追逐，如下所示，筆者通過-t知名要追蹤的類的全路徑和方法，后續只要有請求調用該方法，tt指令就會顯示追蹤的信息：

tt -t org.springframework.web.servlet.mvc.method.annotation.RequestMappingHandlerAdapter invokeHandlerMethod

然后我們隨便調用一個接口，得到調用記錄：

我們就以索引為1000的調用記錄，通過-w指定ognl獲取到spring上下文并獲取到testController然后完成一個方法調用：

tt -i 1000 -w 'target.getApplicationContext().getBean("testController").findUserById(3)'

如下圖，可以看到，我們成功的完成了調用并得到了返回結果。

四、常見問題

1. arthas統計方法耗時watch指令的原理是什么

watch指令示例如下：

watch com.example.MyService sayHello "{params, result, throwExp} -> { return 'Exception: ' + throwExp; }" -E

我們從指令即可看出他可以獲取到類的全路徑，對此我們不拿理解，它就是基于這個類的全路徑定位到類的全路徑，并對該類型通過字節碼樁技術對類的方法進行增強，即插入一段代碼進行在方法執行前后插入時間，實現耗時統計：

五、小結

自此我們對Arthas的常見操作都已演示完成，更多關于Arthas的使用讀者可以參考Arthas官網，希望對你有幫助：

https://arthas.aliyun.com/doc/:https://arthas.aliyun.com/doc/

責任編輯：趙寧寧來源：寫代碼的SharkChili

Arthas 開源 Java

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看