不停機還能替換代碼?6年的 Java程序員表示不可思議
相信很多人都有這樣一種感受,自己寫的代碼在開發、測試環境跑的穩得一筆,可一到線上就抽風,不是缺這個就是少那個反正就是一頓報錯,而線上調試代碼又很麻煩,讓人頭疼得很。不過, 阿里巴巴出了一款名叫Arthas的工具,可以在線分析診斷Java代碼,讓人眼前一亮。
Arthas 是什么?
Arthas(阿爾薩斯) 是阿里開源的一個Java在線分析診斷工具。
Arthas 能解決啥問題?
在日常開發上線過程中,我們多多少少都會遇到下邊這些問題,苦于無法在線調試,「只能通過老鳥的經驗來硬分析bug,效率上不去還總開口問別人答疑解惑,多少有些不好意思」。
- 這個類從哪個 jar 包加載的?為什么會報各種類相關的 Exception?
- 我改的代碼為什么沒有執行到?難道是我沒 commit?分支搞錯了?
- 遇到問題無法在線上 debug,難道只能通過加日志再重新發布嗎?
- 線上遇到某個用戶的數據處理有問題,但線上同樣無法 debug,線下無法重現!
- 是否有一個全局視角來查看系統的運行狀況?
- 有什么辦法可以監控到JVM的實時運行狀態?
- 線上代碼有錯誤,不想重新發布?那能不能改class文件替換一下?
Arthas兩種安裝、啟動方式
1、jar包啟動
- wget https://alibaba.github.io/arthas/arthas-boot.jar
- java -jar arthas-boot.jar --target-ip 0.0.0.0
首先想用arthas調試項目,服務器必須要有運行著的Java服務,demo-0.0.1-SNAPSHOT.jar就是我啟動的測試項目,啟動arthas后它會自動檢測本地所有的Java服務列出來,我們只需按照序號輸入想要調試的項目即可,選1進入對應進程的arthas交互平臺
- [root@iz2zehzeir87zi8q99krk1z data]# java -jar arthas-boot.jar --target-ip 172.17.72.201
- [INFO] arthas-boot version: 3.1.0
- [INFO] Found existing java process, please choose one and hit RETURN.
- * [1]: 28679 demo-0.0.1-SNAPSHOT.jar
2、在線安裝
- curl -L https://alibaba.github.io/arthas/install.sh | sh
執行上面的命令會在所在的文件中生成as.sh執行文件

啟動arthas
- ./as.sh PID #進程id 指定JAVA進程id
- ./as.sh -h #h來獲取更多參數信息
- 3、遠程連接:
「要想使用arthas服務的 web console必須對外暴露本機ip」
- java -jar arthas-boot.jar --target-ip 172.17.72.201
- java -jar arthas-boot.jar --telnet-port 9999 --http-port -1
- ./as.sh --target-ip 0.0.0.0
- ./as.sh --telnet-port 9999 --http-port -1
訪問arthas控制臺也有兩種方法
「(1)、web console 界面」
「重點說明」:--target-ip 的ip 一定要是arthas所在機器對外暴露的ip,「但如果用的是阿里云機器必須要使用私有ip啟動arthas服務,但訪問必須是公網IP」

「(2)、telnet方式」
- telnet 10.0.2.5 8563

訪問 http://59.110.218.9:8563/ ,進入交互平臺

Arthas 命令使用
1、Dashboard 命令
查看當前系統的實時數據面板,例如:服務器thread信息、內存memory、GC回收等情況

2、Thread(線程監控)
- $ thread -n 3
- "as-command-execute-daemon" Id=57 cpuUsage=72% RUNNABLE
- at sun.management.ThreadImpl.dumpThreads0(Native Method)
- at sun.management.ThreadImpl.getThreadInfo(ThreadImpl.java:448)
- at com.taobao.arthas.core.command.monitor200.ThreadCommand.processTopBusyThreads(ThreadCommand.java:133)
- at com.taobao.arthas.core.command.monitor200.ThreadCommand.process(ThreadCommand.java:79)
- at com.taobao.arthas.core.shell.command.impl.AnnotatedCommandImpl.process(AnnotatedCommandImpl.java:82)
- at com.taobao.arthas.core.shell.command.impl.AnnotatedCommandImpl.access$100(AnnotatedCommandImpl.java:18)
- at com.taobao.arthas.core.shell.command.impl.AnnotatedCommandImpl$ProcessHandler.handle(AnnotatedCommandImpl.java:111)
- at com.taobao.arthas.core.shell.command.impl.AnnotatedCommandImpl$ProcessHandler.handle(AnnotatedCommandImpl.java:108)
- at com.taobao.arthas.core.shell.system.impl.ProcessImpl$CommandProcessTask.run(ProcessImpl.java:370)
- at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
- at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
- at java.lang.Thread.run(Thread.java:748)
- Number of locked synchronizers = 1
- - java.util.concurrent.ThreadPoolExecutor$Worker@a2f70c7
「可以看到這個線程是被synchroned關鍵字鎖導致的阻塞」 ,目前只支持找出synchronized關鍵字阻塞住的線程, 如果是java.util.concurrent.Lock, 目前還不支持。
- Number of locked synchronizers = 1
- - java.util.concurrent.ThreadPoolExecutor$Worker@a2f70c7
- thread -n 3 #當前最忙的前N個線程
- thread -b, ##找出當前阻塞其他線程的線程
- thread -n 3 -i 1000 #間隔一定時間后展示
「重點學習」:thread -b, ##「找出當前阻塞其他線程的線程」
3、JVM (jvm實時運行狀態,內存使用情況等)
- $ jvm
- RUNTIME
- --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
- MACHINE-NAME 28679@iz2zehzeir87zi8q99krk1z
- JVM-START-TIME 2019-03-28 17:32:16
- MANAGEMENT-SPEC-VERSION 1.2
- SPEC-NAME Java Virtual Machine Specification
- SPEC-VENDOR Oracle Corporation
- SPEC-VERSION 1.8
- VM-NAME Java HotSpot(TM) 64-Bit Server VM
- VM-VENDOR Oracle Corporation
- VM-VERSION 25.191-b12
- INPUT-ARGUMENTS []
- CLASS-PATH demo-0.0.1-SNAPSHOT.jar
- BOOT-CLASS-PATH /usr/local/jdk/jre/lib/resources.jar:/usr/local/jdk/jre/lib/rt.jar:/usr/local/jdk/jre/lib/sunrsasign.jar:/usr/local/jdk/jre/lib/jsse.jar:/usr/local/jdk/jre/lib/jce.jar
- :/usr/local/jdk/jre/lib/charsets.jar:/usr/local/jdk/jre/lib/jfr.jar:/usr/local/jdk/jre/classes
- LIBRARY-PATH /usr/java/packages/lib/amd64:/usr/lib64:/lib64:/lib:/usr/lib
4、trace (當前方法內部調用路徑,路徑上每個節點的耗時)
- $ trace #類名 #方法名

對于執行耗時相對較長的方法,調用鏈路耗時屬性會高亮顯示方便排查

參數 -j 可以過濾jdk的函數 trace -j com.example.demo.controller index2 參數 #cost 可以按執行耗時毫秒ms過濾 trace -j com.example.demo.controller index2 ’#cost >10‘
5、watch
當前方法執行數據觀測,能觀察到的范圍為:返回值、拋出異常、入參
- $ trace #類名 #方法名 "{params,target,returnObj,throwExp }"
- OGNL 表達式 {params,target,returnObj,throwExp }
throwExp:異常 params :入參(數組),單個參數params【0】 returnObj:返回值
- $ watch com.example.demo.controller index2 "{params,target,returnObj}" -x 5
- Press Q or Ctrl+C to abort.
- Affect(class-cnt:1 , method-cnt:1) cost in 81 ms.
- ts=2019-03-29 14:24:14; [cost=1000.746582ms] result=@ArrayList[
- @Object[][
- @String[辛志富],
- ],
- @controller[
- ],
- @String[index2],
- ]
6、stack
當前方法被調用的路徑,顯示當前方法被那些方法調用
- public static String uuidOne() {
- return uuidTwo();
- }
- public static String uuidTwo() {
- return UUID.randomUUID().toString().replaceAll("-", "");
- }
- $ stack com.example.demo.controller uuidTwo
- Press Q or Ctrl+C to abort.
- Affect(class-cnt:1 , method-cnt:1) cost in 58 ms.
- ts=2019-03-29 14:38:19;thread_name=http-nio-8888-exec-5;id=13;is_daemon=true;priority=5;TCCL=org.springframework.boot.web.embedded.tomcat.TomcatEmbeddedWebappClassLoader@525b461a
- @com.example.demo.controller.uuidOne()
- at com.example.demo.controller.index2(controller.java:31)
- at sun.reflect.GeneratedMethodAccessor36.invoke(null:-1)
- at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
7、monitor 命令
監控類、方法的調用進行監控,調用次數、成功次數、失敗次數、平均響應時長、失敗率等
- $ monitor -c 4 com.example.demo.controller uuidTwo
- Press Q or Ctrl+C to abort.
- Affect(class-cnt:1 , method-cnt:1) cost in 56 ms.
- timestamp class method total success fail avg-rt(ms) fail-rate
- --------------------------------------------------------------------------------------------------------
- 2019-03-29 14:55:40 com.example.demo.controller uuidTwo 7 7 0 0.18 0.00%
8、classloader 命令
將JVM中所有的類加載器統計出來,樹狀展示
- $ classloader #每種classloader加載類的個樹
- name numberOfInstances loadedCountTotal
- org.springframework.boot.loader.LaunchedURLClassLoader 1 4463
- com.taobao.arthas.agent.ArthasClassloader 2 3631
- BootstrapClassLoader 1 2961
- java.net.FactoryURLClassLoader 1 835
- sun.misc.Launcher$AppClassLoader 1 46
- sun.reflect.DelegatingClassLoader 41 41
- sun.misc.Launcher$ExtClassLoader 1 25
- Affect(row-cnt:7) cost in 7 ms.
- $ classloader -t # 類加載器間的層級關系
- +-BootstrapClassLoader
- +-sun.misc.Launcher$ExtClassLoader@1959f618
- +-com.taobao.arthas.agent.ArthasClassloader@5fc476c6
- +-com.taobao.arthas.agent.ArthasClassloader@5017e14b
- +-sun.misc.Launcher$AppClassLoader@5c647e05
- +-java.net.FactoryURLClassLoader@4ad317f0
- +-org.springframework.boot.loader.LaunchedURLClassLoader@20ad9418
- Affect(row-cnt:7) cost in 5 ms
線上代碼熱更新(動態修改上線項目代碼)
手動在代碼中拋異常,「不停機不重新發包的情況下,修改線上代碼」

啟動服務也達到我們預期異常
「替換代碼的流程:」
1、jad命令 將需要更改的文件先進行反編譯,保存下來 ,編譯器修改
- $ jad --source--only com.example.demo.DemoApplication > /data/DemoApplication.java

在這里插入圖片描述
修改完以后需要將類重新加載到JVM
2、SC命令 查找當前類是哪個classLoader加載的
- $ sc -d *DemoApplication | grep classLoader
- classLoaderHash 20ad9418 #類加載器 編號
- $ sc -d *DemoApplication | grep classLoader
- classLoaderHash 20ad9418 #類加載器 編號
3、MC命令 用指定的classloader重新將類在內存中編譯
- $ mc -c 20ad9418 /data/DemoApplication.java -d /data
- Memory compiler output:
- /data/com/example/demo/DemoApplication.class
4、redefine命令 將編譯后的類加載到JVM
上邊編譯后的.class文件地址
- $ redefine /data/com/example/demo/DemoApplication.class
- redefine success, size: 1
「文件替換后我們再次訪問一下程序,發現異常沒有了程序已經是我們修改正確后的,class文件替換成功」

總結
這樣我們就用arthas現實了不停機、不發包替換了生產環境的Java代碼,功能確實比較強大,本文只揭開了arthas強大功能的冰山一角,后續將出更詳細的文章,方便大家一起學習。
越懶越勤快
arthas的整體功能雖然很強大,但命令行的輸入方式讓我頭疼不已,歲數大了記憶力真的下降嚴重,而且作為一個賊 TM 懶的程序員,讓我去記住如此多的命令和參數,簡直是要了老命。又一次因為懶讓我勤快起來,我決定做個arthas命令可視化平臺。

「設計初衷」:設計這個平臺的初衷很簡單,就是讓程序員們把更多的精力放在問題的排查上,而不是記那么多枯燥無趣的命令。本身我也不是一個愿意死記硬背的人,覺得腦子里還是應該多放一些有趣、有意義的東西。可能在用慣了命令行的大佬眼里,這個功能比較雞肋,甚至有點多余,但畢竟像我這樣平凡的人更多一些,每天還陷入在重復的工作當中,工作量能減一點就多輕松一點嘛。