線上問題排查指南

作者：蘇三 2024-08-14 14:20:00

開發前端

OOM問題在生產環境中，一旦出現，一般會是非常嚴重的問題，服務可能會掛掉。但是OOM問題有多種情況，不同的情況，出現問題的原因不一樣。

前言

最近經常有小伙伴問我，遇到了線上問題要如何快速排查。

這非常考驗工作經驗了。

有些問題你以前遇到，如果再遇到類似的問題，就能很快排查出導致問題的原因。

但如果某個問題你是第一次遇到，心中可能會有點無從下手的感覺。

這篇文章總結了，我之前遇到過的一些線上問題排查思路，希望對你會有所幫助。

1.OOM問題

OOM問題在生產環境中，一旦出現，一般會是非常嚴重的問題，服務可能會掛掉。

但是OOM問題有多種情況，不同的情況，出現問題的原因不一樣。

（1）堆內存OOM

服務器的日志一般會打印下面的內容：

java.lang.OutOfMemoryError: Java heap space

這種是出現最多的OOM問題。

在Java服務啟動時，可以增加下面的參數：

-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=heapdump.hprof

在發生OOM時，程序會自動把當時的內存使用情況，dump保存到指定的文件。

然后使用MAT（Memory Analyzer Tool），或者使用JDK自帶的 Java visualvm，來分析dump 文件，找出導致OOM 的代碼。

（2）棧內存OOM

出現棧內存OOM問題的異常信息如下：

java.lang.OutOfMemoryError: unable to create new native thread

如果實際工作中，出現這個問題，一般是由于創建的線程太多，或者設置的單個線程占用內存空間太大導致的。

這個時候需要排查服務的線程數量。

推薦使用線程池，可以減少線程的創建，有效控制服務中的線程數量。

（3）棧內存溢出

出現棧內存溢出問題的異常信息如下：

java.lang.StackOverflowError

該問題一般是由于業務代碼中寫的一些遞歸調用，遞歸的深度超過了JVM允許的最大深度，可能會出現棧內存溢出問題。

如果生產環境中，出現了這個問題，可以排查一下遞歸調用是否正常，有可能出現了無限遞歸的情況。

（4）GC OOM

出現GC OOM問題時異常信息如下：

java.lang.OutOfMemoryError: GC overhead limit exceeded

GC OOM一般是由于JVM在GC時，對象過多，導致內存溢出，建議調整GC的策略。

在老代80%時就是開始GC，并且將-XX:SurvivorRatio（-XX:SurvivorRatio=8）和-XX:NewRatio（-XX:NewRatio=4）設置的更合理。

（5）元空間OOM

出現元空間OOM問題時異常信息如下：

java.lang.OutOfMemoryError: Metaspace

JDK8之后使用Metaspace來代替永久代，Metaspace是方法區在HotSpot中的實現。

這個問題一般是由于加載到內存中的類太多，或者類的體積太大導致的。

如果生產環境中出現了這個問題，可以通過下面的命令修改元空間大小：

-XX:MetaspaceSize=10m -XX:MaxMetaspaceSize=10m

我在這里列舉了OOM問題的最常見的情況。

2.CPU100%問題

線上服務出現CPU100%問題，也很常見。

出現這個問題，是由于服務長時間占用CPU資源導致的。

主要原因有下面這幾種：

定位這個問題，可以使用JDK自帶的jstack工具，或者用阿里開源的Arthas探測工具。

3.接口超時問題

不知道你有沒有遇到過這樣的場景：我們提供的某個API接口，響應時間原本一直都很快，但在某個不經意的時間點，突然出現了接口超時。

導致接口超時的原因有很多，我們需要挨個逐一排查。

下面這張圖中給大家列舉出現了，生產環境接口突然出現超時問題時的常見原因：

4.索引失效問題

不知道你有沒有遇到過，生成環境明明創建了索引，但數據庫在執行SQL的過程中，索引竟然失效了。

由于索引失效，讓之前原本很快的操作，一下子變得很慢，影響了接口的性能。

我們可以通過explain關鍵字，查看sql的執行計劃，可以確認索引是否失效。

如果索引失效了，可能是哪些原因導致的問題呢？

下面這張圖給大家列舉了常見原因：

5.死鎖問題

如果你使用的是MySQL數據庫，在生產環境肯定遇到死鎖問題。

死鎖是指兩個或多個事務在執行過程中，因爭奪資源而造成的一種互相等待的現象，若無外力作用，這些事務將無法繼續向前推進。

在Java中，使用MySQL數據庫時，如果遇到MySQLTransactionRollbackException: Deadlock found when trying to get lock; try restarting transaction異常，意味著數據庫檢測到了死鎖。

MySQL死鎖通常由以下原因造成：

資源競爭：多個事務同時競爭相同的資源，比如都試圖獲取對方持有的鎖。
循環等待：事務之間形成了一種互相等待對方釋放資源的循環關系。
不當的事務設計：事務執行順序不合理、執行時間過長等。
并發操作沖突：在高并發環境下，多個事務對同一組數據進行操作，容易引發鎖沖突導致死鎖。
索引使用不當：如果索引設計不合理，可能導致事務在獲取鎖時出現問題。

如何減少死鎖問題？

設置合理的事務隔離級別。
避免大事務的業務代碼。
優化sql性能。
增加鎖等待超時處理。
增加監控和分析

6.磁盤問題

服務器磁盤問題是眾多線上問題中，最好排查的了。

磁盤問題一般有兩種：

磁盤壞了
磁盤空間不足

如果是磁盤壞了，運維一般在短時間內，很難及時修復好。

因此，需要及時更換磁盤。

如果是磁盤空間不足。

一般需要登錄到那臺服務器，使用命令：

df -Hl

查看當前服務器的磁盤使用情況。

總大小
已使用多少
可用多少

最快的解決辦法是，將/tmp文件夾中的文件刪除，可以釋放一些磁盤空間。

然后找到日志文件，刪除7天以前的日志。

這兩種方式，一般會釋放不少磁盤空間，暫時解決磁盤空間不足的問題。

從常用來看，我們需要對服務器的磁盤使用情況做監控，如果超過閥值有預警。

同時需要需要規范業務系統，哪些場景需要打印日志，哪些場景不需要，不應該所有的場景，都打印日志。

特別是有些業務查詢接口調用非常頻繁，一次性返回的數據很多，這種情況下，會導致服務器上的日志迅速膨脹，占用過多的磁盤空間。

7.MQ消息積壓問題

如果你使用過MQ消息中間件，在生產環境肯定遇到過MQ消息積壓問題。

出現這個問題，一般是MQ消費者消費消息的速度，比MQ生產者生產消息的速度慢。

如果之前一直都是好好的，突然有一天出現了MQ消息積壓問題。

可能是下面的原因導致的：

MQ生產者批量發送消息。
隨著數據越來越多，MQ消費者的在處理業務邏輯時，mysql索引失效或者選錯索引，導致處理消息的速度變慢。

如果生產環境出現MQ消息積壓問題，先確認MQ生產者有沒有批量發送消息。

如果有，則可以把MQ消費者中線程池的核心線程數和最大線程數調大一些，讓更多的線程去處理業務邏輯，提升消費能力。

這套方案的前提是MQ消費者中，已經使用了線程池消費消息。

如果沒有使用線程池，則只能臨時增加服務器節點了。

如果MQ生產者沒有批量發送消息，則需要排查MQ消費者的業務邏輯中，哪些地方出現了性能問題，需要做代碼優化。

優化的方向是：

優化索引
優化sql語句
異步處理
批量處理

等等，還有其他的。

8.調用接口報錯

我們生產環境的程序，有時候會出現，之前調用某個API一直都是正常的，但突然出現報錯的情況，即返回碼不是200。

那么，這種問題，我們該如何排查呢？

（1）返回401

一般生產環境出現這個問題，是由于沒有通過接口的登錄認證。

出現這種情況，一般用戶在嘗試訪問受保護的資源前，需要通過某種形式的身份驗證（如登錄），但如果未能正確提供必要的認證信息，如Token、用戶名和密碼等。

就會出現返回碼是401的情況。

（2）返回403

如果生產環境請求某個接口，返回碼是403，則說明目前沒有訪問資源的權限。

這種場景跟返回碼是401有區別。

401著重于認證問題，即用戶沒有提供正確的身份驗證信息。

而403則是在認證成功的基礎上，用戶沒有足夠的權限去訪問請求的資源。

要解決這個問題，我們需要給接口的調用方，分配相應的訪問權限。

（3）返回404

不用懷疑，你請求的接口地址，現在已經不存在了，才會報404。

比如有些接口名稱改了，或者接口路徑中/v1/user/query改成了/v2/user/query，版本號升級了。

如果沒有通知所有的接口調用方，都可能會出現請求接口返回碼為404的情況。

還有一種可能也會導致請求接口報404的問題，接口地址之前注冊到了API網關中，但API網關的配置出現了問題。

優先排查接口url是否修改，然后排查網關或者Nginx配置是否有問題。

（4）返回405

如果請求的接口，返回碼為405，一般是請求方式錯誤導致的。

最常見的是：接口只支持post方式，但發送的卻是get請求。

或者接口只支持get方式，但發送的卻是post請求。

這種問題一般非常好排查和解決。

（5）返回500

如果請求的接口，返回碼為500，一般是出現了服務的內部錯誤。

一般網關層會對接口的返回值做一次封裝，不會返回真正的異常信息。

我們只能查看接口的錯誤日志，來定位和排查問題。

建議出現異常時，把接口請求參數打印出來，方便后面復現問題。

導致這種問題的原因有很多，我們只能根據服務器上的錯誤日志，和相關的業務代碼逐一排查。

（6）返回502

如果請求的接口，返回碼為502，一般是出現了服務不可用的情況。

有兩種情況：

服務器正在重啟中。
服務掛掉了。

這時候可以查看一下服務的監控，也可以登錄到服務器上查看的運行狀態。

大部分情況下，重啟一下服務，可以快速解決問題。

然后再根據服務器上的日志，可以定位具體的原因，比如：OOM問題導致的。

（7）返回504

如果請求的接口，返回碼為504，一般由于網關或者接口超時導致的。

接口返回數據的耗時，大于網關設置的超時時間，就會出現這個問題。

出現這種情況，一般需要優化接口相關的代碼。

責任編輯：姜華來源：蘇三說技術

OOM問題線上問題排查 Java

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看