Kafka 消息積壓百萬！凌晨三點機房通宵搶修，我靠這招絕地翻盤

作者：儒猿團隊 2025-04-27 09:37:44

以后遇到 Kafka 消息積壓問題，別慌！按照咱這套流程來，保準能把問題解決得明明白白。最后提醒大家，技術這玩意兒，就得不斷實踐、不斷總結，才能越來越熟練。

兄弟們，今天咱來嘮嘮那個讓我在凌晨三點的機房里差點把頭發薅禿的 Kafka 消息積壓問題。咱先把場景拉滿：上周四晚上十一點，我正準備跟周公約個會呢，手機突然跟抽風似的瘋狂震動，運維群里紅色警報直閃 —— 訂單系統的 Kafka 集群積壓量突破百萬大關，而且還在以每秒八千條的速度往上竄。咱就是說，這誰能睡得著啊，趕緊套上外套就往公司狂奔，一場跟 Kafka 的硬仗就這么拉開了序幕。

一、先搞明白：Kafka 為啥會積壓成 "堵城"

到了機房，咱先冷靜下來分析。Kafka 這玩意兒，平時就像個高效的快遞中轉站，生產者把包裹（消息）源源不斷地送來，消費者再把包裹分門別類地送走。那現在咋就堵成停車場了呢？咱從三個最容易出問題的地方下手。

（一）消費者 "摸魚" 現場：處理速度跟不上生產速度

最常見的就是消費者處理能力跟不上。咱打個比方，生產者是個手腳麻利的快遞員，每分鐘能送 100 個包裹，可消費者這邊呢，要么是新手快遞員，業務不熟，處理一個包裹得老半天；要么是快遞站的電腦太卡，處理程序效率低，每分鐘只能處理 50 個。這樣一來，包裹可不就越堆越多嘛。就像這次，我們排查發現，消費者的線程池大小設置得太小了，只有可憐的 5 個線程，面對突然暴增的訂單消息，根本忙不過來，活生生變成了 "摸魚選手"。

（二）分區規劃 "翻車"：車道太少導致堵車

Kafka 的分區就好比高速公路上的車道，分區數太少，就相當于車道不夠，生產者和消費者的吞吐量自然上不去。舉個例子，要是生產者往一個分區里瘋狂發消息，而消費者這邊只有一個線程來處理這個分區的消息，那不管消費者多努力，處理速度都被分區數給限制死了。我們這次就發現，某個關鍵主題的分區數居然只有 2 個，而消費者實例雖然有 4 個，但每個實例只能分到 0.5 個分區，這不是鬧著玩嘛，明顯的資源浪費，處理效率能高才怪。

（三）網絡 & 磁盤 "拖后腿"：硬件瓶頸拖慢整體速度

別以為只有軟件問題會導致積壓，硬件瓶頸也不容忽視。要是生產者所在的服務器網絡帶寬不夠，消息發送速度就會變慢，堆積在生產者客戶端；要是消費者的磁盤 I/O 性能太差，寫入數據到本地存儲時耗時過長，也會影響消費速度。我們在監控中發現，消費者服務器的磁盤平均響應時間超過了 50ms，正常情況下應該在 10ms 以內，這明顯是磁盤扛不住了，拖了整個系統的后腿。

二、緊急排障：凌晨三點的 "搶救" 現場

（一）第一步：快速定位積壓 "重災區"

咱先得知道哪個主題、哪個分區積壓得最嚴重。這時候就得請出 Kafka 的自帶工具 kafka-consumer-groups.sh 了。在命令行里敲上這么一句：

./kafka-consumer-groups.sh --bootstrap-server localhost:9092 --group my-consumer-group --describe

這一執行，可就像給 Kafka 做了個 "CT 掃描"，每個分區的當前偏移量（CURRENT - OFFSET）、日志末尾偏移量（LOG - END - OFFSET）以及積壓量（LAG）都一目了然。我們當時就發現，order - topic 的 3 號分區，LAG 居然達到了 30 萬，妥妥的重災區啊。

（二）臨時方案：先把積壓量降下來

1. 緊急擴容消費者實例

既然消費者處理能力不夠，那咱就趕緊擴招 "快遞員"。增加消費者實例的數量，讓更多的實例來分擔消息處理任務。不過要注意，消費者實例的數量不能超過主題的分區數，不然多出來的實例就只能干瞪眼了。我們把消費者實例從原來的 4 個擴容到 8 個，這一下子，每個實例分到的分區數更合理了，處理速度明顯提升。

2. 調整消費者線程池參數

之前消費者線程池太小，現在咱把它調大。在消費者的配置里，有兩個關鍵參數：fetch.min.bytes 和 fetch.max.wait.ms。fetch.min.bytes 表示消費者每次從 Kafka 拉取的最小數據量，默認是 1 字節，咱可以根據實際情況調大，比如調成 10KB，這樣每次拉取的數據更多，減少拉取次數；fetch.max.wait.ms 表示如果沒有達到 fetch.min.bytes 的數據量，消費者最多等待的時間，默認是 500ms，咱可以適當調小，比如調成 100ms，讓消費者更積極地去拉取數據。同時，處理消息的線程池 processing - thread - pool 的大小，我們從 5 調到了 20，讓更多的線程來處理消息。

3. 跳過無效消息（謹慎操作！）

如果積壓的消息中有很多是過期的或者無效的，比如訂單超時取消的消息，在業務允許的情況下，可以考慮跳過這些消息。這就需要修改消費者的偏移量，讓消費者從某個指定的位置開始消費。不過這一步一定要謹慎，要是跳過了重要的消息，那可就麻煩大了。我們當時確認了部分消息確實是已經處理過的無效消息，才小心翼翼地調整了偏移量，跳過了 10 萬條無效消息，積壓量一下子就降了不少。

（三）根治方案：讓系統恢復 "健康"

1. 優化生產者端：別可勁兒 "猛塞" 消息

生產者發送消息的時候，不能一股腦兒地猛塞，得控制好發送速度。可以設置合理的 batch.size 和 linger.ms 參數。batch.size 表示生產者緩存消息的批次大小，默認是 16KB，適當調大可以減少網絡傳輸次數，提高吞吐量，但也不能太大，不然會增加延遲；linger.ms 表示生產者等待批次填滿的時間，默認是 0ms，也就是立即發送，咱可以調成 5ms，讓生產者稍微等一會兒，等積累一些消息再發送，提高效率。同時，要做好流量控制，當發現消息積壓有上升趨勢時，自動減慢發送速度，避免系統被壓垮。

2. 重構消費者邏輯：讓 "快遞員" 更高效

之前消費者處理消息的邏輯有點臃腫，里面有一些不必要的數據庫操作和復雜的業務計算。咱把這些業務邏輯進行了拆分，對于一些非實時的操作，比如日志記錄、數據分析，放到異步線程或者隊列里處理，讓消費者主線程只專注于處理核心的消息業務。同時，優化了數據庫的查詢語句，增加了索引，讓數據庫操作的速度提升了 30% 以上。另外，還引入了批量處理的方式，每次從 Kafka 拉取一批消息（比如 100 條），然后批量寫入數據庫或者進行處理，減少頻繁的 I/O 操作。

3. 增加分區數：拓寬 "車道"

針對之前分區數太少的問題，我們對 order - topic 進行了分區擴容，把分區數從 2 個增加到了 16 個。不過要注意，分區數一旦增加，就不能減少了，而且擴容分區需要借助 Kafka 的工具 kafka - reassign - partitions.sh 來進行，過程中要密切監控集群的狀態，避免出現數據丟失或者不一致的問題。分區數增加后，消費者可以并行處理更多的分區，吞吐量得到了大幅提升。

4. 升級硬件：給系統 "換發動機"

既然磁盤 I/O 性能不行，咱就直接升級服務器的磁盤，把原來的機械硬盤換成了 SSD，磁盤平均響應時間一下子降到了 5ms 以內。同時，增加了服務器的內存和 CPU 資源，讓消費者和生產者所在的服務器都有了更強勁的性能。網絡方面，把服務器的網絡帶寬從 1G 升級到了 10G，減少了網絡延遲對消息傳輸的影響。

三、事后復盤：這些坑以后可別再踩了

（一）日常監控不能少：給系統裝個 "體檢儀"

我們這次之所以能在第一時間發現問題，多虧了平時部署的監控系統。我們用 Prometheus 和 Grafana 搭建了一套監控平臺，實時監控 Kafka 集群的各項指標，比如消息生產速率、消費速率、積壓量、分區 leader 分布、服務器的 CPU、內存、磁盤 I/O 等。還設置了告警規則，當積壓量超過 5 萬條時，就通過短信和郵件告警，讓我們能及時響應。以后要繼續完善監控指標，比如增加對消費者線程池利用率、生產者緩沖區利用率的監控，做到早發現、早處理。

（二）容量規劃要提前：別等堵車了才修路

在系統設計初期，就要做好容量規劃。根據業務的發展預期，估算未來一段時間內的消息量，合理設置 Kafka 主題的分區數、副本數，以及消費者和生產者的實例數量、硬件配置。我們這次就是因為對訂單量的增長估計不足，才導致分區數和消費者實例數不夠，引發了積壓問題。以后每季度都要對系統容量進行評估，提前做好擴容計劃。

（三）應急預案要完善：打有準備的仗

這次處理積壓問題，雖然最后解決了，但過程中還是有點手忙腳亂。以后要制定詳細的應急預案，比如當積壓量達到不同級別時（5 萬、10 萬、50 萬、100 萬），分別采取什么措施，誰負責執行，誰負責監控，都要明確下來。還要定期進行應急演練，讓團隊成員熟悉處理流程，提高應對突發情況的能力。

（四）代碼質量是根本：別寫 "坑自己" 的代碼

消費者和生產者的代碼質量直接影響系統的穩定性和性能。這次發現的消費者線程池參數不合理、處理邏輯臃腫等問題，都是代碼層面的問題。以后要加強代碼評審，確保代碼的高效性和健壯性。對于關鍵的業務邏輯，要進行性能測試和壓力測試，提前發現潛在的問題。

四、總結：跟 Kafka 打交道，得玩點 "套路"

這次凌晨三點的機房搶修，可算是讓我對 Kafka 有了更深刻的認識。Kafka 確實是個強大的消息中間件，但要是不好好伺候它，它分分鐘給你整出幺蛾子。咱總結一下處理消息積壓的核心思路：先快速定位問題，找到積壓的根源；然后采取臨時措施緩解積壓，避免問題擴大化；接著從根本上解決問題，優化系統設計和代碼邏輯；最后做好日常監控和應急預案，防止類似問題再次發生。

咱再把關鍵的知識點梳理一下：

消息積壓的常見原因：消費者處理能力不足、分區規劃不合理、硬件瓶頸。
緊急處理措施：擴容消費者實例、調整參數、跳過無效消息。
根治方案：優化生產者和消費者邏輯、增加分區數、升級硬件。
事后預防：完善監控、做好容量規劃、制定應急預案、提高代碼質量。

兄弟們，以后遇到 Kafka 消息積壓問題，別慌！按照咱這套流程來，保準能把問題解決得明明白白。最后提醒大家，技術這玩意兒，就得不斷實踐、不斷總結，才能越來越熟練。

責任編輯：武曉燕來源：石杉的架構筆記

Kafka 線程池參數

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看