成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

記一次線上Java程序故障驚心動魄兩小時

開發 前端
當我起來收拾好一切準備出發的時候,我瞄了一眼手機,發現手機的郵箱里有一份報警郵件,報警郵件顯示線上最近10分鐘流量有異常,而且是多個渠道。有突然有一種不祥的預感:線上kafka出問題了。

周日早上醒來,明媚的陽光從臥室的窗戶直射進來,久違的好天氣。穿好衣服我開始籌劃今天去哪里轉轉。一周忙碌的工作幾乎沒有時間陪家人,今天該好好陪陪家人了。

當我起來收拾好一切準備出發的時候,我瞄了一眼手機,發現手機的郵箱里有一份報警郵件,報警郵件顯示線上最近10分鐘流量有異常,而且是多個渠道。有突然有一種不祥的預感:線上kafka出問題了。我讓媳婦和孩子下樓在車里等我,我趕緊打開了電腦,查看線上系統。果然不出意外,kafka已經積壓了幾千萬的數據。因為我們的業務分為實時數據和離線數據,實時數據是FileBeat負責收集日志發到Kafka,然后我們這個業務系統消費Kafka統計數據,實時數據對于當前流量分析、預算控制、熔斷有非常重要的作用,如果實時數據異常,其它業務系統都會受到一定的影響。

定位到報警郵件是由于kafka消息積壓而導致實時數據異常觸發的,我立馬連上了我們消費Kafka的業務系統(data-collect)。這是一個運行時間很長了的Java服務,它的作用就是實時消費kafka數據,然后經過一定的業務邏輯處理,將最終結果更新到mongodb中。進到服務器以后,我發現這個服務已經處于假死狀態,最后一條日志顯示系統發生了OOM,也就是服務器內存爆了。

 

記一次線上Java程序故障驚心動魄兩小時

關于data-collect這個Java服務的核心邏輯我在這里詳細說明一下。這個系統的代碼是很早的一位同事寫的,因為早期我們的數據體量還不是很大,所以,他采用了一種簡單的處理方式。先消費數據,處理完成以后放到一個Map中,然后,啟動了一個每10s執行一次的定時任務,定時任務讀取Map數據更新到mongo中,然后清空Map(ConcurrentMap)。這樣做的優點是將消費Kafka的操作和入庫操作分開了,可以防止因為入庫時間太長而導致消費速度變慢,但是,這種做法有一個致命的缺點:內存不可控。如果定時任務因為Mongo操作時間太長而沒有及時清空Map,Map中會積累大量的數據,最終耗盡內存,系統發生OOM。這時候如果系統自啟了,也會丟失大量的數據。

其實,這個問題我很早有意識到,但是系統一直運行良好,沒有出現任何問題,我們認為在現有數據體量下它是安全的。而碰巧的是,就在前一天我們升級了Mongo的配置,mongo機器進行了一個主從切換。同時,有一些大表清理和TTL索引重建的工作還在mongo后臺運行。這就導致了我們操作mongo耗時的增加。進而導致了我們一直認為安全的系統出現了這個問題。

回到data-collect這個系統的設計上。可能有的同學會在這里有個疑問,為什么不直接消費出來就入庫操作呢?這里我們有一個重要的處理邏輯:為了防止頻繁的更新mongo,我們會將消費出來的數據在內存中進行一個合并處理,你可以簡單的理解為一個Map,如果key存在,我們就進行++的操作。最終操作mongo是$inc的操作,不是insert和update的操作。這也是我們需要一個ConcurrentMap的原因。也就是我們大概消費了1000萬條數據,但是最終我們處理完成以后只有10萬條數據,很多key相同的數據我們都進行了合并處理,這樣我們mongo的操作就減少了很多。

data-collect發生了OOM,我只能第一時間重啟,重啟以后,消費正常,系統開始有了數據。但是大概運行了幾分鐘以后,又發生了OOM。原因很簡單:kafka積壓的了大量的消息,消費很快,但是異步如mongo太耗時,所以導致數據全部擠壓在了這個Map內存中。看到這里,我想只能動手改造代碼了。改造的最終要達到的結果是:系統在不發生OOM的前提下,消費積壓在kafka中的數據,完成mongo操作。

改造的思路很簡單,就是干掉定時任務。在消費kafka消息中增加一個邏輯,每當消費消息并且內存進行數據合并完成以后,我們判斷Map的大小,如果Map的大小超過我們設定的限制以后,開始觸發mongo操作。之前的代碼mongo操作是單線程執行,為了提升mongo插入操作,我們開啟20個線程并行執行,所以我們這里需要一個帶阻塞隊列的線程池。改造后的代碼如下:

 

記一次線上Java程序故障驚心動魄兩小時

這里是SpringBoot集成Kafka的消費代碼。

 

記一次線上Java程序故障驚心動魄兩小時

 

記一次線上Java程序故障驚心動魄兩小時

這是內存處理完成以后入mongo的操作。因為我們的topic有20個分區,所以代碼中的listenPartition0是多線程執行的。如果沒有synchronized的同步代碼塊,那assembleyAdxTrafficVo方法就會多線程執行,這就會導致數據重復插入mongo,具體大家可以體會assembleyAdxTrafficVo方法的邏輯。

而插入mongo操作的用了線程池ExecutorService,注意這里我們executorService對象的定義。

 

記一次線上Java程序故障驚心動魄兩小時

 

記一次線上Java程序故障驚心動魄兩小時

為什么要自己定義一個阻塞隊列CustomeBlockQueue?這相比很多人碰到過這個問題,如果采用默認的阻塞隊列,例如:ArrayBlockingQueue,當隊列長度長度超過設置的值時,ArrayBlockingQueue會拒絕新的數據進入,并且拋出異常,所以我們需要自己定義CustomeBlockQueue,并且重寫他的offer方法(BlockingQueue默認采用offer方法將元素增加到隊列),offer方法不會阻塞,put方法會阻塞,所以我們需要重寫offer方法,并且內部采用put方法實現。關于這一點,大家可以多嘗試。ArrayBlockingQueue和LinkedBlockingQueue都有很多坑等大家去踩。

按照上述代碼處理完成上線以后,系統開始正常運行,kafka積壓的消息也開始慢慢降低,系統趨于恢復正常,而這時已經是12點了,驚心動魄的2小時總算過去了,阿彌陀佛。

責任編輯:未麗燕 來源: 今日頭條
相關推薦

2017-09-01 09:17:51

DNS緩存慘案

2018-01-07 01:39:32

2019-08-05 10:15:33

系統緩存架構

2018-12-14 10:46:55

2009-05-08 08:59:47

微軟Windows 7操作系統

2022-12-17 19:49:37

GCJVM故障

2021-01-08 13:52:15

Consul微服務服務注冊中心

2023-01-04 18:32:31

線上服務代碼

2020-07-13 09:05:47

2017-11-01 16:15:23

SQL優化權限類型案例

2021-12-02 07:50:30

NFS故障內存

2021-05-26 11:06:06

Kubernetes網絡故障集群節點

2020-10-14 11:37:07

MAXHUB

2021-11-23 21:21:07

線上排查服務

2009-07-28 09:18:17

2020-11-16 07:19:17

線上函數性能

2025-04-02 04:33:00

CPU服務器時鐘頻率

2010-09-11 11:12:23

2014-12-19 16:08:18

2018-02-27 11:52:41

區塊鏈食品安全溯源
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩亚洲视频 | 日本视频中文字幕 | 国产在线播放一区二区三区 | 国产免费一区 | 亚洲一区二区三区视频免费观看 | 亚洲欧美中文日韩在线v日本 | 国产精品久久久久久婷婷天堂 | 高清国产一区二区 | 久久伊人操| 国产精品久久 | www..99re| 日韩午夜网站 | 国产一区二区三区四区hd | 国产韩国精品一区二区三区 | 免费观看国产视频在线 | 国产精品亚洲片在线播放 | 国产91综合 | 久草中文在线观看 | 色播视频在线观看 | 亚洲视频精品 | 97日日碰人人模人人澡分享吧 | 亚洲精品中文在线观看 | 欧美一区二区三区免费电影 | 天天插天天操 | 国产成人综合在线 | 婷婷久久一区 | 中国免费黄色片 | 日韩一区二区三区在线观看 | 久久99网 | 国产乱码精品一区二区三区五月婷 | 最新中文字幕在线播放 | 欧美精品91| 日韩www | 亚洲瑟瑟 | 日韩电影一区二区三区 | 精品免费国产一区二区三区四区介绍 | 免费看av大片 | 精品一区精品二区 | 在线免费看黄 | 免费网站国产 | 成人一区av |