給你一份精心設計的消息中間件高擴展架構,趕緊寫進簡歷吧
1、寫在前面
本文咱們來聊聊如何通過 MQ 消息中間件的使用,重構系統之間的耦合,讓系統具備高度的可擴展性。
首先看一張系統之間的耦合圖,大家先不用關注圖中數據查詢平臺和實時計算平臺的具體細節。
只需知道這里的數據查詢平臺和實時計算平臺兩個系統,通過一套共享存儲(數據庫集群+緩存集群)進行了耦合。
2、劃分系統邊界
只要有耦合,一旦要解決耦合,那么第一個要干的事就是先劃分清楚系統之間的邊界。
比如上面那兩套系統都共享了一套存儲集群,大家先思考一下,兩個系統之間的邊界應該如何劃分?
換句話說,中間那套緩存集群和數據庫集群,應該屬于哪個系統?要回答這個問題,主要就是考慮緩存集群和數據庫集群主要是給誰用的?
答案顯而易見,當然是給數據查詢平臺用的。
說白了,緩存集群和數據庫集群都是數據查詢平臺賴以生存的核心底層數據存儲,它們存儲的數據也都是屬于數據查詢平臺的核心數據。
對于實時計算平臺來說,他只不過是將自己計算后的結果寫入到緩存集群和數據庫集群罷了。
實時計算平臺只要寫入過后,后續就不會再管那些數據了,所以這兩套集群明顯是不屬于實時計算平臺的。
系統間的邊界劃分清楚之后,從整體架構來看,兩套系統間的關系應該是下面這樣:
3、引入消息中間件解耦
現在我們劃分清楚了系統之間的邊界,接著下一步,就是引入消息中間件來進行解耦。
如果對消息中間件的使用場景還不太熟悉的朋友,可以先看看之前的文章:《為什么要使用MQ消息中間件?這幾個問題必須拿下!》,里面對消息中間件的各種使用場景都有詳細闡述。
現在我們只要引入一個消息中間件,然后讓實時計算平臺將計算好的數據按照預設的格式直接寫入到消息中間件即可。
同時在數據查詢平臺這邊增加一個數據接入服務,負責將消息中間件里的數據消費出來,然后落地寫入到本地的緩存集群和數據庫集群
整個過程如下圖所示:
通過上圖可以清晰的看到,兩個系統之間已經不再直接基于共享數據存儲進行耦合了,中間加入了MQ消息中間件,它僅僅是用于兩個系統之間的數據交互和傳輸,職責簡單,清晰明了。
這樣做最大的好處:數據查詢平臺可以對涌入自身平臺的數據,按照自己的需求進行定制化的管控,不會像之前那樣的被動。
因為涌入數據查詢平臺的所有數據,都需要經過數據接入服務那一關,在數據接入服務那里就可以隨意根據自己的情況進行管理。
4、利用消息中間件削峰填谷
好,我們繼續,現在把目光集中到兩個系統上,進行痛點分析。
兩個系統間第一大痛點:實時計算平臺會高并發寫入數據查詢平臺,之前不做任何管控的時候,導致各種意外發生。
比如快速增長的寫庫壓力導致數據查詢平臺必須優先cover住分庫分表那塊的架構,打破自己的架構演進節奏。
比如突然意外出現的熱數據因為不做任何寫入管控,一下子可能把數據庫服務器擊垮。
因此一旦用消息中間件在中間擋了一層之后,就可以進行削峰填谷了。那什么叫削峰填谷呢?
很簡單,如果不做任何管控,實時計算平臺并發寫入數據庫集群,在高峰期會有一個陡然上升的尖峰。
打個比方:平時每秒寫入并發就500,但是高峰期寫入并發請求有5000,那么就會突然冒出來一個尖峰,此時數據查詢平臺的數據庫集群可能就會受不了。
那如果我們在數據接入服務里做一個限流控制,效果會怎么樣呢?
也就是說,在數據接入服務里,根據當前數據查詢平臺的數據庫集群能承載的并發上限進行控制。
比如最多承載每秒3000,那么數據接入服務自己就控制好,每秒最多就往自己本地的數據庫集群里寫入每秒3000的請求,此時就會出現削峰填谷的效果。
雖然說在實時計算那邊,高峰期瞬時寫入壓力最大有5000/s,但是數據接入服務做了流量控制,最多就往本地數據庫集群寫入3000/s。
然后每秒就會有2000條數據在消息中間件里做一個積壓,但是積壓一會兒不要緊,最起碼保證在高峰期,我們把這個向上的尖峰給削平,這就是削峰。
高峰期過了之后,現在可能就100/s的寫入壓力,但是此時數據接入服務會持續不斷的從消息中間件里取出來數據,然后持續以最大3000/s的寫入壓力往本地數據庫集群里寫入。
那么在低峰期,我們可以看到還會持續一段時間是3000/s的寫入速度往本地數據庫里寫,原來的低峰期是谷底,現在谷底被填平了,這就是所謂的填谷。
通過這套削峰填谷的機制,可以保證數據查詢平臺以自己能接受的速率,均勻的把MQ里的數據拿出來寫入自己本地數據庫集群中。
這樣無論實時計算平臺多高的并發請求壓力過來,哪怕是那種異常的熱數據,瞬間上萬并發請求過來也無所謂了。因為MQ中間件可以抗住瞬間高并發寫入,數據查詢平臺永遠都是穩定勻速的寫入自己本地數據庫。
這樣一來,數據查詢平臺就不需要去過多的care實時計算平臺帶給自己的壓力了,可以按照自己的節奏進行各種架構迭代。
此時的架構圖如下所示,在數據接入服務中多了一個限流的模塊。
5、手動流量開關配合數據庫運維
通過消息中間件將兩個系統隔離的另一大好處:數據查詢平臺做任何數據運維的操作,比如DDL、分庫分表擴容、數據遷移,等等,已經跟實時計算平臺徹底無關了。實時計算平臺主要簡單的往消息中間件寫入,其他的就不用管了。
現在數據查詢平臺如果要做一些數據庫運維的操作,就可以通過在數據接入服務中加入一個手動流量開關,臨時將流量開關關閉一會兒。比如選擇午睡這種相對低峰的時期,半小時內關閉流量開關。
然后此時數據接入服務就不會繼續往本地數據庫寫入數據了,此時寫入操作就會停止,半小時內迅速完成數據庫運維操作。等相關操作完成之后,再次打開流量開關,繼續從MQ里消費數據寫入到本地數據庫內即可。
這樣就完全避免了同時寫入數據,還同時進行數據庫運維操作的窘境。否則在耦合的狀態下,每次進行數據庫運維操作,還得實時計算平臺團隊的同學配合一起進行各種復雜操作,才能避免線上出現故障。
現在完全不需要人家的參與了,自己團隊就可以搞定。
加入流量開關后,架構圖又變成了下面這樣:
6、支持多系統同時訂閱數據
引入了消息中間件的第三大好處:其他一些系統也可以按需去MQ里訂閱實時計算平臺計算好的數據。
舉個例子,這套平臺里有數據質量監控系統,需要獲取計算數據進行數據結果準確性和質量的監控。
另外這套平臺里還有數據鏈路監控系統,需要將MQ里的數據作為數據計算鏈路中的一個核心點數據采集過來,進行數據全鏈路的監控和自動追蹤。
如果沒有引入MQ消息中間件,那是不是會導致實時計算平臺除了將數據寫入一份到數據庫集群,還需要通過接口發送給數據質量監控系統以及數據鏈路監控系統?
這樣簡直坑爹到不行,N個系統全部耦合在一起。
但是有了消息中間件,完全可以通過MQ支持的“Pub/Sub”消息訂閱模型,不同的系統都可以訂閱同一份數據,大家按需消費,按需處理,各個系統之間完全解耦。
這樣一來,整個系統可擴展性瞬間提升了很多,因為各個系統各自迭代和演進,都不需要強依賴其他的系統了。
最后我們來看看,兩個系統解耦后的架構圖: