面試官：Leader崩潰Follower不夠新怎么辦？

作者：磊哥 2024-08-27 11:59:47

數據一致性問題是指在一個系統中，不同部分的數據在邏輯上應該保持一致，但實際情況卻出現了矛盾或不匹配的現象。

這是一道非常經典的 Kafka 問題，是關于 Leader 在“異常”情況下的選舉問題。

背景

我們知道 Kafka 中的 Partition（分區）是存儲消息的最終介質，但 Partition 又有兩種分類：

Leader Partition：主分區，負責數據寫入和讀取。
Follower Partition：副本分區，用于數據備份和主節點宕機之后的分區選舉，保證了 Kafka 服務的高可用。

如下圖所示：

其中，Leader Partition 是用來處理生產者和消費者請求的，而 Follower Partition 是用來保證 Kafka 集群的高可用的，也就是當 Leader Partition 宕機之后，會通過某種算法將其中一個 Follower Partition 升級為 Leader Partition 繼續運行。

不同步的 Follower 節點

在分布式系統下，數據一致性問題是一個令人頭疼的問題，那么這個問題在 Kafka Leader Partition 和 Follower Partition 中也存在，例如以下場景：

也就是說，Follower Partition 還未從 Leader Partition 中同步到最新的數據，Leader Partition 就突然宕機了，這就產生了不同的 Follower 節點了。

小知識點：數據一致性問題是指在一個系統中，不同部分的數據在邏輯上應該保持一致，但實際情況卻出現了矛盾或不匹配的現象。

那問題來了，如果有不同步的 Follower Partition 要升級為 Leader 會發生什么問題？

升級 VS 不升級

當出現不同步的 Follower Partition，而 Leader Partition 有意外宕機的場景，此時我們有兩種選擇：

將不同步的 Follower 節點升級為 Leader 節點：但這樣就會造成數據丟失的問題，但好處是此時集群可以繼續運行。
不同步的 Follower 不自動升級 Leader 節點：等待原 Leader 恢復再繼續運行，此時不會導致數據丟失，但可能要等待很久才能恢復 Kafka 服務的正常運行，因為 Leader 宕機可能要更新內存芯片之后才能運行，而這個時間是比較久的。

所以，不同步的 Follower 節點是升級為 Leader 或不升級為 Leader 都有其優點和缺點。

使用者的選擇權

而在這種情況下，Kafka 就把這個選擇權給使用者了，此時我們可以通過配置 Broker（或集群）的“unclean.leader.election.enable”屬性來決定到底要不要升級不同步的 Follower 節點為 Leader 節點，這個屬性有以下兩個值可以設置：

true：如果此屬性設置為 true，那么即使是不完全同步的 Follower Partition 也會升級為 Leader，此時犧牲了一定的數據一致性（數據丟失風險），保證了 Kafka 服務的高可用。
false：如果此屬性設置為 false，就表示不會將不完全同步的 Follower Partition 升級為 Leader，會等待原 Leader 重新上線之后才能繼續運行 Kafka 服務。此時保證了數據的一致性，但犧牲了 Kafka 服務的可用性。

unclean.leader.election.enable 的默認值為 true。

因此，如果是對數據丟失不敏感的系統可以使用 unclean.leader.election.enable=true，如果對數據丟失敏感的，例如銀行系統等可以使用 unclean.leader.election.enable=false 保證數據的一致性。

責任編輯：姜華來源：磊哥和Java

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

面試官：Leader崩潰Follower不夠新怎么辦？

背景

不同步的 Follower 節點

升級 VS 不升級

使用者的選擇權