三篇文章了解 TiDB 技術內幕 —— 談調度

作者：申礫 2017-06-09 08:00:38

本篇文章介紹一下PD(Placement Driver)的組件，雖然不直接和業務接觸，但是這個組件是整個集群的核心，負責全局元信息的存儲以及 TiKV 集群負載均衡調度。

任何一個復雜的系統，用戶感知到的都只是冰山一角，數據庫也不例外。

[[193399]]

前兩篇文章介紹了 TiKV、TiDB 的基本概念以及一些核心功能的實現原理，這兩個組件一個負責 KV 存儲，一個負責 SQL 引擎，都是大家看得見的東西。在這兩個組件的后面，還有一個叫做 PD(Placement Driver)的組件，雖然不直接和業務接觸，但是這個組件是整個集群的核心，負責全局元信息的存儲以及 TiKV 集群負載均衡調度。

本篇文章介紹一下這個神秘的模塊。這部分比較復雜，很多東西大家平時不會想到，也很少在其他文章中見到類似的東西的描述。我們還是按照前兩篇的思路，先講我們需要什么樣的功能，再講我們如何實現，大家帶著需求去看實現，會更容易的理解我們做這些設計時背后的考量。

一、為什么要進行調度

先回憶一下第一篇文章提到的一些信息，TiKV 集群是 TiDB 數據庫的分布式 KV 存儲引擎，數據以 Region 為單位進行復制和管理，每個 Region 會有多個 Replica(副本)，這些 Replica 會分布在不同的 TiKV 節點上，其中 Leader 負責讀/寫，Follower 負責同步 Leader 發來的 raft log。了解了這些信息后，請思考下面這些問題：

如何保證同一個 Region 的多個 Replica 分布在不同的節點上?更進一步，如果在一臺機器上啟動多個 TiKV 實例，會有什么問題?
TiKV 集群進行跨機房部署用于容災的時候，如何保證一個機房掉線，不會丟失 Raft Group 的多個 Replica?
添加一個節點進入 TiKV 集群之后，如何將集群中其他節點上的數據搬過來?
當一個節點掉線時，會出現什么問題?整個集群需要做什么事情?如果節點只是短暫掉線(重啟服務)，那么如何處理?如果節點是長時間掉線(磁盤故障，數據全部丟失)，需要如何處理?
假設集群需要每個 Raft Group 有 N 個副本，那么對于單個 Raft Group 來說，Replica 數量可能會不夠多(例如節點掉線，失去副本)，也可能會過于多(例如掉線的節點又回復正常，自動加入集群)。那么如何調節 Replica 個數?
讀/寫都是通過 Leader 進行，如果 Leader 只集中在少量節點上，會對集群有什么影響?
并不是所有的 Region 都被頻繁的訪問，可能訪問熱點只在少數幾個 Region，這個時候我們需要做什么?
集群在做負載均衡的時候，往往需要搬遷數據，這種數據的遷移會不會占用大量的網絡帶寬、磁盤 IO 以及 CPU?進而影響在線服務?

這些問題單獨拿出可能都能找到簡單的解決方案，但是混雜在一起，就不太好解決。有的問題貌似只需要考慮單個 Raft Group 內部的情況，比如根據副本數量是否足夠多來決定是否需要添加副本。但是實際上這個副本添加在哪里，是需要考慮全局的信息。整個系統也是在動態變化，Region 分裂、節點加入、節點失效、訪問熱點變化等情況會不斷發生，整個調度系統也需要在動態中不斷向最優狀態前進，如果沒有一個掌握全局信息，可以對全局進行調度，并且可以配置的組件，就很難滿足這些需求。因此我們需要一個中心節點，來對系統的整體狀況進行把控和調整，所以有了 PD 這個模塊。

二、調度的需求

上面羅列了一大堆問題，我們先進行分類和整理。總體來看，問題有兩大類：

作為一個分布式高可用存儲系統，必須滿足的需求，包括四種：

副本數量不能多也不能少
副本需要分布在不同的機器上
新加節點后，可以將其他節點上的副本遷移過來
節點下線后，需要將該節點的數據遷移走

作為一個良好的分布式系統，需要優化的地方，包括：

維持整個集群的 Leader 分布均勻
維持每個節點的儲存容量均勻
維持訪問熱點分布均勻
控制 Balance 的速度，避免影響在線服務
管理節點狀態，包括手動上線/下線節點，以及自動下線失效節點

滿足第一類需求后，整個系統將具備多副本容錯、動態擴容/縮容、容忍節點掉線以及自動錯誤恢復的功能。滿足第二類需求后，可以使得整體系統的負載更加均勻、且可以方便的管理。

為了滿足這些需求，首先我們需要收集足夠的信息，比如每個節點的狀態、每個 Raft Group 的信息、業務訪問操作的統計等;其次需要設置一些策略，PD 根據這些信息以及調度的策略，制定出盡量滿足前面所述需求的調度計劃;最后需要一些基本的操作，來完成調度計劃。

三、調度的基本操作

我們先來介紹最簡單的一點，也就是調度的基本操作，也就是為了滿足調度的策略，我們有哪些功能可以用。這是整個調度的基礎，了解了手里有什么樣的錘子，才知道用什么樣的姿勢去砸釘子。

上述調度需求看似復雜，但是整理下來最終落地的無非是下面三件事：

增加一個 Replica
刪除一個 Replica
將 Leader 角色在一個 Raft Group 的不同 Replica 之間 transfer

剛好 Raft 協議能夠滿足這三種需求，通過 AddReplica、RemoveReplica、TransferLeader 這三個命令，可以支撐上述三種基本操作。

四、信息收集

調度依賴于整個集群信息的收集，簡單來說，我們需要知道每個 TiKV 節點的狀態以及每個 Region 的狀態。TiKV 集群會向 PD 匯報兩類消息：

1. 每個 TiKV 節點會定期向 PD 匯報節點的整體信息

TiKV 節點(Store)與 PD 之間存在心跳包，一方面 PD 通過心跳包檢測每個 Store 是否存活，以及是否有新加入的 Store;另一方面，心跳包中也會攜帶這個 Store 的狀態信息，主要包括：

總磁盤容量
可用磁盤容量
承載的 Region 數量
數據寫入速度
發送/接受的 Snapshot 數量(Replica 之間可能會通過 Snapshot 同步數據)
是否過載
標簽信息(標簽是具備層級關系的一系列 Tag)

2. 每個 Raft Group 的 Leader 會定期向 PD 匯報信息

每個 Raft Group 的 Leader 和 PD 之間存在心跳包，用于匯報這個 Region 的狀態，主要包括下面幾點信息：

Leader 的位置
Followers 的位置
掉線 Replica 的個數
數據寫入/讀取的速度

PD 不斷的通過這兩類心跳消息收集整個集群的信息，再以這些信息作為決策的依據。除此之外，PD 還可以通過管理接口接受額外的信息，用來做更準確的決策。比如當某個 Store 的心跳包中斷的時候，PD 并不能判斷這個節點是臨時失效還是永久失效，只能經過一段時間的等待(默認是 30 分鐘)，如果一直沒有心跳包，就認為是 Store 已經下線，再決定需要將這個 Store 上面的 Region 都調度走。但是有的時候，是運維人員主動將某臺機器下線，這個時候，可以通過 PD 的管理接口通知 PD 該 Store 不可用，PD 就可以馬上判斷需要將這個 Store 上面的 Region 都調度走。

五、調度的策略

PD 收集了這些信息后，還需要一些策略來制定具體的調度計劃。

1. 一個 Region 的 Replica 數量正確

當 PD 通過某個 Region Leader 的心跳包發現這個 Region 的 Replica 數量不滿足要求時，需要通過 Add/Remove Replica 操作調整 Replica 數量。出現這種情況的可能原因是：

某個節點掉線，上面的數據全部丟失，導致一些 Region 的 Replica 數量不足
某個掉線節點又恢復服務，自動接入集群，這樣之前已經補足了 Replica 的 Region 的 Replica 數量多過，需要刪除某個 Replica
管理員調整了副本策略，修改了 max-replicas 的配置

2. 一個 Raft Group 中的多個 Replica 不在同一個位置

注意第二點，『一個 Raft Group 中的多個 Replica 不在同一個位置』，這里用的是『同一個位置』而不是『同一個節點』。在一般情況下，PD 只會保證多個 Replica 不落在一個節點上，以避免單個節點失效導致多個 Replica 丟失。在實際部署中，還可能出現下面這些需求：

多個節點部署在同一臺物理機器上
TiKV 節點分布在多個機架上，希望單個機架掉電時，也能保證系統可用性
TiKV 節點分布在多個 IDC 中，向單個機房掉電時，也能保證系統可用

這些需求本質上都是某一個節點具備共同的位置屬性，構成一個最小的容錯單元，我們希望這個單元內部不會存在一個 Region 的多個 Replica。這個時候，可以給節點配置 lables 并且通過在 PD 上配置 location-labels 來指名哪些 lable 是位置標識，需要在 Replica 分配的時候盡量保證不會有一個 Region 的多個 Replica 所在結點有相同的位置標識。

3. 副本在 Store 之間的分布均勻分配

前面說過，每個副本中存儲的數據容量上限是固定的，所以我們維持每個節點上面，副本數量的均衡，會使得總體的負載更均衡。

4. Leader 數量在 Store 之間均勻分配

Raft 協議要讀取核寫入都通過 Leader 進行，所以計算的負載主要在 Leader 上面，PD 會盡可能將 Leader 在節點間分散開。

5. 訪問熱點數量在 Store 之間均勻分配

每個 Store 以及 Region Leader 在上報信息時攜帶了當前訪問負載的信息，比如 Key 的讀取/寫入速度。PD 會檢測出訪問熱點，且將其在節點之間分散開。

6. 各個 Store 的存儲空間占用大致相等

每個 Store 啟動的時候都會指定一個 Capacity 參數，表明這個 Store 的存儲空間上限，PD 在做調度的時候，會考慮節點的存儲空間剩余量。

7. 控制調度速度，避免影響在線服務

調度操作需要耗費 CPU、內存、磁盤 IO 以及網絡帶寬，我們需要避免對線上服務造成太大影響。PD 會對當前正在進行的操作數量進行控制，默認的速度控制是比較保守的，如果希望加快調度(比如已經停服務升級，增加新節點，希望盡快調度)，那么可以通過 pd-ctl 手動加快調度速度。

8. 支持手動下線節點

當通過 pd-ctl 手動下線節點后，PD 會在一定的速率控制下，將節點上的數據調度走。當調度完成后，就會將這個節點置為下線狀態。

六、調度的實現

了解了上面這些信息后，接下來我們看一下整個調度的流程。

PD 不斷的通過 Store 或者 Leader 的心跳包收集信息，獲得整個集群的詳細數據，并且根據這些信息以及調度策略生成調度操作序列，每次收到 Region Leader 發來的心跳包時，PD 都會檢查是否有對這個 Region 待進行的操作，通過心跳包的回復消息，將需要進行的操作返回給 Region Leader，并在后面的心跳包中監測執行結果。注意這里的操作只是給 Region Leader 的建議，并不保證一定能得到執行，具體是否會執行以及什么時候執行，由 Region Leader 自己根據當前自身狀態來定。

七、總結

本篇文章講的東西，大家可能平時很少會在其他文章中看到，每一個設計都有背后的考量，希望大家能了解到一個分布式存儲系統在做調度的時候，需要考慮哪些東西，如何將策略、實現進行解耦，更靈活的支持策略的擴展。

【本文是51CTO專欄機構“PingCAP”的原創文章，轉載請聯系作者本人獲取授權】

戳這里，看該作者更多好文

責任編輯：趙寧寧來源： 51CTO專欄

TiDB 調度數據庫

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

三篇文章了解 TiDB 技術內幕 —— 談調度