數據庫 | “分庫分表”，還能這么玩！

作者：老顧聊技術 2021-04-01 05:40:53

中大型項目中，一旦遇到數據量比較大，小伙伴應該都知道就應該對數據進行拆分了。有垂直和水平兩種。

圖片來自 Pexels

垂直拆分比較簡單，也就是本來一個數據庫，數據量大之后，從業務角度進行拆分多個庫。

如下圖，獨立的拆分出訂單庫和用戶庫：

水平拆分的概念，是同一個業務數據量大之后，進行水平拆分。

上圖中訂單數據達到了 4000 萬，我們也知道 MySQL 單表存儲量推薦是百萬級，如果不進行處理，MySQL 單表數據太大，會導致性能變慢。

使用方案可以參考數據進行水平拆分。把 4000 萬數據拆分 4 張表或者更多。當然也可以分庫，再分表;把壓力從數據庫層級分開。

分庫分表方案中有常用的方案，hash 取模和 range 范圍方案;分庫分表方案最主要就是路由算法，把路由的 key 按照指定的算法進行路由存放。下邊來介紹一下兩個方案的特點。

在我們設計系統之前，可以先預估一下大概這幾年的訂單量，如：4000 萬。每張表我們可以容納 1000 萬，也我們可以設計 4 張表進行存儲。

那具體如何路由存儲的呢?hash 的方案就是對指定的路由 key(如：id)對分表總數進行取模。

上圖中：

優點：訂單數據可以均勻的放到那 4 張表中，這樣此訂單進行操作時，就不會有熱點問題。

熱點的含義：熱點的意思就是對訂單進行操作集中到 1 個表中，其他表的操作很少。

訂單有個特點就是時間屬性，一般用戶操作訂單數據，都會集中到這段時間產生的訂單。

如果這段時間產生的訂單都在同一張訂單表中，那就會形成熱點，那張表的壓力會比較大。

缺點：將來的數據遷移和擴容，會很難。如：業務發展很好，訂單量很大，超出了 4000 萬的量，那我們就需要增加分表數。

如果我們增加 4 個表：

一旦我們增加了分表的總數，取模的基數就會變成 8，以前 id=12 的訂單按照此方案就會到 4 表中查詢，但之前的此訂單時在 0 表的，這樣就導致了數據查不到。就是因為取模的基數產生了變化。

遇到這個情況，我們小伙伴想到的方案就是做數據遷移，把之前的 4000 萬數據，重新做一個 hash 方案，放到新的規劃分表中。也就是我們要做數據遷移。

這個是很痛苦的事情。有些小公司可以接受晚上停機遷移，但大公司是不允許停機做數據遷移的。

當然做數據遷移可以結合自己的公司的業務，做一個工具進行，不過也帶來了很多工作量，每次擴容都要做數據遷移。

那有沒有不需要做數據遷移的方案呢，我們看下面的方案。

range 方案也就是以范圍進行拆分數據：

range 方案比較簡單，就是把一定范圍內的訂單，存放到一個表中;如上圖 id=12 放到 0 表中，id=1300 萬的放到 1 表中。設計這個方案時就是前期把表的范圍設計好。通過 id 進行路由存放。

優點：我們小伙伴們想一下，此方案是不是有利于將來的擴容，不需要做數據遷移。

即使再增加 4 張表，之前的 4 張表的范圍不需要改變，id=12 的還是在 0 表，id=1300 萬的還是在 1 表，新增的 4 張表他們的范圍肯定是大于 4000 萬之后的范圍劃分的。

缺點：有熱點問題，我們想一下，因為 id 的值會一直遞增變大，那這段時間的訂單是不是會一直在某一張表中。

如 id=1000萬～id=2000 萬之間，這段時間產生的訂單是不是都會集中到此張表中，這個就導致 1 表過熱，壓力過大，而其他的表沒有什么壓力。

總結：

那有什么方案可以做到兩者的優點結合呢?即不需要遷移數據，又能解決數據熱點的問題呢?

其實還有一個現實需求，能否根據服務器的性能以及存儲高低，適當均勻調整存儲呢?

hash 是可以解決數據均勻的問題，range 可以解決數據遷移問題，那我們可以不可以兩者相結合呢?利用這兩者的特性呢?

我們考慮一下數據的擴容代表著，路由 key(如 id)的值變大了，這個是一定的，那我們先保證數據變大的時候，首先用 range 方案讓數據落地到一個范圍里面。這樣以后 id 再變大，那以前的數據是不需要遷移的。

但又要考慮到數據均勻，那是不是可以在一定的范圍內數據均勻的呢?因為我們每次的擴容肯定會事先設計好這次擴容的范圍大小，我們只要保證這次的范圍內的數據均勻是不是就 ok 了。

我們先定義一個 group 組概念，這組里面包含了一些分庫以及分表，如下圖：

上圖有幾個關鍵點：

id=0～4000 萬肯定落到 group01 組中。
group01 組有 3 個 DB，那一個 id 如何路由到哪個 DB?
根據 hash 取模定位 DB，那模數為多少?模數要為所有此 group 組 DB 中的表數，上圖總表數為 10。為什么要去表的總數?而不是 DB 總數 3 呢?
如 id=12，id%10=2;那值為 2，落到哪個 DB 庫呢?這是設計是前期設定好的，那怎么設定的呢?
一旦設計定位哪個 DB 后，就需要確定落到 DB 中的哪張表呢?