被勸退后三月中旬到現(xiàn)在無(wú) offer，問(wèn)我如何設(shè)計(jì)一個(gè)高性能MySQL 主鍵，實(shí)現(xiàn)海量數(shù)據(jù)下的高效查詢

作者：碼哥 2024-04-08 08:33:00

如果表使用自增主鍵，那么每次插入新的記錄，記錄就會(huì)順序添加到當(dāng)前索引節(jié)點(diǎn)的后續(xù)位置，當(dāng)一頁(yè)寫滿，就會(huì)自動(dòng)開辟一個(gè)新的頁(yè)。這樣就會(huì)形成一個(gè)緊湊的索引結(jié)構(gòu)，近似順序填滿。

在脈脈上有一個(gè)熱度很高的帖子「碩 1.5，被勸退后三月中旬到現(xiàn)在無(wú) offer，不知道怎么破」。

圖片

有網(wǎng)友說(shuō)：「如果能約到面試，說(shuō)明簡(jiǎn)歷不差，但是 50 場(chǎng)都沒有 offer，說(shuō)明你的面試談判技巧出現(xiàn)了問(wèn)題，應(yīng)該總結(jié)一下，及時(shí)調(diào)整，心態(tài)不要崩」。

圖片

由這個(gè)話題為引子，碼哥接下來(lái)給你分享一個(gè)知識(shí)點(diǎn)：「如何設(shè)計(jì)一個(gè)高性能MySQL 主鍵，實(shí)現(xiàn)海量數(shù)據(jù)下的高效查詢」。

為什么需要主鍵

三個(gè)點(diǎn)。

數(shù)據(jù)記錄需具有唯一性(第一范式)
數(shù)據(jù)需要關(guān)聯(lián) join。
數(shù)據(jù)庫(kù)底層索引用于檢索數(shù)據(jù)所需數(shù)據(jù)。

為什么主鍵不宜過(guò)長(zhǎng)

這個(gè)問(wèn)題的點(diǎn)在長(zhǎng)上。那短比長(zhǎng)有什么優(yōu)勢(shì)？（嘿嘿嘿，內(nèi)涵）—— 短不占空間。

但這么點(diǎn)磁盤空間相對(duì)整個(gè)數(shù)據(jù)量來(lái)說(shuō)微不足道。

那么原因應(yīng)該在快上，而且和原始數(shù)據(jù)關(guān)系不大。以此自然得出和索引相關(guān)，而且和索引讀取相關(guān)。那么為什么主鍵過(guò)大在索引中會(huì)影響性能？

圖片

圖中是 MySQL Innodb 引擎的索引數(shù)據(jù)結(jié)構(gòu)。

左邊是聚簇索引，通過(guò)主鍵定位數(shù)據(jù)記錄。

右邊是普通索引，對(duì)列數(shù)據(jù)做索引，通過(guò)列數(shù)據(jù)查找數(shù)據(jù)主鍵。

如果通過(guò)普通查詢數(shù)據(jù)，流程如圖所示，先從普通索引樹上搜索到主鍵，然后在聚簇索引上通過(guò)主鍵搜索到數(shù)據(jù)行。

其中普通索引的葉子節(jié)點(diǎn)是直接存儲(chǔ)的主鍵值，而不是主鍵指針。

所以如果主鍵太長(zhǎng)，一個(gè)普通索引樹所能存儲(chǔ)的索引記錄就會(huì)變少，這樣在有限的索引緩沖中，需要讀取磁盤的次數(shù)就會(huì)變多，所以性能就會(huì)下降。

為什么建議使用遞增 ID

圖片

InnoDB 使用聚簇索引，如上圖所示，數(shù)據(jù)記錄本身被存于索引（一顆 B+Tree）的葉子節(jié)點(diǎn)上有序存儲(chǔ)。

這就要求同一個(gè)葉子節(jié)點(diǎn)內(nèi)（大小為一個(gè)內(nèi)存頁(yè)或磁盤頁(yè)）的各條數(shù)據(jù)記錄按主鍵順序存放。

因此每當(dāng)有一條新的記錄插入時(shí)，MySQL 會(huì)根據(jù)其主鍵值將其插入適當(dāng)?shù)墓?jié)點(diǎn)和位置，如果頁(yè)面達(dá)到裝載因子（InnoDB 默認(rèn)為 15/16），則開辟一個(gè)新的頁(yè)（節(jié)點(diǎn)）。

由于每次插入時(shí)也不需要移動(dòng)已有數(shù)據(jù)，因此效率很高，也不會(huì)增加很多開銷在維護(hù)索引上，如下圖所示。

否則由于每次插入主鍵的值近似于隨機(jī)，因此每次新記錄都要被插到現(xiàn)有索引頁(yè)的中間某個(gè)位置，MySQL 不得不為了將新記錄插到合適位置而移動(dòng)數(shù)據(jù)，如下圖右側(cè)所示。

圖片

ID 是否有需要具備業(yè)務(wù)含義

業(yè)務(wù) ID，即使用具有業(yè)務(wù)意義的 id，比如使用訂單流水號(hào)作為訂單表的主鍵 Key。

邏輯 ID，即無(wú)關(guān)業(yè)務(wù)的 id，按某種規(guī)則生成 id，如自增 ID。

業(yè)務(wù) ID 的優(yōu)點(diǎn)

ID 具有業(yè)務(wù)意義，在查詢時(shí)可以直接作為搜索關(guān)鍵字使用。
不需要額外的列和索引空間。
可以減少一些 join 操作。

業(yè)務(wù) ID 的缺點(diǎn)

當(dāng)業(yè)務(wù)發(fā)生變化時(shí)，有時(shí)需要變更主鍵。
涉及多列 ID 時(shí)比較難操作。
業(yè)務(wù) ID 往往比較長(zhǎng)，所占空間更大，導(dǎo)致更大的磁盤 I/O。
在 ID 確定前不能持久化數(shù)據(jù)，有時(shí)我們沒有在確定數(shù)據(jù) ID 。時(shí)，就想先添加一條記錄，之后再更新業(yè)務(wù) ID。
設(shè)計(jì)一個(gè)兼具易用和性能的 ID 生成方案比較難。

邏輯 ID 的優(yōu)點(diǎn)

不會(huì)因?yàn)闃I(yè)務(wù)的變動(dòng)而需要修改 ID 邏輯。
操作簡(jiǎn)單，且易于管理。
邏輯 ID 往往更小，性能更優(yōu)。
邏輯 ID 更容易保證唯一性。
更易于優(yōu)化。

邏輯 ID 的缺點(diǎn)

查詢主鍵列和主鍵索引需要額外的磁盤空間。
在插入數(shù)據(jù)和更新數(shù)據(jù)時(shí)需要額外的 I/O。
更多的 join 可能。
如果沒有唯一性策略限制，容易出現(xiàn)重復(fù)的 ID。
測(cè)試環(huán)境和正式環(huán)境 ID 不一致，不利于排查問(wèn)題。
ID 的值沒有和數(shù)據(jù)關(guān)聯(lián)，不符合三范式。
不能用于搜索關(guān)鍵字。
依賴不同數(shù)據(jù)庫(kù)系統(tǒng)的具體實(shí)現(xiàn)，不利于底層數(shù)據(jù)庫(kù)的替換。

主鍵 ID 生成方式有哪些？

一般情況下，我們都使用 MySQL 的自增 ID，來(lái)作為表的主鍵，這樣簡(jiǎn)單，而且從上面講到的來(lái)看，性能也是最好的。

但是在分庫(kù)分表的情況情況下，自增 ID 則不能滿足需求。我們可以來(lái)看看不同數(shù)據(jù)庫(kù)生成 ID 的方式，也看一些分布式 ID 生成方案。

MySQL 自增

MySQL 在內(nèi)存中維護(hù)一個(gè)自增計(jì)數(shù)器，每次訪問(wèn) auto-increment 計(jì)數(shù)器的時(shí)候， InnoDB 都會(huì)加上一個(gè)名為AUTO-INC 鎖直到該語(yǔ)句結(jié)束(注意鎖只持有到語(yǔ)句結(jié)束,不是事務(wù)結(jié)束)。

AUTO-INC 鎖是一個(gè)特殊的表級(jí)別的鎖，用來(lái)提升包含 auto_increment 列的并發(fā)插入性。

在分布式的情況下，其實(shí)可以獨(dú)立一個(gè)服務(wù)和數(shù)據(jù)庫(kù)來(lái)做 ID 生成，依舊依賴 MySQL 的表 ID 自增能力來(lái)為第三方服務(wù)統(tǒng)一生成 id。

Mongodb ObjectId

Mongodb 為防止主鍵沖突，設(shè)計(jì)了一個(gè) ObjectId 作為主鍵 id。它由一個(gè) 12 字節(jié)的十六進(jìn)制數(shù)字組成，其中包含以下幾部分：

Time：時(shí)間戳。4 字節(jié)。秒級(jí)。
Machine：機(jī)器標(biāo)識(shí)。3 字節(jié)。一般是機(jī)器主機(jī)名的散列值，這樣就確保了不同主機(jī)生成不同的機(jī)器 hash 值，確保在分布式中不造成沖突，同一臺(tái)機(jī)器的值相同。
PID：進(jìn)程 ID。2 字節(jié)。上面的 Machine 是為了確保在不同機(jī)器產(chǎn)生的 objectId 不沖突，而 pid 就是為了在同一臺(tái)機(jī)器不同的 mongodb 進(jìn)程產(chǎn)生的 objectId 不沖突。
INC：自增計(jì)數(shù)器。3 字節(jié)。前面的九個(gè)字節(jié)保證了一秒內(nèi)不同機(jī)器不同進(jìn)程生成的 objectId 不沖突，自增計(jì)數(shù)器，用來(lái)確保在同一秒內(nèi)產(chǎn)生的 objectId 也不會(huì)發(fā)現(xiàn)沖突，允許 256 的 3 次方等于 16777216 條記錄的唯一性。

開源框架實(shí)現(xiàn)

百度 UidGenerator：基于snowflake算法。
美團(tuán) Leaf：同時(shí)實(shí)現(xiàn)了基于 MySQL 自增（優(yōu)化）和 snowflake 算法的機(jī)制。

博主簡(jiǎn)介

碼哥，9 年互聯(lián)網(wǎng)公司后端工作經(jīng)驗(yàn)，InfoQ 簽約作者、51CTO Top 紅人，阿里云開發(fā)者社區(qū)專家博主，目前擔(dān)任后端架構(gòu)師主責(zé)，擅長(zhǎng) Redis、Spring、Kafka、MySQL 技術(shù)和云原生微服務(wù)。

責(zé)任編輯：武曉燕來(lái)源：碼哥字節(jié)