面試官:能說(shuō)一說(shuō)MySQL緩存池嗎?
大家好,我是狂聊君。
今天來(lái)聊一聊 Mysql 緩存池原理。
提綱附上,話不多說(shuō),直接干貨。

前言
面試官:同學(xué),你能說(shuō)說(shuō)Mysql 緩存池嗎?
狂聊君:啊,這么難嗎,容我組織一下語(yǔ)言。(內(nèi)心OS:這TM還不簡(jiǎn)單?我能給你扯半小時(shí)!)
面試官:可以,給你一分鐘時(shí)間想一想吧。
....一分鐘后....
狂聊君:我準(zhǔn)備好了,你可聽(tīng)好,我要開(kāi)始表演了。
為什么要有緩存池?
Mysql 的 innodb 存儲(chǔ)引擎是基于磁盤存儲(chǔ)的,并且是按照頁(yè)的方式進(jìn)行管理的。
在數(shù)據(jù)庫(kù)系統(tǒng)中,CPU 速度與磁盤速度之間的差距是非常大的,為了最大可能的彌補(bǔ)之間的差距,提出了緩存池的概念。
所以緩存池,簡(jiǎn)單來(lái)說(shuō)就是一塊「內(nèi)存區(qū)域」,通過(guò)內(nèi)存的速度來(lái)彌補(bǔ)磁盤速度較慢,導(dǎo)致對(duì)數(shù)據(jù)庫(kù)造成性能的影響。
緩存池的基本原理
「讀操作」:
在數(shù)據(jù)庫(kù)中進(jìn)行讀取頁(yè)的操作,首先把從磁盤讀到的頁(yè)存放在緩存池中,下一次讀取相同的頁(yè)時(shí),首先判斷該頁(yè)是不是在緩存池中。
若在,稱該頁(yè)在緩存池中被命中,則直接讀取該頁(yè),否則,還是去讀取磁盤上的頁(yè)。
「寫操作」:
對(duì)于數(shù)據(jù)庫(kù)中頁(yè)的修改操作,首先修改在緩存池中的頁(yè),然后在以一定的頻率刷新到磁盤,并不是每次頁(yè)發(fā)生改變就刷新回磁盤,而是通過(guò) checkpoint 的機(jī)制把頁(yè)刷新回磁盤。
可以看到,無(wú)論是讀操作還是寫操縱,都是對(duì)緩存池進(jìn)行操作,而不是直接對(duì)磁盤進(jìn)行操縱。
緩存池結(jié)構(gòu)
Buffer Pool 是一片連續(xù)的內(nèi)存空間,innodb 存儲(chǔ)引擎是通過(guò)頁(yè)的方式對(duì)這塊內(nèi)存進(jìn)行管理的。
緩存池的結(jié)構(gòu)如下圖:

可以看到緩存池中包括數(shù)據(jù)頁(yè)、索引頁(yè)、插入緩存、自適應(yīng)哈希索引、鎖信息、數(shù)據(jù)字段。
其中數(shù)據(jù)頁(yè)和索引頁(yè)會(huì)用掉多數(shù)內(nèi)存。
「但是,innodb 是如何管理緩存池中的這么多頁(yè)呢?」
為了更好的管理這些緩存的頁(yè),innodb 為每一個(gè)緩存頁(yè)都創(chuàng)建了一些所謂的控制信息,這些控制信息包括該頁(yè)所屬的:
- 表空間編號(hào)(sapce id)
- 頁(yè)號(hào)(page numeber)
- 頁(yè)在 buffer Pool 的地址
- 一些鎖信息以及 LSN 信息日志序列號(hào)
- 其他控制信息
每個(gè)緩存頁(yè)對(duì)應(yīng)的控制信息占用的內(nèi)存大小是相同的,我們把每個(gè)頁(yè)對(duì)應(yīng)的控制信息占用的一塊內(nèi)存稱為一個(gè)「控制塊」。
「控制塊」和緩存頁(yè)是一一對(duì)應(yīng)的,它們都被存放到 Buffer Pool 中,其中控制塊被存放到 Buffer Pool 的前邊,緩存頁(yè)被存放到 Buffer Pool 的后邊。
Buffer Pool 對(duì)應(yīng)的內(nèi)存空間示意圖:

緩存池參數(shù)設(shè)置
- innodb_buffer_pool_size:緩存池的大小最多應(yīng)設(shè)置為物理內(nèi)存的 80%
- innodb_buffer_pool_instance:設(shè)置有多少個(gè)緩存池,通常建議把緩存池個(gè)數(shù)設(shè)置為 CPU 的個(gè)數(shù),多個(gè)緩存池可以減少數(shù)據(jù)庫(kù)內(nèi)部的資源競(jìng)爭(zhēng),增加數(shù)據(jù)庫(kù)并發(fā)訪問(wèn)的能力
- innodb_old_blocks_pct:老生代占整個(gè) LRU 的鏈長(zhǎng)比例,默認(rèn)是 3:7
- innodb_old_blocks_time:老生代停留時(shí)間窗口,單位是毫秒,默認(rèn)是 1000,即同時(shí)滿足“被訪問(wèn)”與“在老生代停留時(shí)間超過(guò) 1 秒”兩個(gè)條件,才會(huì)被插入到新生代頭部
緩存池管理
「管理緩存池依賴的鏈表結(jié)構(gòu)」:
Free 鏈表
當(dāng)啟動(dòng) Mysql 服務(wù)器的時(shí)候,需要完成對(duì) Buffer Pool 的初始化過(guò)程,即分配 Buffer Pool 的內(nèi)存空間,把它劃分為若干對(duì)控制塊和緩存頁(yè),但是此時(shí)并沒(méi)有真正的磁盤頁(yè)被緩存到 Buffer Pool 中,之后隨著程序的運(yùn)行,會(huì)不斷的有磁盤上的頁(yè)被緩存到 Buffer Pool 中。
在使用過(guò)程中,為了記錄哪些緩存頁(yè)是可用的,我們把所有空閑的頁(yè)包裝成一個(gè)節(jié)點(diǎn)組成一個(gè)鏈表,這個(gè)鏈表可以稱作為 Free 鏈表(空閑鏈表)。因?yàn)閯倓偼瓿沙跏蓟?Buffer Pool 中所有的緩存頁(yè)都是空閑的,所以每一個(gè)緩存頁(yè)都會(huì)被加入到 Free 鏈表中。
為了方便管理 Free 鏈表,特意為這個(gè)鏈表定義了一些「控制信息」,里面包含鏈表的頭節(jié)點(diǎn)地址,尾節(jié)點(diǎn)地址,以及當(dāng)前鏈表中節(jié)點(diǎn)的數(shù)量等信息。
另外會(huì)在每個(gè) Free 鏈表的節(jié)點(diǎn)中都記錄了某個(gè)「緩存頁(yè)控制塊」的地址,而每個(gè)「緩存頁(yè)控制塊」都記錄著對(duì)應(yīng)的「緩存頁(yè)地址」,所以相當(dāng)于每個(gè) Free 鏈表節(jié)點(diǎn)都對(duì)應(yīng)一個(gè)空閑的緩存頁(yè)。
給大家畫了個(gè)結(jié)構(gòu)圖:

這圖怎么樣,這下能看的懂了吧!
2、Lru 鏈表
Lru 鏈表用來(lái)管理已經(jīng)讀取的頁(yè),當(dāng)數(shù)據(jù)庫(kù)剛啟動(dòng)時(shí),Lru 鏈表是空的,此時(shí)頁(yè)也都放在 Free 列表中,當(dāng)需要讀取數(shù)據(jù)時(shí),會(huì)從 Free 鏈表中申請(qǐng)一個(gè)頁(yè),把從放入到磁盤讀取的數(shù)據(jù)放入到申請(qǐng)的頁(yè)中,這個(gè)頁(yè)的集合叫做 Lru 鏈表。
3、Flush 鏈表
Flush 鏈表用來(lái)管理被修改的頁(yè),Buffer Pool 中被修改的頁(yè)也被稱之為「臟頁(yè)」,臟頁(yè)既存在于 Lru 鏈表中,也存在于 Flush 鏈表中,F(xiàn)lush 鏈表中存的是一個(gè)指向 Lru 鏈表中具體數(shù)據(jù)的指針。
因此只有 Lru 鏈表中的頁(yè)第一次被修改時(shí),對(duì)應(yīng)的指針才會(huì)存入到 Flush 中,若之后再修改這個(gè)頁(yè),則是直接更新 Lru 鏈表中的頁(yè)對(duì)應(yīng)的數(shù)據(jù)。
這三者之間是這么個(gè)關(guān)系:

讀操作
Buffer Pool 一個(gè)最主要的功能是「加速讀」。加速讀是當(dāng)需要訪問(wèn)一個(gè)數(shù)據(jù)頁(yè)面的時(shí)候,如果這個(gè)頁(yè)面已經(jīng)在緩存池中,那么就不再需要訪問(wèn)磁盤,直接從緩沖池中就能獲取這個(gè)頁(yè)面的內(nèi)容。當(dāng)我們需要訪問(wèn)某個(gè)頁(yè)中的數(shù)據(jù)時(shí),就會(huì)把該頁(yè)加載到 Buffer Pool 中,如果該頁(yè)已經(jīng)在 Buffer Pool 中的話直接使用就可以了。
問(wèn)題:那么如何快速查找在 Buffer Pool 中的頁(yè)呢?
為了避免查詢數(shù)據(jù)頁(yè)時(shí)掃描 Lru,其實(shí)是根據(jù)表空間號(hào) + 頁(yè)號(hào)來(lái)定位一個(gè)頁(yè)的,也就相當(dāng)于表空間號(hào) + 頁(yè)號(hào)是一個(gè) key,緩存頁(yè)就是對(duì)應(yīng)的 value。用表空間號(hào) + 頁(yè)號(hào)作為 key,緩存頁(yè)作為 value 創(chuàng)建一個(gè)哈希表,在需要訪問(wèn)某個(gè)頁(yè)的數(shù)據(jù)時(shí),先從哈希表中根據(jù)表空間號(hào) + 頁(yè)號(hào)看看有沒(méi)有對(duì)應(yīng)的緩存頁(yè)。
如果有,直接使用該緩存頁(yè)就好。
如果沒(méi)有,那就從 Free 鏈表中選一個(gè)空閑的緩存頁(yè),然后把磁盤中對(duì)應(yīng)的頁(yè)加載到該緩存頁(yè)的位置。每當(dāng)需要從磁盤中加載一個(gè)頁(yè)到 Buffer Pool 中時(shí),就從 Free 鏈表中取一個(gè)空閑的緩存頁(yè),并且把該緩存頁(yè)對(duì)應(yīng)的控制塊的信息填上,然后把該緩存頁(yè)對(duì)應(yīng)的 Free 鏈表節(jié)點(diǎn)從鏈表中移除,表示該緩存頁(yè)已經(jīng)被使用了,并且把該頁(yè)寫入 Lru 鏈表。
在初始化的時(shí)候,Buffer pool 中所有的頁(yè)都是空閑頁(yè),需要讀數(shù)據(jù)時(shí),就會(huì)從 Free 鏈表中申請(qǐng)頁(yè),但是物理內(nèi)存不可能無(wú)限增大,數(shù)據(jù)庫(kù)的數(shù)據(jù)卻是在不停增大的,所以 Free 鏈表的頁(yè)是會(huì)用完的。
因此需要考慮把已經(jīng)緩存的頁(yè)從 Buffer pool 中刪除一部分,進(jìn)而需要考慮如何刪除及刪除哪些已經(jīng)緩存的頁(yè)。假設(shè)一共訪問(wèn)了 n 次頁(yè),那么被訪問(wèn)的頁(yè)在緩存中的次數(shù)除以 n 就是緩存命中率,緩存命中率越高,和磁盤的 IO 交互也就越少 。
為了提高緩存命中率,InnoDB 在傳統(tǒng) Lru 算法的基礎(chǔ)上做了優(yōu)化,解決了兩個(gè)問(wèn)題:1、預(yù)讀失效 2、緩存池污染
寫操作
Buffer pool 另一個(gè)主要的功能是「加速寫」,即當(dāng)需要修改一個(gè)頁(yè)面的時(shí)候,先將這個(gè)頁(yè)面在緩沖池中進(jìn)行修改,記下相關(guān)的重做日志,這個(gè)頁(yè)面的修改就算已經(jīng)完成了。
被修改的頁(yè)面真正刷新到磁盤,這個(gè)是后臺(tái)刷新線程來(lái)完成的。前面頁(yè)面更新是在緩存池中先進(jìn)行的,那它就和磁盤上的頁(yè)不一致了,這樣的緩存頁(yè)被稱為臟頁(yè)(dirty page)。
問(wèn)題:這些被修改的頁(yè)面什么時(shí)候刷新到磁盤?以什么樣的順序刷新到磁盤?
最簡(jiǎn)單的做法就是每發(fā)生一次修改就立即同步到磁盤上對(duì)應(yīng)的頁(yè)上,但是頻繁的往磁盤中寫數(shù)據(jù)會(huì)嚴(yán)重的影響程序的性能。所以每次修改緩存頁(yè)后,不能立即把修改同步到磁盤上,而是在未來(lái)的某個(gè)時(shí)間點(diǎn)進(jìn)行同步,由后臺(tái)刷新線程依次刷新到磁盤,實(shí)現(xiàn)修改落地到磁盤。
但是如果不立即同步到磁盤的話,那之后再同步的時(shí)候如何判斷 Buffer Pool 中哪些頁(yè)是臟頁(yè),哪些頁(yè)從來(lái)沒(méi)被修改過(guò)呢?
InnoDB 并沒(méi)有一次性把所有的緩存頁(yè)都同步到磁盤上,InnoDB 創(chuàng)建一個(gè)存儲(chǔ)臟頁(yè)的鏈表,凡是在 Lru 鏈表中被修改過(guò)的頁(yè)都需要加入這個(gè)鏈表中,因?yàn)檫@個(gè)鏈表中的頁(yè)都是需要被刷新到磁盤上的,所以這個(gè)鏈表也叫 Flush 鏈表,鏈表的構(gòu)造和 Free 鏈表一致。
這里的臟頁(yè)修改指的此頁(yè)被加載進(jìn) Buffer Pool 后第一次被修改,只有第一次被修改時(shí)才需要加入 Flush 鏈表,對(duì)于已經(jīng)存在在 Flush 鏈表中的頁(yè),如果這個(gè)頁(yè)被再次修改就不會(huì)再放到 Flush 鏈表。
需要注意,臟頁(yè)數(shù)據(jù)實(shí)際還在 Lru 鏈表中,而 Flush 鏈表中的臟頁(yè)記錄只是通過(guò)指針指向 Lru 鏈表中的臟頁(yè)。并且在 Flush 鏈表中的臟頁(yè)是根據(jù) oldest_lsn(這個(gè)值表示這個(gè)頁(yè)第一次被更改時(shí)的 lsn 號(hào),對(duì)應(yīng)值 oldest_modification,每個(gè)頁(yè)頭部記錄)進(jìn)行排序刷新到磁盤的,值越小表示要最先被刷新,避免數(shù)據(jù)不一致。