趣說 | 數(shù)據(jù)庫和緩存如何保證一致性?
一天,老板說「最近公司的用戶越來越多了,但是服務(wù)器的訪問速度越來越差的,阿旺幫我優(yōu)化下,做好了給你畫個餅!」。
程序員阿旺聽到老板口中的「畫餅」后就非常期待,沒有任何猶豫就接下了老板給的這個任務(wù)。
阿旺登陸到了服務(wù)器,經(jīng)過一番排查后,確認(rèn)服務(wù)器的性能瓶頸是在數(shù)據(jù)庫。
這好辦,給服務(wù)器加上 Redis,讓其作為數(shù)據(jù)庫的緩存。
這樣,在客戶端請求數(shù)據(jù)時,如果能在緩存中命中數(shù)據(jù),那就查詢緩存,不用在去查詢數(shù)據(jù)庫,從而減輕數(shù)據(jù)庫的壓力,提高服務(wù)器的性能。
先更新數(shù)據(jù)庫,還是先更新緩存?
阿旺有了這個想法后,就準(zhǔn)備開始著手優(yōu)化服務(wù)器,但是擋在在他前面的是這樣的一個問題。
由于引入了緩存,那么在數(shù)據(jù)更新時,不僅要更新數(shù)據(jù)庫,而且要更新緩存,這兩個更新操作存在前后的問題:
- 先更新數(shù)據(jù)庫,再更新緩存;
- 先更新緩存,再更新數(shù)據(jù)庫;
阿旺沒想到太多,他覺得最新的數(shù)據(jù)肯定要先更新數(shù)據(jù)庫,這樣才可以確保數(shù)據(jù)庫里的數(shù)據(jù)是最新的,于是他就采用了「先更新數(shù)據(jù)庫,再更新緩存」的方案。
阿旺經(jīng)過幾個夜晚的折騰,終于「優(yōu)化好了服務(wù)器」,然后就直接上線了,自信心滿滿跑去跟老板匯報。
老板不懂技術(shù),自然也沒多慮,就讓后續(xù)阿旺觀察下服務(wù)器的情況,如果效果不錯,就跟阿旺談畫餅的事情。
阿旺觀察了好幾天,發(fā)現(xiàn)數(shù)據(jù)庫的壓力大大減少了,訪問速度也提高了不少,心想這事肯定成的了。
好景不長,突然老板收到一個客戶的投訴,客戶說他剛發(fā)起了兩次更新年齡的操作,但是顯示的年齡確還是第一次更新時的年齡,而第二次更新年齡并沒有生效。
老板立馬就找了阿旺,訓(xùn)斥著阿旺說:「這么簡單的更新操作,都有 bug?我臉往哪兒放?你的餅還要不要了?」
聽到自己準(zhǔn)備到手的餅要沒了的阿旺瞬間就慌了,立馬登陸服務(wù)器排查問題,阿旺查詢緩存和數(shù)據(jù)庫的數(shù)據(jù)后發(fā)現(xiàn)了問題。
數(shù)據(jù)庫的數(shù)據(jù)是客戶第二次更新操作的數(shù)據(jù),而緩存確還是第一次更新操作的數(shù)據(jù),也就是出現(xiàn)了數(shù)據(jù)庫和緩存的數(shù)據(jù)不一致的問題。
這個問題可大了,阿旺經(jīng)過一輪的分析,造成緩存和數(shù)據(jù)庫的數(shù)據(jù)不一致的現(xiàn)象,是因為并發(fā)問題!
先更新數(shù)據(jù)庫,再更新緩存
舉個例子,比如「請求 A 」和「請求 B 」兩個請求,同時更新「同一條」數(shù)據(jù),則可能出現(xiàn)這樣的順序:
A 請求先將數(shù)據(jù)庫的數(shù)據(jù)更新為 1,然后在更新緩存前,請求 B 將數(shù)據(jù)庫的數(shù)據(jù)更新為 2,緊接著也把緩存更新為 2,然后 A 請求更新緩存為 1。
此時,數(shù)據(jù)庫中的數(shù)據(jù)是 2,而緩存中的數(shù)據(jù)卻是 1,出現(xiàn)了緩存和數(shù)據(jù)庫中的數(shù)據(jù)不一致的現(xiàn)象。
先更新緩存,再更新數(shù)據(jù)庫
那換成「先更新緩存,再更新數(shù)據(jù)庫」這個方案,還會有問題嗎?
依然還是存在并發(fā)的問題,分析思路也是一樣。
假設(shè)「請求 A 」和「請求 B 」兩個請求,同時更新「同一條」數(shù)據(jù),則可能出現(xiàn)這樣的順序:
A 請求先將緩存的數(shù)據(jù)更新為 1,然后在更新數(shù)據(jù)庫前,B 請求來了, 將緩存的數(shù)據(jù)更新為 2,緊接著把數(shù)據(jù)庫更新為 2,然后 A 請求將數(shù)據(jù)庫的數(shù)據(jù)更新為 1。
此時,數(shù)據(jù)庫中的數(shù)據(jù)是 1,而緩存中的數(shù)據(jù)卻是 2,出現(xiàn)了緩存和數(shù)據(jù)庫中的數(shù)據(jù)不一致的現(xiàn)象。
所以,無論是「先更新數(shù)據(jù)庫,再更新緩存」,還是「先更新緩存,再更新數(shù)據(jù)庫」,這兩個方案都存在并發(fā)問題,當(dāng)兩個請求并發(fā)更新同一條數(shù)據(jù)的時候,可能會出現(xiàn)緩存和數(shù)據(jù)庫中的數(shù)據(jù)不一致的現(xiàn)象。
先更新數(shù)據(jù)庫,還是先刪除緩存?
阿旺定位出問題后,思考了一番后,決定在更新數(shù)據(jù)時,不更新緩存,而是刪除緩存中的數(shù)據(jù)。然后,到讀取數(shù)據(jù)時,發(fā)現(xiàn)緩存中沒了數(shù)據(jù)之后,再從數(shù)據(jù)庫中讀取數(shù)據(jù),更新到緩存中。
阿旺想的這個策略是有名字的,是叫 Cache Aside 策略,中文是叫旁路緩存策略。
該策略又可以細(xì)分為「讀策略」和「寫策略」。
寫策略的步驟:
- 更新數(shù)據(jù)庫中的數(shù)據(jù);
- 刪除緩存中的數(shù)據(jù)。
讀策略的步驟:
- 如果讀取的數(shù)據(jù)命中了緩存,則直接返回數(shù)據(jù);
- 如果讀取的數(shù)據(jù)沒有命中緩存,則從數(shù)據(jù)庫中讀取數(shù)據(jù),然后將數(shù)據(jù)寫入到緩存,并且返回給用戶。
阿旺在想到「寫策略」的時候,又陷入更深層次的思考,到底該選擇哪種順序呢?
- 先刪除緩存,再更新數(shù)據(jù)庫;
- 先更新數(shù)據(jù)庫,再刪除緩存。
阿旺這次經(jīng)過上次教訓(xùn),不再「想當(dāng)然」的亂選方案,因為老板這次給的餅很大啊,必須把握住。
于是阿旺用并發(fā)的角度來分析,看看這兩種方案哪個可以保證數(shù)據(jù)庫與緩存的數(shù)據(jù)一致性。
先刪除緩存,再更新數(shù)據(jù)庫
阿旺還是以用戶表的場景來分析。
假設(shè)某個用戶的年齡是 20,請求 A 要更新用戶年齡為 21,所以它會刪除緩存中的內(nèi)容。這時,另一個請求 B 要讀取這個用戶的年齡,它查詢緩存發(fā)現(xiàn)未命中后,會從數(shù)據(jù)庫中讀取到年齡為 20,并且寫入到緩存中,然后請求 A 繼續(xù)更改數(shù)據(jù)庫,將用戶的年齡更新為 21。
最終,該用戶年齡在緩存中是 20(舊值),在數(shù)據(jù)庫中是 21(新值),緩存和數(shù)據(jù)庫的數(shù)據(jù)不一致。
可以看到,先刪除緩存,再更新數(shù)據(jù)庫,在「讀 + 寫」并發(fā)的時候,還是會出現(xiàn)緩存和數(shù)據(jù)庫的數(shù)據(jù)不一致的問題。
先更新數(shù)據(jù)庫,再刪除緩存
繼續(xù)用「讀 + 寫」請求的并發(fā)的場景來分析。
假如某個用戶數(shù)據(jù)在緩存中不存在,請求 A 讀取數(shù)據(jù)時從數(shù)據(jù)庫中查詢到年齡為 20,在未寫入緩存中時另一個請求 B 更新數(shù)據(jù)。它更新數(shù)據(jù)庫中的年齡為 21,并且清空緩存。這時請求 A 把從數(shù)據(jù)庫中讀到的年齡為 20 的數(shù)據(jù)寫入到緩存中。
最終,該用戶年齡在緩存中是 20(舊值),在數(shù)據(jù)庫中是 21(新值),緩存和數(shù)據(jù)庫數(shù)據(jù)不一致。
從上面的理論上分析,先更新數(shù)據(jù)庫,再刪除緩存也是會出現(xiàn)數(shù)據(jù)不一致性的問題,但是在實(shí)際中,這個問題出現(xiàn)的概率并不高。
因為緩存的寫入通常要遠(yuǎn)遠(yuǎn)快于數(shù)據(jù)庫的寫入,所以在實(shí)際中很難出現(xiàn)請求 B 已經(jīng)更新了數(shù)據(jù)庫并且刪除了緩存,請求 A 才更新完緩存的情況。
而一旦請求 A 早于請求 B 刪除緩存之前更新了緩存,那么接下來的請求就會因為緩存不命中而從數(shù)據(jù)庫中重新讀取數(shù)據(jù),所以不會出現(xiàn)這種不一致的情況。
所以,「先更新數(shù)據(jù)庫 + 再刪除緩存」的方案,是可以保證數(shù)據(jù)一致性的。
而且阿旺為了確保萬無一失,還給緩存數(shù)據(jù)加上了「過期時間」,就算在這期間存在緩存數(shù)據(jù)不一致,有過期時間來兜底,這樣也能達(dá)到最終一致。
阿旺思考到這一步后,覺得自己真的是個小天才,因為他竟然想到了個「天衣無縫」的方案,他二話不說就采用了這個方案,又經(jīng)過幾天的折騰,終于完成了。
他自信滿滿的向老板匯報,已經(jīng)解決了上次客戶的投訴的問題了。老板覺得阿旺這小伙子不錯,這么快就解決問題了,然后讓阿旺在觀察幾天。
事情哪有這么順利呢?結(jié)果又沒過多久,老板又收到客戶的投訴了,說自己明明更新了數(shù)據(jù),但是數(shù)據(jù)要過一段時間才生效,客戶接受不了。
老板面無表情的找上阿旺,讓阿旺盡快查出問題。
阿旺得知又有 Bug 就更慌了,立馬就登錄服務(wù)器去排查問題,查看日志后得知了原因。
「先更新數(shù)據(jù)庫, 再刪除緩存」其實(shí)是兩個操作,前面的所有分析都是建立在這兩個操作都能同時執(zhí)行成功,而這次客戶投訴的問題就在于,在****刪除緩存(第二個操作)的時候失敗了,導(dǎo)致緩存中的數(shù)據(jù)是舊值。
好在之前給緩存加上了過期時間,所以才會出現(xiàn)客戶說的過一段時間才更新生效的現(xiàn)象,假設(shè)如果沒有這個過期時間的兜底,那后續(xù)的請求讀到的就會一直是緩存中的舊數(shù)據(jù),這樣問題就更大了。
所以新的問題來了,如何保證「先更新數(shù)據(jù)庫 ,再刪除緩存」這兩個操作能執(zhí)行成功?
阿旺分析出問題后,慌慌張張的向老板匯報了問題。
老板知道事情后,又給了阿旺幾天來解決這個問題,畫餅的事情這次沒有再提了。
阿旺會用什么方式來解決這個問題呢?
老板畫的餅事情,能否兌現(xiàn)給阿旺呢?
預(yù)知后事,且聽下回阿旺的故事。
小結(jié)
阿旺的事情就聊到這,我們繼續(xù)說點(diǎn)其他。
「先更新數(shù)據(jù)庫,再刪除緩存」的方案雖然保證了數(shù)據(jù)庫與緩存的數(shù)據(jù)一致性,但是每次更新數(shù)據(jù)的時候,緩存的數(shù)據(jù)都會被刪除,這樣會對緩存的命中率帶來影響。
所以,如果我們的業(yè)務(wù)對緩存命中率有很高的要求,我們可以采用「更新數(shù)據(jù)庫 + 更新緩存」的方案,因為更新緩存并不會出現(xiàn)緩存未命中的情況。
但是這個方案前面我們也分析過,在兩個更新請求并發(fā)執(zhí)行的時候,會出現(xiàn)數(shù)據(jù)不一致的問題,因為更新數(shù)據(jù)庫和更新緩存這兩個操作是獨(dú)立的,而我們又沒有對操作做任何并發(fā)控制,那么當(dāng)兩個線程并發(fā)更新它們的話,就會因為寫入順序的不同造成數(shù)據(jù)的不一致。
所以我們得增加一些手段來解決這個問題,這里提供兩種做法:
- 在更新緩存前先加個分布式鎖,保證同一時間只運(yùn)行一個請求更新緩存,就會不會產(chǎn)生并發(fā)問題了,當(dāng)然引入了鎖后,對于寫入的性能就會帶來影響。
- 在更新完緩存時,給緩存加上較短的過期時間,這樣即時出現(xiàn)緩存不一致的情況,緩存的數(shù)據(jù)也會很快過期,對業(yè)務(wù)還是能接受的。
對了,針對「先刪除緩存,再刪除數(shù)據(jù)庫」方案在「讀 + 寫」并發(fā)請求而造成緩存不一致的解決辦法是「延遲雙刪」。
延遲雙刪實(shí)現(xiàn)的偽代碼如下:
#刪除緩存
redis.delKey(X)
#更新數(shù)據(jù)庫
db.update(X)
#睡眠
Thread.sleep(N)
#再刪除緩存
redis.delKey(X)
加了個睡眠時間,主要是為了確保請求 A 在睡眠的時候,請求 B 能夠在這這一段時間完成「從數(shù)據(jù)庫讀取數(shù)據(jù),再把缺失的緩存寫入緩存」的操作,然后請求 A 睡眠完,再刪除緩存。
所以,請求 A 的睡眠時間就需要大于請求 B 「從數(shù)據(jù)庫讀取數(shù)據(jù) + 寫入緩存」的時間。
但是具體睡眠多久其實(shí)是個玄學(xué),很難評估出來,所以這個方案也只是盡可能保證一致性而已,極端情況下,依然也會出現(xiàn)緩存不一致的現(xiàn)象。
因此,還是比較建議用「先更新數(shù)據(jù)庫,再刪除緩存」的方案。
前情回顧
上回程序員阿旺為了提升數(shù)據(jù)訪問的性能,引入 Redis 作為 MySQL 緩存層,但是這件事情并不是那么簡單,因為還要考慮 Redis 和 MySQL 雙寫一致性的問題。
阿旺經(jīng)過一番周折,最終選用了「先更新數(shù)據(jù)庫,再刪緩存」的策略,原因是這個策略即使在并發(fā)讀寫時,也能最大程度保證數(shù)據(jù)一致性。
聰明的阿旺還搞了個兜底的方案,就是給緩存加上了過期時間。
本以為就這樣不會在出現(xiàn)數(shù)據(jù)一致性的問題,結(jié)果將功能上線后,老板還是收到用戶的投訴「說自己明明更新了數(shù)據(jù),但是數(shù)據(jù)要過一段時間才生效」,客戶接受不了。
老板轉(zhuǎn)告給了阿旺,阿旺得知又有 Bug 就更慌了,立馬就登錄服務(wù)器去排查問題,查看日志后得知了原因。
「先更新數(shù)據(jù)庫, 再刪除緩存」其實(shí)是兩個操作,這次客戶投訴的問題就在于,在刪除緩存(第二個操作)的時候失敗了,導(dǎo)致緩存中的數(shù)據(jù)是舊值,而數(shù)據(jù)庫是最新值。
好在之前給緩存加上了過期時間,所以才會出現(xiàn)客戶說的過一段時間才更新生效的現(xiàn)象,假設(shè)如果沒有這個過期時間的兜底,那后續(xù)的請求讀到的就會一直是緩存中的舊數(shù)據(jù),這樣問題就更大了。
所以新的問題來了,如何保證「先更新數(shù)據(jù)庫 ,再刪除緩存」這兩個操作能執(zhí)行成功?
阿旺分析出問題后,慌慌張張的向老板匯報了問題。
老板知道事情后,又給了阿旺幾天來解決這個問題,畫餅的事情這次沒有再提了。
- 阿旺會用什么方式來解決這個問題呢?
- 老板畫的餅事情,能否兌現(xiàn)給阿旺呢?
如何保證兩個操作都能執(zhí)行成功?
這次用戶的投訴是因為在刪除緩存(第二個操作)的時候失敗了,導(dǎo)致緩存還是舊值,而數(shù)據(jù)庫是最新值,造成數(shù)據(jù)庫和緩存數(shù)據(jù)不一致的問題,會對敏感業(yè)務(wù)造成影響。
舉個例子,來說明下。
應(yīng)用要把數(shù)據(jù) X 的值從 1 更新為 2,先成功更新了數(shù)據(jù)庫,然后在 Redis 緩存中刪除 X 的緩存,但是這個操作卻失敗了,這個時候數(shù)據(jù)庫中 X 的新值為 2,Redis 中的 X 的緩存值為 1,出現(xiàn)了數(shù)據(jù)庫和緩存數(shù)據(jù)不一致的問題。
那么,后續(xù)有訪問數(shù)據(jù) X 的請求,會先在 Redis 中查詢,因為緩存并沒有 誒刪除,所以會緩存命中,但是讀到的卻是舊值 1。
其實(shí)不管是先操作數(shù)據(jù)庫,還是先操作緩存,只要第二個操作失敗都會出現(xiàn)數(shù)據(jù)一致的問題。
問題原因知道了,該怎么解決呢?有兩種方法:
- 重試機(jī)制。
- 訂閱 MySQL binlog,再操作緩存。
先來說第一種。
重試機(jī)制
我們可以引入消息隊列,將第二個操作(刪除緩存)要操作的數(shù)據(jù)加入到消息隊列,由消費(fèi)者來操作數(shù)據(jù)。
- 如果應(yīng)用刪除緩存失敗,可以從消息隊列中重新讀取數(shù)據(jù),然后再次刪除緩存,這個就是重試機(jī)制。當(dāng)然,如果重試超過的一定次數(shù),還是沒有成功,我們就需要向業(yè)務(wù)層發(fā)送報錯信息了。
- 如果刪除緩存成功,就要把數(shù)據(jù)從消息隊列中移除,避免重復(fù)操作,否則就繼續(xù)重試。
舉個例子,來說明重試機(jī)制的過程。
訂閱 MySQL binlog,再操作緩存
「先更新數(shù)據(jù)庫,再刪緩存」的策略的第一步是更新數(shù)據(jù)庫,那么更新數(shù)據(jù)庫成功,就會產(chǎn)生一條變更日志,記錄在 binlog 里。
于是我們就可以通過訂閱 binlog 日志,拿到具體要操作的數(shù)據(jù),然后再執(zhí)行緩存刪除,阿里巴巴開源的 Canal 中間件就是基于這個實(shí)現(xiàn)的。
Canal 模擬 MySQL 主從復(fù)制的交互協(xié)議,把自己偽裝成一個 MySQL 的從節(jié)點(diǎn),向 MySQL 主節(jié)點(diǎn)發(fā)送 dump 請求,MySQL 收到請求后,就會開始推送 Binlog 給 Canal,Canal 解析 Binlog 字節(jié)流之后,轉(zhuǎn)換為便于讀取的結(jié)構(gòu)化數(shù)據(jù),供下游程序訂閱使用。
下圖是 Canal 的工作原理:
所以,如果要想保證「先更新數(shù)據(jù)庫,再刪緩存」策略第二個操作能執(zhí)行成功,我們可以使用「消息隊列來重試緩存的刪除」,或者「訂閱 MySQL binlog 再操作緩存」,這兩種方法有一個共同的特點(diǎn),都是采用異步操作緩存。
老板發(fā)餅啦
阿旺由于對消息隊列比較熟悉,所以他決定采用「消息隊列來重試緩存的刪除」的方案,來解決這次的用戶問題。
經(jīng)過幾天幾夜的操作,服務(wù)器搞定啦,立馬向老板匯報工作。
老板讓阿旺再觀察些時間,如果沒問題,到中秋節(jié)就商量“餅”的事情。
時間過的很快,中秋佳節(jié)到了,這期間一直都沒有用戶反饋數(shù)據(jù)不一致的問題。
老板見這次阿旺表現(xiàn)很好,沒有再出現(xiàn)任何差錯,服務(wù)器的訪問性能也上來了,于是給阿旺發(fā)了這個超級大的月餅,你看這個餅又大又圓,就像你的代碼又長又多。