五分鐘技術(shù)趣談 | 數(shù)據(jù)庫(kù)之互聯(lián)網(wǎng)常用架構(gòu)方案一覽及應(yīng)用場(chǎng)景淺析
Part 01
數(shù)據(jù)庫(kù)架構(gòu)原則
高可用
高可用指的是數(shù)據(jù)庫(kù)應(yīng)盡可能地使其服務(wù)持續(xù)可用,以消除或最小化停機(jī)時(shí)間。這可以通過(guò)減少單點(diǎn)故障、故障切換解決方案、數(shù)據(jù)冗余等方式實(shí)現(xiàn)。
高性能
這指的是數(shù)據(jù)庫(kù)在查詢和數(shù)據(jù)操作上的處理速度。高性能數(shù)據(jù)庫(kù)系統(tǒng)能迅速響應(yīng)查詢請(qǐng)求,甚至在處理大量數(shù)據(jù)時(shí)也能保持高性能。這在互聯(lián)網(wǎng)場(chǎng)景下尤為重要,因?yàn)橛脩敉ǔF谕焖夙憫?yīng)。
一致性
在數(shù)據(jù)庫(kù)領(lǐng)域,一致性指的是在任何給定時(shí)間點(diǎn),所有的復(fù)制數(shù)據(jù)都必須相同。數(shù)據(jù)庫(kù)系統(tǒng)采取多種策略來(lái)保證一致性,比如操作的原子性(一個(gè)操作要么全部成功,要么全部失敗,不會(huì)出現(xiàn)部分完成的情況)和事務(wù)的隔離性(通過(guò)鎖和其他并發(fā)控制機(jī)制來(lái)防止多個(gè)事務(wù)交叉執(zhí)行產(chǎn)生的數(shù)據(jù)不一致問(wèn)題)。
擴(kuò)展性
擴(kuò)展性指的是數(shù)據(jù)庫(kù)在增加硬件資源(如存儲(chǔ)和處理能力)時(shí)能有效提升性能的能力。水平擴(kuò)展(增加更多服務(wù)器)和垂直擴(kuò)展(增強(qiáng)單個(gè)服務(wù)器能力)是兩種常見(jiàn)的擴(kuò)展策略。一個(gè)具有高擴(kuò)展性的數(shù)據(jù)庫(kù)能夠應(yīng)對(duì)數(shù)據(jù)增長(zhǎng)和查詢量的增長(zhǎng),保證數(shù)據(jù)庫(kù)系統(tǒng)的性能和穩(wěn)定性。
Part 02
常見(jiàn)的架構(gòu)方案
方案一:主備架構(gòu),只有主庫(kù)提供讀寫(xiě)服務(wù),備庫(kù)冗余作故障轉(zhuǎn)移用
jdbc:mysql://vip:3306/xxdb
1、高可用分析:高可用,主庫(kù)掛了,keepalive(只是一種工具)會(huì)自動(dòng)切換到備庫(kù)。這個(gè)過(guò)程對(duì)業(yè)務(wù)層是透明的,無(wú)需修改代碼或配置。
2、高性能分析:讀寫(xiě)都操作主庫(kù),很容易產(chǎn)生瓶頸。大部分互聯(lián)網(wǎng)應(yīng)用讀多寫(xiě)少,讀會(huì)先成為瓶頸,進(jìn)而影響寫(xiě)性能。另外,備庫(kù)只是單純的備份,資源利用率50%,這點(diǎn)方案二可解決。
3、一致性分析:讀寫(xiě)都操作主庫(kù),不存在數(shù)據(jù)一致性問(wèn)題。
4、擴(kuò)展性分析:無(wú)法通過(guò)加從庫(kù)來(lái)擴(kuò)展讀性能,進(jìn)而提高整體性能。
5、可落地分析:兩點(diǎn)影響落地使用。第一,性能一般,這點(diǎn)可以通過(guò)建立高效的索引和引入緩存來(lái)增加讀性能,進(jìn)而提高性能。這也是通用的方案。第二,擴(kuò)展性差,這點(diǎn)可以通過(guò)分庫(kù)分表來(lái)擴(kuò)展。
方案二:雙主架構(gòu),兩個(gè)主庫(kù)同時(shí)提供服務(wù),負(fù)載均衡
jdbc:mysql://vip:3306/xxdb
1、高可用分析:高可用,一個(gè)主庫(kù)掛了,不影響另一臺(tái)主庫(kù)提供服務(wù)。這個(gè)過(guò)程對(duì)業(yè)務(wù)層是透明的,無(wú)需修改代碼或配置。
2、高性能分析:讀寫(xiě)性能相比于方案一都得到提升,提升一倍。
3、一致性分析:存在數(shù)據(jù)一致性問(wèn)題。一致性解決方案。
4、擴(kuò)展性分析:當(dāng)然可以擴(kuò)展成三主循環(huán),但筆者不建議(會(huì)多一層數(shù)據(jù)同步,這樣同步的時(shí)間會(huì)更長(zhǎng))。如果非得在數(shù)據(jù)庫(kù)架構(gòu)層面擴(kuò)展的話,擴(kuò)展為方案四。
5、可落地分析:兩點(diǎn)影響落地使用。第一,數(shù)據(jù)一致性問(wèn)題,一致性解決方案可解決問(wèn)題。第二,主鍵沖突問(wèn)題,ID統(tǒng)一地由分布式ID生成服務(wù)來(lái)生成可解決問(wèn)題。
方案三:主從架構(gòu),一主多從,讀寫(xiě)分離
jdbc:mysql://master-ip:3306/xxdb
jdbc:mysql://slave1-ip:3306/xxdb
jdbc:mysql://slave2-ip:3306/xxdb
1、高可用分析:主庫(kù)單點(diǎn),從庫(kù)高可用。一旦主庫(kù)掛了,寫(xiě)服務(wù)也就無(wú)法提供。
2、高性能分析:大部分互聯(lián)網(wǎng)應(yīng)用讀多寫(xiě)少,讀會(huì)先成為瓶頸,進(jìn)而影響整體性能。讀的性能提高了,整體性能也提高了。另外,主庫(kù)可以不用索引,線上從庫(kù)和線下從庫(kù)也可以建立不同的索引(線上從庫(kù)如果有多個(gè)還是要建立相同的索引,不然得不償失;線下從庫(kù)是平時(shí)開(kāi)發(fā)人員排查線上問(wèn)題時(shí)查的庫(kù),可以建更多的索引)。
3、一致性分析:存在數(shù)據(jù)一致性問(wèn)題。請(qǐng)看,一致性解決方案。
4、擴(kuò)展性分析:可以通過(guò)加從庫(kù)來(lái)擴(kuò)展讀性能,進(jìn)而提高整體性能。(帶來(lái)的問(wèn)題是,從庫(kù)越多需要從主庫(kù)拉取binlog日志的端就越多,進(jìn)而影響主庫(kù)的性能,并且數(shù)據(jù)同步完成的時(shí)間也會(huì)更長(zhǎng))
5、可落地分析:兩點(diǎn)影響落地使用。第一,數(shù)據(jù)一致性問(wèn)題,一致性解決方案可解決問(wèn)題。第二,主庫(kù)單點(diǎn)問(wèn)題,筆者暫時(shí)沒(méi)想到很好的解決方案。注:思考一個(gè)問(wèn)題,一臺(tái)從庫(kù)掛了會(huì)怎樣?讀寫(xiě)分離之讀的負(fù)載均衡策略怎么容錯(cuò)?
方案四:雙主+主從架構(gòu),看似完美的方案
jdbc:mysql://vip:3306/xxdb
jdbc:mysql://slave1-ip:3306/xxdb
jdbc:mysql://slave2-ip:3306/xxdb
1、高可用分析:高可用。
2、高性能分析:高性能。
3、一致性分析:存在數(shù)據(jù)一致性問(wèn)題。請(qǐng)看,一致性解決方案。
4、擴(kuò)展性分析:可以通過(guò)加從庫(kù)來(lái)擴(kuò)展讀性能,進(jìn)而提高整體性能。(帶來(lái)的問(wèn)題同方案二)
5、可落地分析:同方案二,但數(shù)據(jù)同步又多了一層,數(shù)據(jù)延遲更嚴(yán)重。
Part 03
一致性解決方案
第一類:主庫(kù)和從庫(kù)一致性解決方案
注:圖中圈出的是數(shù)據(jù)同步的地方,數(shù)據(jù)同步(從庫(kù)從主庫(kù)拉取binlog日志,再執(zhí)行一遍)是需要時(shí)間的,這個(gè)同步時(shí)間內(nèi)主庫(kù)和從庫(kù)的數(shù)據(jù)會(huì)存在不一致的情況。如果同步過(guò)程中有讀請(qǐng)求,那么讀到的就是從庫(kù)中的老數(shù)據(jù)。如下圖:
既然知道了數(shù)據(jù)不一致性產(chǎn)生的原因,有下面幾個(gè)解決方案供參考:
1、直接忽略,如果業(yè)務(wù)允許延時(shí)存在,那么就不去管它。
2、強(qiáng)制讀主,采用主備架構(gòu)方案,讀寫(xiě)都走主庫(kù)。用緩存來(lái)擴(kuò)展數(shù)據(jù)庫(kù)讀性能 。有一點(diǎn)需要知道,如果緩存掛了,可能會(huì)產(chǎn)生雪崩現(xiàn)象,不過(guò)一般分布式緩存都是高可用的。
3、選擇讀主,寫(xiě)操作時(shí)根據(jù)庫(kù)+表+業(yè)務(wù)特征生成一個(gè)key放到Cache里并設(shè)置超時(shí)時(shí)間(大于等于主從數(shù)據(jù)同步時(shí)間)。讀請(qǐng)求時(shí),同樣的方式生成key先去查Cache,再判斷是否命中。若命中,則讀主庫(kù),否則讀從庫(kù)。代價(jià)是多了一次緩存讀寫(xiě),基本可以忽略。
4、半同步復(fù)制,等主從同步完成,寫(xiě)請(qǐng)求才返回。就是大家常說(shuō)的“半同步復(fù)制”semi-sync。這可以利用數(shù)據(jù)庫(kù)原生功能,實(shí)現(xiàn)比較簡(jiǎn)單。代價(jià)是寫(xiě)請(qǐng)求時(shí)延增長(zhǎng),吞吐量降低。
5、數(shù)據(jù)庫(kù)中間件,引入開(kāi)源(mycat等)或自研的數(shù)據(jù)庫(kù)中間層。個(gè)人理解,思路同選擇讀主。數(shù)據(jù)庫(kù)中間件的成本比較高,并且還多引入了一層。
第二類:DB和緩存一致性解決方案
先來(lái)看一下常用的緩存使用方式:
第一步:淘汰緩存;
第二步:寫(xiě)入數(shù)據(jù)庫(kù);
第三步:讀取緩存?返回:讀取數(shù)據(jù)庫(kù);
第四步:讀取數(shù)據(jù)庫(kù)后寫(xiě)入緩存注:如果按照這種方式,圖一,不會(huì)產(chǎn)生DB和緩存不一致問(wèn)題;圖二,會(huì)產(chǎn)生DB和緩存不一致問(wèn)題,即4.read先于3.sync執(zhí)行。如果不做處理,緩存里的數(shù)據(jù)可能一直是臟數(shù)據(jù)。解決方式如下:
注:設(shè)置緩存時(shí),一定要加上有效時(shí)間,以防延時(shí)淘汰緩存失敗的情況!
Part 04
架構(gòu)演變方案
架構(gòu)演變一:方案一 -> 方案一+分庫(kù)分表 -> 方案二+分庫(kù)分表 -> 方案四+分庫(kù)分表;
架構(gòu)演變二:方案一 -> 方案一+分庫(kù)分表 -> 方案三+分庫(kù)分表 -> 方案四+分庫(kù)分表;
架構(gòu)演變?nèi)?/span>方案一 -> 方案二 -> 方案四 -> 方案四+分庫(kù)分表;
架構(gòu)演變四:方案一 -> 方案三 -> 方案四 -> 方案四+分庫(kù)分表;
Part 05
結(jié)語(yǔ)
1、加緩存和索引是通用的提升數(shù)據(jù)庫(kù)性能的方式。
2、分庫(kù)分表帶來(lái)的好處是巨大的,但同樣也會(huì)帶來(lái)一些問(wèn)題,詳見(jiàn)前日推文。
3、不管是主備+分庫(kù)分表還是主從+讀寫(xiě)分離+分庫(kù)分表,都要考慮具體的業(yè)務(wù)場(chǎng)景。絕大部分的數(shù)據(jù)庫(kù)架構(gòu)還是采用方案一和方案一+分庫(kù)分表,只有極少部分用方案三+讀寫(xiě)分離+分庫(kù)分表。另外,阿里云提供的數(shù)據(jù)庫(kù)云服務(wù)也都是主備方案,要想主從+讀寫(xiě)分離需要二次架構(gòu)。
4、記住一句話:不考慮業(yè)務(wù)場(chǎng)景的架構(gòu)都是耍流氓。