生不逢時(shí)的openZFS能用在數(shù)據(jù)庫(kù)上嗎
?在Linux上有很多耳熟能詳?shù)奈募到y(tǒng),EXT4,XFS,哪怕BTRFS也比openZFS出名,不過(guò)很多40出頭的IT人還是對(duì)ZFS有些印象的。很多人都覺得openZFS有點(diǎn)生不逢時(shí),正當(dāng)ZFS準(zhǔn)備和LINUX緊密聯(lián)姻的時(shí)候,SUN被Oracle收購(gòu)了,于是這也注定了ZFS的前路坎坷。在國(guó)外的很多IT社區(qū)里,都給ZFS打上了“originally Sun , but “got Oracled””這樣的標(biāo)簽。在IT領(lǐng)域“got Oracled”不是個(gè)好詞,很多好技術(shù)都被Oracle收購(gòu)了,并且消滅了。
ZFS是和普通的文件系統(tǒng)完全不同的,它是一種帶有嚴(yán)格一致性的文件系統(tǒng),是一種日志結(jié)構(gòu)的文件系統(tǒng)。類似于數(shù)據(jù)庫(kù),ZFS依靠類似WAL的機(jī)制來(lái)保證文件系統(tǒng)的一致性。因此ZFS可以隨時(shí)保持十分強(qiáng)的一致性,有過(guò)服務(wù)器掉電后文件系統(tǒng)掛掉或者變成只讀狀態(tài)的朋友可能現(xiàn)在還會(huì)心有余悸,在ZFS上是永遠(yuǎn)不需要fsck的,因?yàn)閃AL可以幫助我們自動(dòng)糾正這些不一致問(wèn)題。
ZFS采用COW(COPY ON WRITE)的方式修改數(shù)據(jù),這一點(diǎn)與SSD的行為類似,這種方式是個(gè)雙刃劍,可以獲得較好的讀寫平衡,但是會(huì)帶來(lái)寫放大的問(wèn)題,數(shù)據(jù)的修改操作會(huì)有較高的成本。
ZFS的RAID-Z技術(shù)被稱為窮人的福音,使用RAID-Z技術(shù),可以把多塊硬盤組成一個(gè)軟RAID系統(tǒng)從而確保數(shù)據(jù)的安全性。同時(shí)ZFS支持?jǐn)?shù)據(jù)壓縮,可以讓數(shù)據(jù)的存儲(chǔ)成本進(jìn)一步降低。
ZFS支持十分強(qiáng)大的快照技術(shù),通過(guò)快照閃回或者克隆數(shù)據(jù)都十分方便。這給數(shù)據(jù)保護(hù),數(shù)據(jù)備份、數(shù)據(jù)復(fù)制等都提供了十分強(qiáng)大的保障。
如此復(fù)雜的文件系統(tǒng),其附加開銷肯定十分大,為了確保ZFS的性能,采用了內(nèi)存中修改,并以強(qiáng)一致性事務(wù)的方式存盤的模式。如果你的硬件環(huán)境較好,配置有較多的物理內(nèi)存,那么在內(nèi)存中完成寫操作,并且將日志寫在性能極佳的NVME SSD盤上,將海量數(shù)據(jù)寫入大容量HDD中,那么當(dāng)你的寫IO不會(huì)大到擊穿內(nèi)存緩沖的時(shí)候,ZFS文件系統(tǒng)是能夠表現(xiàn)出十分優(yōu)秀的寫入性能的。
對(duì)于ZFS的性能問(wèn)題,網(wǎng)絡(luò)上有很多不同的關(guān)鍵,也有不同的測(cè)試結(jié)果。用比較中肯的觀點(diǎn)來(lái)說(shuō),任何的好處都是有代價(jià)的,ZFS在確保數(shù)據(jù)安全的前提下,肯定會(huì)在性能上有所欠缺。一些認(rèn)為ZFS性能很差的朋友可能并沒有做好調(diào)優(yōu),一些認(rèn)為ZFS性能十分優(yōu)秀的朋友可能其測(cè)試場(chǎng)景過(guò)于單一和簡(jiǎn)單。一般來(lái)說(shuō),與EXT4/XFS等傳統(tǒng)文件系統(tǒng)相比,ZFS在大量持久性寫入場(chǎng)景的性能肯定要差不少,對(duì)于讀寫較為均衡的OLTP系統(tǒng)來(lái)說(shuō),ZFS的性能與EXT4十分接近并略低一些。在某些OLTP數(shù)據(jù)庫(kù)場(chǎng)景中,因?yàn)閆FS的內(nèi)存中寫與讀緩沖機(jī)制,也可能會(huì)表現(xiàn)出比EXT4/XFS更好的性能。
比如當(dāng)我們?cè)赯FS上跑PG或者M(jìn)ySQL的時(shí)候,因?yàn)槲募到y(tǒng)是可以確保不會(huì)出現(xiàn)塊斷裂問(wèn)題的,因此我們就可以關(guān)閉FULL PAGE WRITE,從而獲得更好的并發(fā)性能。這實(shí)際上就是我昨天討論過(guò)的,把數(shù)據(jù)庫(kù)的工作交給OS來(lái)做的一個(gè)例子。
實(shí)際上,ZFS的調(diào)優(yōu)也沒那么復(fù)雜,如果你有我上面說(shuō)的這樣的環(huán)境,較大的物理內(nèi)存,SSD盤做日志寫入,那么下面的調(diào)整方案可能就足以 ZFS表現(xiàn)出不錯(cuò)的性能了。雖然ZFS文件系統(tǒng)上做針對(duì)性的調(diào)優(yōu)比較復(fù)雜,因?yàn)獒槍?duì)不同的數(shù)據(jù)保護(hù)模式,不同的緩沖策略和壓縮策略,會(huì)有十分復(fù)雜的配置。不過(guò)一般情況下,調(diào)整并不復(fù)雜:
- lrecordsize=8kB;
- llogbias=throughput [latency] :根據(jù)你的應(yīng)用場(chǎng)景需求可以選擇吞吐量和延時(shí),針對(duì)高并發(fā)要求的OLTP應(yīng)用,可以選擇LATENCY,對(duì)于具有大量數(shù)據(jù)掃描的分析類應(yīng)用,可以選擇throughput;
- lzfs_arc_max :一定要設(shè)置該參數(shù),避免arc cache占用過(guò)多的內(nèi)存,導(dǎo)致操作系統(tǒng)換頁(yè)。
有興趣的朋友可以找時(shí)間試試ZFS的性能是否能夠滿足你的應(yīng)用需求。我覺得不追求極致性能的情況下,ZFS的強(qiáng)一致性保障與數(shù)據(jù)壓縮能力已經(jīng)能夠讓我們得數(shù)據(jù)庫(kù)系統(tǒng)受益良多了。
目前openZFS社區(qū)是十分活躍的,今年年初推出的2.1.7版本支持3.10-6.0的LINUX核心,與一直不夠成熟的BTRFS相比,我還是更推薦openZFS。實(shí)際上我們的國(guó)產(chǎn)數(shù)據(jù)庫(kù)廠商也可以試著考慮一下openZFS,利用這個(gè)開源項(xiàng)目為自己的數(shù)據(jù)庫(kù)產(chǎn)品開發(fā)一個(gè)底層存儲(chǔ)組件,用在自己的數(shù)據(jù)庫(kù)一體機(jī)上。