Hadoop 3.0版本測(cè)試,終將計(jì)算與存儲(chǔ)解耦!
傳統(tǒng)的Hadoop架構(gòu)是建立在相信通過大規(guī)模分布式數(shù)據(jù)處理獲得良好性能的***途徑是將計(jì)算帶入數(shù)據(jù)。在本世紀(jì)初,這確實(shí)是事實(shí)。當(dāng)時(shí),典型的企業(yè)數(shù)據(jù)中心的網(wǎng)絡(luò)基礎(chǔ)架構(gòu)不能完成在服務(wù)器之間移動(dòng)大量數(shù)據(jù)的任務(wù),數(shù)據(jù)必須與計(jì)算機(jī)共存。
現(xiàn)在,企業(yè)數(shù)據(jù)中心的網(wǎng)絡(luò)基礎(chǔ)設(shè)施以及公有云提供商的網(wǎng)絡(luò)基礎(chǔ)設(shè)施不再是大數(shù)據(jù)計(jì)算的瓶頸,是時(shí)候?qū)adoop的計(jì)算與存儲(chǔ)解耦。不少行業(yè)分析師也認(rèn)識(shí)到了這一點(diǎn),正如最近IDC關(guān)于分離大數(shù)據(jù)部署計(jì)算和存儲(chǔ)的報(bào)告中指出:
“解耦計(jì)算和存儲(chǔ)在大數(shù)據(jù)部署中被證明是有用的,它提供了更高的資源利用率,更高的靈活性和更低的成本。” - Ritu Jyoti,IDC
2018年,關(guān)于大數(shù)據(jù)基礎(chǔ)設(shè)施的討論不再圍繞使用高質(zhì)量的數(shù)據(jù)布局算法減少網(wǎng)絡(luò)流量的方法展開。相反,現(xiàn)在有更多關(guān)于如何可靠地降低分布式存儲(chǔ)成本的討論。
Hadoop開源社區(qū)最近引入了Apache Hadoop版本3.0,即便被Gartner連續(xù)唱衰,但Hadoop發(fā)布的3.0版本還是有不少值得注意的改進(jìn)。這一版本的發(fā)布也將計(jì)算和存儲(chǔ)解耦的討論推向輿論高峰。Hadoop 3.0的一個(gè)關(guān)鍵特性是Hadoop分布式文件系統(tǒng)(HDFS)的Erasure Coding (擦除編碼)。作為歷史悠久的HDFS 3x數(shù)據(jù)復(fù)制的替代方案,在配置相同的情況下,Erasure Coding與傳統(tǒng)3x數(shù)據(jù)復(fù)制相比,可以將HDFS存儲(chǔ)成本降低約50%。
在過去幾年,Hadoop社區(qū)已經(jīng)討論了Erasure Coding將為HDFS帶來的潛在存儲(chǔ)成本的降低。鑒于過去十年在硬件和網(wǎng)絡(luò)方面的進(jìn)步,許多人質(zhì)疑3x數(shù)據(jù)復(fù)制是否有存在的意義。現(xiàn)在,HDFS Erasure Coding已經(jīng)從根本改變了Hadoop的存儲(chǔ)經(jīng)濟(jì)性——Hadoop社區(qū)也最終承認(rèn)這一事實(shí):數(shù)據(jù)不必與計(jì)算位于同一位置。
為了了解這個(gè)結(jié)果有多么戲劇性,我們可以比較一下2010年雅虎發(fā)布的關(guān)于Hadoop擴(kuò)展的性能數(shù)據(jù),并將其與HDFS和Erasure Coding進(jìn)行比較。
如下的幻燈片上呈現(xiàn)的是DFSIO基準(zhǔn)測(cè)試,讀取吞吐量為66 MB / s,寫入吞吐量為40 MB / s。Sort基準(zhǔn)測(cè)試的性能數(shù)據(jù)是基于非常仔細(xì)的調(diào)優(yōu)之后獲得的。曾經(jīng),在HDFS中使用3x復(fù)制被認(rèn)為是數(shù)據(jù)保護(hù)和性能提高的強(qiáng)大工具。

在如下的幻燈片上,同樣基于DFSIO基準(zhǔn),具有3x復(fù)制的HDFS讀取吞吐量為1,262MB / s,而對(duì)于使用Erasure Coding(6+3 Striping)的HDFS,讀取吞吐量為2,321MB / s。這是30個(gè)同步映射器,并沒有提到仔細(xì)的應(yīng)用程序調(diào)優(yōu)!HDFS使用的3x復(fù)制現(xiàn)在被視為實(shí)現(xiàn)(有限)數(shù)據(jù)可靠性的陳舊、昂貴和不必要的開銷。

帶有Erasure Coding(EC)的HDFS利用網(wǎng)絡(luò)為每個(gè)文件讀寫。這也在間接承認(rèn)網(wǎng)絡(luò)不是性能的瓶頸。事實(shí)上,HDFS EC的主要性能影響是由于其CPU周期消耗而非網(wǎng)絡(luò)延遲。 總的來說,這表明存儲(chǔ)成本顯著降低(在這種情況下,可降低6美元/ TB),而不會(huì)犧牲性能。
即便接連被不看好,但Hadoop依舊是大數(shù)據(jù)領(lǐng)域堅(jiān)實(shí)的底層基礎(chǔ)。隨著新版本被正式推入生產(chǎn)環(huán)境,Hadoop生態(tài)也開始逐漸壯大,取其精華,去其糟粕,Hadoop生態(tài)一直在努力改善表現(xiàn)不佳的組件,并不斷根據(jù)新的業(yè)務(wù)需求進(jìn)行擴(kuò)展,Hadoop生態(tài)或許并不是老了,而是成熟了。