Hadoop 3.0版本測(cè)試，終將計(jì)算與存儲(chǔ)解耦！

作者：鈺瑩編譯 2018-05-08 10:46:31

2018年，關(guān)于大數(shù)據(jù)基礎(chǔ)設(shè)施的討論不再圍繞使用高質(zhì)量的數(shù)據(jù)布局算法減少網(wǎng)絡(luò)流量的方法展開。相反，現(xiàn)在有更多關(guān)于如何可靠地降低分布式存儲(chǔ)成本的討論。

傳統(tǒng)的Hadoop架構(gòu)是建立在相信通過大規(guī)模分布式數(shù)據(jù)處理獲得良好性能的***途徑是將計(jì)算帶入數(shù)據(jù)。在本世紀(jì)初，這確實(shí)是事實(shí)。當(dāng)時(shí)，典型的企業(yè)數(shù)據(jù)中心的網(wǎng)絡(luò)基礎(chǔ)架構(gòu)不能完成在服務(wù)器之間移動(dòng)大量數(shù)據(jù)的任務(wù)，數(shù)據(jù)必須與計(jì)算機(jī)共存。

現(xiàn)在，企業(yè)數(shù)據(jù)中心的網(wǎng)絡(luò)基礎(chǔ)設(shè)施以及公有云提供商的網(wǎng)絡(luò)基礎(chǔ)設(shè)施不再是大數(shù)據(jù)計(jì)算的瓶頸，是時(shí)候?qū)adoop的計(jì)算與存儲(chǔ)解耦。不少行業(yè)分析師也認(rèn)識(shí)到了這一點(diǎn)，正如最近IDC關(guān)于分離大數(shù)據(jù)部署計(jì)算和存儲(chǔ)的報(bào)告中指出：

“解耦計(jì)算和存儲(chǔ)在大數(shù)據(jù)部署中被證明是有用的，它提供了更高的資源利用率，更高的靈活性和更低的成本。” - Ritu Jyoti，IDC

Hadoop開源社區(qū)最近引入了Apache Hadoop版本3.0，即便被Gartner連續(xù)唱衰，但Hadoop發(fā)布的3.0版本還是有不少值得注意的改進(jìn)。這一版本的發(fā)布也將計(jì)算和存儲(chǔ)解耦的討論推向輿論高峰。Hadoop 3.0的一個(gè)關(guān)鍵特性是Hadoop分布式文件系統(tǒng)(HDFS)的Erasure Coding (擦除編碼)。作為歷史悠久的HDFS 3x數(shù)據(jù)復(fù)制的替代方案，在配置相同的情況下，Erasure Coding與傳統(tǒng)3x數(shù)據(jù)復(fù)制相比，可以將HDFS存儲(chǔ)成本降低約50%。

在過去幾年，Hadoop社區(qū)已經(jīng)討論了Erasure Coding將為HDFS帶來的潛在存儲(chǔ)成本的降低。鑒于過去十年在硬件和網(wǎng)絡(luò)方面的進(jìn)步，許多人質(zhì)疑3x數(shù)據(jù)復(fù)制是否有存在的意義。現(xiàn)在，HDFS Erasure Coding已經(jīng)從根本改變了Hadoop的存儲(chǔ)經(jīng)濟(jì)性——Hadoop社區(qū)也最終承認(rèn)這一事實(shí)：數(shù)據(jù)不必與計(jì)算位于同一位置。

為了了解這個(gè)結(jié)果有多么戲劇性，我們可以比較一下2010年雅虎發(fā)布的關(guān)于Hadoop擴(kuò)展的性能數(shù)據(jù)，并將其與HDFS和Erasure Coding進(jìn)行比較。

如下的幻燈片上呈現(xiàn)的是DFSIO基準(zhǔn)測(cè)試，讀取吞吐量為66 MB / s，寫入吞吐量為40 MB / s。Sort基準(zhǔn)測(cè)試的性能數(shù)據(jù)是基于非常仔細(xì)的調(diào)優(yōu)之后獲得的。曾經(jīng)，在HDFS中使用3x復(fù)制被認(rèn)為是數(shù)據(jù)保護(hù)和性能提高的強(qiáng)大工具。

在如下的幻燈片上，同樣基于DFSIO基準(zhǔn)，具有3x復(fù)制的HDFS讀取吞吐量為1,262MB / s，而對(duì)于使用Erasure Coding(6+3 Striping)的HDFS，讀取吞吐量為2,321MB / s。這是30個(gè)同步映射器，并沒有提到仔細(xì)的應(yīng)用程序調(diào)優(yōu)!HDFS使用的3x復(fù)制現(xiàn)在被視為實(shí)現(xiàn)(有限)數(shù)據(jù)可靠性的陳舊、昂貴和不必要的開銷。

帶有Erasure Coding(EC)的HDFS利用網(wǎng)絡(luò)為每個(gè)文件讀寫。這也在間接承認(rèn)網(wǎng)絡(luò)不是性能的瓶頸。事實(shí)上，HDFS EC的主要性能影響是由于其CPU周期消耗而非網(wǎng)絡(luò)延遲。總的來說，這表明存儲(chǔ)成本顯著降低(在這種情況下，可降低6美元/ TB)，而不會(huì)犧牲性能。

即便接連被不看好，但Hadoop依舊是大數(shù)據(jù)領(lǐng)域堅(jiān)實(shí)的底層基礎(chǔ)。隨著新版本被正式推入生產(chǎn)環(huán)境，Hadoop生態(tài)也開始逐漸壯大，取其精華，去其糟粕，Hadoop生態(tài)一直在努力改善表現(xiàn)不佳的組件，并不斷根據(jù)新的業(yè)務(wù)需求進(jìn)行擴(kuò)展，Hadoop生態(tài)或許并不是老了，而是成熟了。

責(zé)任編輯：未麗燕來源： it168網(wǎng)站原創(chuàng)

Hadoop 大數(shù)據(jù)存儲(chǔ)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hadoop 3.0版本測(cè)試，終將計(jì)算與存儲(chǔ)解耦！