基于Hadoop云盤系統(tǒng)1：上傳和下載效率優(yōu)化

作者：張子良 2013-03-07 14:47:14

基于任何平臺(tái)實(shí)現(xiàn)的云盤系統(tǒng)，面臨的首要的技術(shù)問題就是客戶端上傳和下載效率優(yōu)化問題。基于Hadoop實(shí)現(xiàn)的云盤系統(tǒng)，受到Hadoop文件讀寫機(jī)制的影響，采用Hadoop提供的API進(jìn)行HDFS文件系統(tǒng)訪問，文件讀取時(shí)默認(rèn)是順序、逐block讀取；寫入時(shí)是順序?qū)懭搿?/div>

一、讀寫機(jī)制　　

首先來看文件讀取機(jī)制：盡管DataNode實(shí)現(xiàn)了文件存儲(chǔ)空間的水平擴(kuò)展和多副本機(jī)制，但是針對(duì)單個(gè)具體文件的讀取，Hadoop默認(rèn)的API接口并沒有提供多DataNode的并行讀取機(jī)制。基于Hadoop提供的API接口實(shí)現(xiàn)的云盤客戶端也自然面臨同樣的問題。Hadoop的文件讀取流程如下圖所示：

使用HDFS提供的客戶端開發(fā)庫(kù)，向遠(yuǎn)程的Namenode發(fā)起RPC請(qǐng)求；
Namenode會(huì)視情況返回文件的部分或者全部block列表，對(duì)于每個(gè)block，Namenode都會(huì)返回有該block拷貝的datanode地址；
客戶端開發(fā)庫(kù)會(huì)選取離客戶端最接近的datanode來讀取block；
讀取完當(dāng)前block的數(shù)據(jù)后，關(guān)閉與當(dāng)前的datanode連接，并為讀取下一個(gè)block尋找***的datanode；
當(dāng)讀完列表的block后，且文件讀取還沒有結(jié)束，客戶端開發(fā)庫(kù)會(huì)繼續(xù)向Namenode獲取下一批的block列表。
讀取完一個(gè)block都會(huì)進(jìn)行checksum驗(yàn)證，如果讀取datanode時(shí)出現(xiàn)錯(cuò)誤，客戶端會(huì)通知Namenode，然后再?gòu)南乱粋€(gè)擁有該block拷貝的datanode繼續(xù)讀取。

　　這里需要注意的關(guān)鍵點(diǎn)是：多個(gè)Datanode順序讀取。

　　其次再看文件的寫入機(jī)制：

使用HDFS提供的客戶端開發(fā)庫(kù)，向遠(yuǎn)程的Namenode發(fā)起RPC請(qǐng)求；
Namenode會(huì)檢查要?jiǎng)?chuàng)建的文件是否已經(jīng)存在，創(chuàng)建者是否有權(quán)限進(jìn)行操作，成功則會(huì)為文件創(chuàng)建一個(gè)記錄，否則會(huì)讓客戶端拋出異常；
當(dāng)客戶端開始寫入文件的時(shí)候，開發(fā)庫(kù)會(huì)將文件切分成多個(gè)packets，并在內(nèi)部以"data queue"的形式管理這些packets，并向Namenode申請(qǐng)新的blocks，獲取用來存儲(chǔ)replicas的合適的datanodes列表，列表的大小根據(jù)在Namenode中對(duì)replication的設(shè)置而定。
開始以pipeline（管道）的形式將packet寫入所有的replicas中。開發(fā)庫(kù)把packet以流的方式寫入***個(gè) datanode，該datanode把該packet存儲(chǔ)之后，再將其傳遞給在此pipeline中的下一個(gè)datanode，直到***一個(gè) datanode，這種寫數(shù)據(jù)的方式呈流水線的形式。
***一個(gè)datanode成功存儲(chǔ)之后會(huì)返回一個(gè)ack packet，在pipeline里傳遞至客戶端，在客戶端的開發(fā)庫(kù)內(nèi)部維護(hù)著"ack queue"，成功收到datanode返回的ack packet后會(huì)從"ack queue"移除相應(yīng)的packet。
如果傳輸過程中，有某個(gè)datanode出現(xiàn)了故障，那么當(dāng)前的pipeline會(huì)被關(guān)閉，出現(xiàn)故障的datanode會(huì)從當(dāng)前的 pipeline中移除，剩余的block會(huì)繼續(xù)剩下的datanode中繼續(xù)以pipeline的形式傳輸，同時(shí)Namenode會(huì)分配一個(gè)新的 datanode，保持replicas設(shè)定的數(shù)量。

　　關(guān)鍵詞：開發(fā)庫(kù)把packet以流的方式寫入***個(gè)datanode，該datanode將其傳遞給pipeline中的下一個(gè)datanode，知道***一個(gè)Datanode，這種寫數(shù)據(jù)的方式呈流水線方式。

二、解決方案

　　1.下載效率優(yōu)化

　　通過以上讀寫機(jī)制的分析，我們可以發(fā)現(xiàn)基于Hadoop實(shí)現(xiàn)的云盤客戶段下載效率的優(yōu)化可以從兩個(gè)層級(jí)著手：

　　1.文件整體層面：采用并行訪問多線程（多進(jìn)程）份多文件并行讀取。

　　2.Block塊讀取：改寫Hadoop接口擴(kuò)展，多Block并行讀取。

　　2.上傳效率優(yōu)化

　　上傳效率優(yōu)化只能采用文件整體層面的并行處理，不支持分Block機(jī)制的多Block并行讀取。

原文鏈接：http://www.cnblogs.com/hadoopdev/archive/2013/03/07/2947447.html

【編輯推薦】

分布式文件系統(tǒng)HDFS設(shè)計(jì)
分布式文件系統(tǒng)HDFS中Block介紹
HBase設(shè)計(jì)：看上去很美
三種東西永遠(yuǎn)不要放到數(shù)據(jù)庫(kù)里
沒有數(shù)據(jù)驅(qū)動(dòng)的流程和產(chǎn)品大數(shù)據(jù)將毫無價(jià)值

責(zé)任編輯：彭凡來源：博客園

Hadoop

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于Hadoop云盤系統(tǒng)1：上傳和下載效率優(yōu)化