Hadoop簡介：HDFS和MapReduce的實現

作者：fiberlijun 2010-06-07 13:35:16

Hadoop你是否熟悉，這里就向大家介紹一下Hadoop的概念以及它的結構，相信通過本文的學習介紹大家對Hadoop有更加深刻的認識，歡迎大家一起來學習Hadoop方面的知識。

本節向大家描述一下Hadoop簡介，本節主要介紹Hadoop中兩個重要的組成部分HDFS和MapReduce，希望通過本節的介紹大家對Hadoop有初步的認識。

Hadoop簡介

Hadoop是一個分布式系統基礎架構，由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下，開發分布式程序。充分利用集群的威力高速運算和存儲。
　　簡單地說來，Hadoop是一個可以更容易開發和運行處理大規模數據的軟件平臺。
　　Hadoop實現了一個分布式文件系統（HadoopDistributedFileSystem），簡稱HDFS。HDFS有著高容錯性（fault-tolerent）的特點，并且設計用來部署在低廉的（low-cost）硬件上。而且它提供高傳輸率（highthroughput）來訪問應用程序的數據，適合那些有著超大數據集（largedataset）的應用程序。HDFS放寬了（relax）POSIX的要求（requirements）這樣可以流的形式訪問（streamingaccess）文件系統中的數據。

談到Hadoop就不得不提到Lucene和Nutch。首先，Lucene并不是一個應用程序，而是提供了一個純Java的高性能全文索引引擎工具包，它可以方便的嵌入到各種實際應用中實現全文搜索/索引功能。Nutch是一個應用程序，是一個以Lucene為基礎實現的搜索引擎應用，Lucene為Nutch提供了文本搜索和索引的API，Nutch不光有搜索的功能，還有數據抓取的功能。在nutch0.8.0版本之前，Hadoop還屬于Nutch的一部分，而從nutch0.8.0開始，將其中實現的NDFS和MapReduce剝離出來成立一個新的開源項目，這就是Hadoop，而nutch0.8.0版本較之以前的Nutch在架構上有了根本性的變化，那就是完全構建在Hadoop的基礎之上了。在Hadoop中實現了Google的GFS和MapReduce算法，使Hadoop成為了一個分布式的計算平臺。
其實，Hadoop并不僅僅是一個用于存儲的分布式文件系統，而是設計用來在由通用計算設備組成的大型集群上執行分布式應用的框架。

Hadoop包含兩個部分：

1、HDFS

Hadoop簡介中的HDFS。HDFS即HadoopDistributedFileSystem(Hadoop分布式文件系統)
HDFS具有高容錯性，并且可以被部署在低價的硬件設備之上。HDFS很適合那些有大數據集的應用，并且提供了對數據讀寫的高吞吐率。HDFS是一個master/slave的結構，就通常的部署來說，在master上只運行一個Namenode，而在每一個slave上運行一個Datanode。
HDFS支持傳統的層次文件組織結構，同現有的一些文件系統在操作上很類似，比如你可以創建和刪除一個文件，把一個文件從一個目錄移到另一個目錄，重命名等等操作。Namenode管理著整個分布式文件系統，對文件系統的操作（如建立、刪除文件和文件夾）都是通過Namenode來控制。

HDFS的結構圖中可以看出，Namenode，Datanode，Client之間的通信都是建立在TCP/IP的基礎之上的。當Client要執行一個寫入的操作的時候，命令不是馬上就發送到Namenode，Client首先在本機上臨時文件夾中緩存這些數據，當臨時文件夾中的數據塊達到了設定的Block的值（默認是64M）時，Client便會通知Namenode，Namenode便響應Client的RPC請求，將文件名插入文件系統層次中并且在Datanode中找到一塊存放該數據的block，同時將該Datanode及對應的數據塊信息告訴Client，Client便這些本地臨時文件夾中的數據塊寫入指定的數據節點。
HDFS采取了副本策略，其目的是為了提高系統的可靠性，可用性。HDFS的副本放置策略是三個副本，一個放在本節點上，一個放在同一機架中的另一個節點上，還有一個副本放在另一個不同的機架中的一個節點上。當前版本的hadoop0.12.0中還沒有實現，但是正在進行中，相信不久就可以出來了。

2、MapReduce的實現

Hadoop簡介中MapReduce的實現。MapReduce是Google的一項重要技術，它是一個編程模型，用以進行大數據量的計算。對于大數據量的計算，通常采用的處理手法就是并行計算。至少現階段而言，對許多開發人員來說，并行計算還是一個比較遙遠的東西。MapReduce就是一種簡化并行計算的編程模型，它讓那些沒有多少并行計算經驗的開發人員也可以開發并行應用。
MapReduce的名字源于這個模型中的兩項核心操作：Map和Reduce。也許熟悉FunctionalProgramming（函數式編程）的人見到這兩個詞會倍感親切。簡單的說來，Map是把一組數據一對一的映射為另外的一組數據，其映射的規則由一個函數來指定，比如對[1,2,3,4]進行乘2的映射就變成了[2,4,6,8]。Reduce是對一組數據進行歸約，這個歸約的規則由一個函數指定，比如對[1,2,3,4]進行求和的歸約得到結果是10，而對它進行求積的歸約結果是24。本節關于Hadoop簡介描述完畢。

【編輯推薦】

術語匯編 Hadoop簡介
技術分享 Hadoop集群搭建方法
Hadoop文件系統如何快速安裝？
Hadoop集群搭建過程中相關環境配置詳解
Hadoop完全分布模式安裝實現詳解

責任編輯：佚名來源： csdn.net

Hadoop簡介

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hadoop簡介：HDFS和MapReduce的實現