技術(shù)分享 Hadoop集群搭建方法
在學(xué)習(xí)Hadoop的過(guò)程中,你可能會(huì)遇到Hadoop集群搭建的問(wèn)題,本節(jié)就和大家一起學(xué)習(xí)Hadoop集群搭建的方法,希望大家能夠掌握。
Hadoop集群搭建
目的
本文描述了如何安裝、配置和管理有實(shí)際意義的Hadoop集群,其規(guī)??蓮膸讉€(gè)節(jié)點(diǎn)的小集群到幾千個(gè)節(jié)點(diǎn)的超大集群。
如果你希望在單機(jī)上安裝Hadoop玩玩,從這里能找到相關(guān)細(xì)節(jié)。
先決條件
確保在你集群中的每個(gè)節(jié)點(diǎn)上都安裝了所有必需軟件。
獲取Hadoop軟件包。
安裝
安裝Hadoop集群通常要將安裝軟件解壓到集群內(nèi)的所有機(jī)器上。
通常,集群里的一臺(tái)機(jī)器被指定為NameNode,另一臺(tái)不同的機(jī)器被指定為JobTracker。這些機(jī)器是masters。余下的機(jī)器即作為DataNode也作為TaskTracker。這些機(jī)器是slaves。
我們用HADOOP_HOME指代安裝的根路徑。通常,集群里的所有機(jī)器的HADOOP_HOME路徑相同。
配置
接下來(lái)的幾節(jié)描述了Hadoop集群搭建過(guò)程中如何配置Hadoop集群。
配置文件
對(duì)Hadoop的配置通過(guò)conf/目錄下的兩個(gè)重要配置文件完成:
hadoop-default.xml-只讀的默認(rèn)配置。
hadoop-site.xml-集群特有的配置。
要了解更多關(guān)于這些配置文件如何影響Hadoop框架的細(xì)節(jié),請(qǐng)看這里。
此外,通過(guò)設(shè)置conf/hadoop-env.sh中的變量為集群特有的值,你可以對(duì)bin/目錄下的Hadoop腳本進(jìn)行控制。
Hadoop集群配置
Hadoop集群搭建過(guò)程中要配置Hadoop集群,你需要設(shè)置Hadoop守護(hù)進(jìn)程的運(yùn)行環(huán)境和Hadoop守護(hù)進(jìn)程的運(yùn)行參數(shù)。
Hadoop守護(hù)進(jìn)程指NameNode/DataNode和JobTracker/TaskTracker。
配置Hadoop守護(hù)進(jìn)程的運(yùn)行環(huán)境
管理員可在conf/hadoop-env.sh腳本內(nèi)對(duì)Hadoop守護(hù)進(jìn)程的運(yùn)行環(huán)境做特別指定。
至少,你得設(shè)定JAVA_HOME使之在每一遠(yuǎn)端節(jié)點(diǎn)上都被正確設(shè)置。
管理員可以通過(guò)配置選項(xiàng)HADOOP_*_OPTS來(lái)分別配置各個(gè)守護(hù)進(jìn)程。下表是可以配置的選項(xiàng)。
例如,配置Namenode時(shí),為了使其能夠并行回收垃圾(parallelGC),要把下面的代碼加入到hadoop-env.sh:
exportHADOOP_NAMENODE_OPTS="-XX:+UseParallelGC${HADOOP_NAMENODE_OPTS}"
其它可定制的常用參數(shù)還包括:
HADOOP_LOG_DIR-守護(hù)進(jìn)程日志文件的存放目錄。如果不存在會(huì)被自動(dòng)創(chuàng)建。
HADOOP_HEAPSIZE-***可用的堆大小,單位為MB。比如,1000MB。這個(gè)參數(shù)用于設(shè)置hadoop守護(hù)進(jìn)程的堆大小。缺省大小是1000MB。
配置Hadoop守護(hù)進(jìn)程的運(yùn)行參數(shù)
這部分涉及Hadoop集群的重要參數(shù),這些參數(shù)在conf/hadoop-site.xml中指定。
通常,上述參數(shù)被標(biāo)記為final以確保它們不被用戶應(yīng)用更改。請(qǐng)期待下界關(guān)于Hadoop集群搭建的介紹。
【編輯推薦】
- Hadoop集群與Hadoop性能優(yōu)化
- 專家指導(dǎo) 如何進(jìn)行Hadoop分布式集群配置
- Hadoop集群與Hadoop性能優(yōu)化
- HadoopHBase實(shí)現(xiàn)配置簡(jiǎn)單的單機(jī)環(huán)境
- 深入剖析Hadoop HBase