成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

三分鐘讀懂Hadoop、HBase、Hive、Spark分布式系統架構

開發 架構 大數據 分布式 Hadoop Spark
我們來分別部署一套hadoop、hbase、hive、spark,在講解部署方法過程中會特殊說明一些重要配置,以及一些架構圖以幫我們理解,目的是為后面講解系統架構和關系打基礎。

機器學習、數據挖掘等各種大數據處理都離不開各種開源分布式系統,hadoop用于分布式存儲和map-reduce計算,spark用于分布式機器學習,hive是分布式數據庫,hbase是分布式kv系統,看似互不相關的他們卻都是基于相同的hdfs存儲和yarn資源管理,本文通過全套部署方法來讓大家深入系統內部以充分理解分布式系統架構和他們之間的關系,本文較長,精華在最后。

本文結構

首先,我們來分別部署一套hadoop、hbase、hive、spark,在講解部署方法過程中會特殊說明一些重要配置,以及一些架構圖以幫我們理解,目的是為后面講解系統架構和關系打基礎。

之后,我們會通過運行一些程序來分析一下這些系統的功能

最后,我們會總結這些系統之間的關系

分布式hadoop部署

  • 首先,在http://hadoop.apache.org/releases.html找到穩定版tar包
  • 下載到/data/apache并解壓
  • 在真正部署之前,我們先了解一下hadoop的架構

hadoop分為幾大部分:yarn負責資源和任務管理、hdfs負責分布式存儲、map-reduce負責分布式計算

先來了解一下yarn的架構: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

yarn的兩個部分:資源管理、任務調度。

資源管理需要一個全局的ResourceManager(RM)和分布在每臺機器上的NodeManager協同工作,RM負責資源的仲裁,NodeManager負責每個節點的資源監控、狀態匯報和Container的管理

任務調度也需要ResourceManager負責任務的接受和調度,在任務調度中,在Container中啟動的ApplicationMaster(AM)負責這個任務的管理,當任務需要資源時,會向RM申請,分配到的Container用來起任務,然后AM和這些Container做通信,AM和具體執行的任務都是在Container中執行的

yarn區別于第一代hadoop的部署(namenode、jobtracker、tasktracker)

然后再看一下hdfs的架構:hdfs部分由NameNode、SecondaryNameNode和DataNode組成。DataNode是真正的在每個存儲節點上管理數據的模塊,NameNode是對全局數據的名字信息做管理的模塊,SecondaryNameNode是它的從節點,以防掛掉。

最后再說map-reduce:Map-reduce依賴于yarn和hdfs,另外還有一個JobHistoryServer用來看任務運行歷史

hadoop雖然有多個模塊分別部署,但是所需要的程序都在同一個tar包中,所以不同模塊用到的配置文件都在一起,讓我們來看幾個最重要的配置文件:

  • 各種默認配置:core-default.xml, hdfs-default.xml, yarn-default.xml, mapred-default.xml
  • 各種web頁面配置:core-site.xml, hdfs-site.xml, yarn-site.xml, mapred-site.xml

從這些配置文件也可以看出hadoop的幾大部分是分開配置的。

除上面這些之外還有一些重要的配置:hadoop-env.sh、mapred-env.sh、yarn-env.sh,他們用來配置程序運行時的java虛擬機參數以及一些二進制、配置、日志等的目錄配置

下面我們真正的來修改必須修改的配置文件。

修改etc/hadoop/core-site.xml,把配置改成: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

這里面配置的是hdfs的文件系統地址:本機的9001端口

修改etc/hadoop/hdfs-site.xml,把配置改成: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

這里面配置的是hdfs文件存儲在本地的哪里以及secondary namenode的地址

修改etc/hadoop/yarn-site.xml,把配置改成: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

這里面配置的是yarn的日志地址以及一些參數配置

通過cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml創建etc/hadoop/mapred-site.xml,內容改為如下: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

這里面配置的是mapred的任務歷史相關配置

如果你的hadoop部署在多臺機器,那么需要修改etc/hadoop/slaves,把其他slave機器ip加到里面,如果只部署在這一臺,那么就留一個localhost即可

下面我們啟動hadoop,啟動之前我們配置好必要的環境變量: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

先啟動hdfs,在此之前要格式化分布式文件系統,執行: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

如果格式化正常可以看到/data/apache/dfs下生成了name目錄

然后啟動namenode,執行: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

如果正常啟動,可以看到啟動了相應的進程,并且logs目錄下生成了相應的日志

然后啟動datanode,執行: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

如果考慮啟動secondary namenode,可以用同樣的方法啟動

下面我們啟動yarn,先啟動resourcemanager,執行: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

如果正常啟動,可以看到啟動了相應的進程,并且logs目錄下生成了相應的日志

然后啟動nodemanager,執行: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

如果正常啟動,可以看到啟動了相應的進程,并且logs目錄下生成了相應的日志

然后啟動MapReduce JobHistory Server,執行: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

如果正常啟動,可以看到啟動了相應的進程,并且logs目錄下生成了相應的日志

下面我們看下web界面

打開http://127.0.0.1:8088/cluster看下yarn管理的集群資源情況(因為在yarn-site.xml中我們配置了yarn.resourcemanager.webapp.address是127.0.0.1:8088) 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

打開http://127.0.0.1:19888/jobhistory看下map-reduce任務的執行歷史情況(因為在mapred-site.xml中我們配置了mapreduce.jobhistory.webapp.address是127.0.0.1:19888) 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

打開http://127.0.0.1:50070/dfshealth.html看下namenode的存儲系統情況(因為在hdfs-site.xml中我們配置了dfs.namenode.http-address是127.0.0.1:50070) 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

到此為止我們對hadoop的部署完成。下面試驗一下hadoop的功能

先驗證一下hdfs分布式文件系統,執行以下命令看是否有輸出: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

這時通過http://127.0.0.1:50070/dfshealth.html可以看到存儲系統的一些變化

下面我們以input為輸入啟動一個mapreduce任務 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

之后看是否產生了/output的輸出: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

這時通過http://127.0.0.1:19888/jobhistory可以看到mapreduce任務歷史: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

也可以通過http://127.0.0.1:8088/cluster看到任務歷史 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

為什么兩處都有歷史呢?他們的區別是什么呢?

我們看到cluster顯示的其實是每一個application的歷史信息,他是yarn(ResourceManager)的管理頁面,也就是不管是mapreduce還是其他類似mapreduce這樣的任務,都會在這里顯示,mapreduce任務的Application Type是MAPREDUCE,其他任務的類型就是其他了,但是jobhistory是專門顯示mapreduce任務的

hbase的部署

首先從http://www.apache.org/dyn/closer.cgi/hbase/下載穩定版安裝包,我下的是https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/stable/hbase-1.2.2-bin.tar.gz

解壓后修改conf/hbase-site.xml,改成: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

其中hbase.rootdir配置的是hdfs地址,ip:port要和hadoop/core-site.xml中的fs.defaultFS保持一致

其中hbase.zookeeper.quorum是zookeeper的地址,可以配多個,我們試驗用就先配一個

啟動hbase,執行: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

這時有可能會讓你輸入本地機器的密碼

啟動成功后可以看到幾個進程起來,包括zookeeper的HQuorumPeer和hbase的HMaster、HRegionServer

下面我們試驗一下hbase的使用,執行: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

創建一張表 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

獲取一張表 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

添加一行 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

讀取全部 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

我們同時也看到hdfs中多出了hbase存儲的目錄: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

這說明hbase是以hdfs為存儲介質的,因此它具有分布式存儲擁有的所有優點

hbase的架構如下: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

其中HMaster負責管理HRegionServer以實現負載均衡,負責管理和分配HRegion(數據分片),還負責管理命名空間和table元數據,以及權限控制

HRegionServer負責管理本地的HRegion、管理數據以及和hdfs交互。

Zookeeper負責集群的協調(如HMaster主從的failover)以及集群狀態信息的存儲

客戶端傳輸數據直接和HRegionServer通信

hive的部署

從http://mirrors.hust.edu.cn/apache/hive下載安裝包,我下的是http://mirrors.hust.edu.cn/apache/hive/stable-2/apache-hive-2.1.0-bin.tar.gz

解壓后,我們先準備hdfs,執行: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

使用hive必須提前設置好HADOOP_HOME環境變量,這樣它可以自動找到我們的hdfs作為存儲,不妨我們把各種HOME和各種PATH都配置好,如: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

拷貝創建hive-site.xml、hive-log4j2.properties、hive-exec-log4j2.properties,執行 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

修改hive-site.xml,把其中的${system:java.io.tmpdir}都修改成/data/apache/tmp,你也可以自己設置成自己的tmp目錄,把${system:user.name}都換成用戶名 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

初始化元數據數據庫(默認保存在本地的derby數據庫,也可以配置成mysql),注意,不要先執行hive命令,否則這一步會出錯,具體見http://stackoverflow.com/questions/35655306/hive-installation-issues-hive-metastore-database-is-not-initialized,下面執行: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

成功之后我們可以以客戶端形式直接啟動hive,如: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

試著創建個數據庫是否可以: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

這樣我們還是單機的hive,不能在其他機器登陸,所以我們要以server形式啟動: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

默認會監聽10000端口,這時可以通過jdbc客戶端連接這個服務訪問hive

hive的具體使用在這里不贅述

spark部署

首先在http://spark.apache.org/downloads.html下載指定hadoop版本的安裝包,我下載的是http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.7.tgz

spark有多種部署方式,首先支持單機直接跑,如執行樣例程序: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

它可以直接運行得出結果

下面我們說下spark集群部署方法:

解壓安裝包后直接執行: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

這時可以打開http://127.0.0.1:8080/看到web界面如下: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

根據上面的url:spark://MYAY:7077,我們再啟動slave: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

刷新web界面如下: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

出現了一個worker,我們可以根據需要啟動多個worker

下面我們把上面執行過的任務部署到spark集群上執行: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

web界面如下: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

spark程序也可以部署到yarn集群上執行,也就是我們部署hadoop時啟動的yarn

我們需要提前配置好HADOOP_CONF_DIR,如下: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

下面我們把任務部署到yarn集群上去: 

三分鐘讀懂hadoop、hbase、hive、spark分布式系統架構

總結一下

  • hdfs是所有hadoop生態的底層存儲架構,它主要完成了分布式存儲系統的邏輯,凡是需要存儲的都基于其上構建
  • yarn是負責集群資源管理的部分,這個資源主要指計算資源,因此它支撐了各種計算模塊
  • map-reduce組件主要完成了map-reduce任務的調度邏輯,它依賴于hdfs作為輸入輸出及中間過程的存儲,因此在hdfs之上,它也依賴yarn為它分配資源,因此也在yarn之上
  • hbase基于hdfs存儲,通過獨立的服務管理起來,因此僅在hdfs之上
  • hive基于hdfs存儲,通過獨立的服務管理起來,因此僅在hdfs之上
  • spark基于hdfs存儲,即可以依賴yarn做資源分配計算資源也可以通過獨立的服務管理,因此在hdfs之上也在yarn之上,從結構上看它和mapreduce一層比較像

總之,每一個系統負責了自己擅長的一部分,同時相互依托,形成了整個hadoop生態。

 

責任編輯:未麗燕 來源: 今日頭條
相關推薦

2016-09-01 13:48:18

2021-10-27 05:47:53

通信協議協議網絡技術

2020-02-24 16:04:55

架構運維技術

2024-05-16 11:13:16

Helm工具release

2009-11-09 12:55:43

WCF事務

2024-12-18 10:24:59

代理技術JDK動態代理

2024-12-11 12:00:00

C++拷貝

2024-01-16 07:46:14

FutureTask接口用法

2021-04-20 13:59:37

云計算

2022-02-17 09:24:11

TypeScript編程語言javaScrip

2024-08-30 08:50:00

2023-12-27 08:15:47

Java虛擬線程

2020-06-30 10:45:28

Web開發工具

2013-06-28 14:30:26

棱鏡計劃棱鏡棱鏡監控項目

2021-12-17 07:47:37

IT風險框架

2025-02-24 10:40:55

2020-06-29 07:42:20

邊緣計算云計算技術

2023-12-04 18:13:03

GPU編程

2024-07-05 09:31:37

2024-10-15 09:18:30

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 五月天婷婷综合 | www.成人在线视频 | 欧美一级二级在线观看 | 色视频在线播放 | 亚洲精品免费在线观看 | 精品久久国产 | 久久久久久影院 | 香蕉久久a毛片 | 激情婷婷成人 | 免费看黄色小视频 | 欧美日韩在线成人 | 中文字幕精品一区二区三区精品 | 国产成人精品免费视频大全最热 | 一级在线视频 | 一区二区欧美在线 | 久精品视频| 国产成人免费视频网站高清观看视频 | 天天天操| 日韩欧美在线观看 | 免费av电影网站 | 中文字幕一区二区三区不卡 | 人人爽人人草 | 特黄级国产片 | 天天干国产 | 在线观看免费av网 | 精品久久中文字幕 | 在线国产小视频 | 在线观看av免费 | 欧美在线二区 | 精品久久香蕉国产线看观看亚洲 | 一区二区国产在线 | 国产乱码精品1区2区3区 | 午夜免费视频 | 欧美1区| 午夜视频在线观看网址 | 天天操网 | 欧美一级一区 | 另类二区| 欧美日韩精品一区二区 | 国产a视频 | 在线看中文字幕 |