成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

學(xué)Hadoop你必須要知道的

大數(shù)據(jù) Hadoop
Hadoop是由java語言編寫的,在分布式服務(wù)器集群上存儲(chǔ)海量數(shù)據(jù)并運(yùn)行分布式分析應(yīng)用的開源框架,其核心部件是HDFS與MapReduce。

學(xué)Hadoop你必須要知道的

文章目錄:

一、理論知識(shí)

1.Hadoop的整體印象

2.Hadoop的優(yōu)勢(shì)

3.Hadoop可以做什么

4.Hadoop結(jié)構(gòu)

4.1 Hadoop存儲(chǔ)--HDFS

4.2 Hadoop計(jì)算--MapReduce

4.3 Hadoop資源管理--YARN

5.Hadoop生態(tài)

二、Hadoop實(shí)際操作

本文內(nèi)容諸多借鑒,在借鑒處會(huì)表示出處,可在出處查看詳情。

一、理論知識(shí)

  • 參考Hadoop是什么,能干什么,怎么使用

1.Hadoop的整體印象

一句話概括:Hadoop就是存儲(chǔ)海量數(shù)據(jù)和分析海量數(shù)據(jù)的工具。

Hadoop是由java語言編寫的,在分布式服務(wù)器集群上存儲(chǔ)海量數(shù)據(jù)并運(yùn)行分布式分析應(yīng)用的開源框架,其核心部件是HDFS與MapReduce。

HDFS是一個(gè)分布式文件系統(tǒng):引入存放文件元數(shù)據(jù)信息的服務(wù)器Namenode和實(shí)際存放數(shù)據(jù)的服務(wù)器Datanode,對(duì)數(shù)據(jù)進(jìn)行分布式儲(chǔ)存和讀取。

MapReduce是一個(gè)計(jì)算框架:MapReduce的核心思想是把計(jì)算任務(wù)分配給集群內(nèi)的服務(wù)器里執(zhí)行。通過對(duì)計(jì)算任務(wù)的拆分(Map計(jì)算/Reduce計(jì)算)再根據(jù)任務(wù)調(diào)度器(JobTracker)對(duì)任務(wù)進(jìn)行分布式計(jì)算。

2.Hadoop的優(yōu)勢(shì)

  • 高可靠性 : Hadoop 按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。
  • 高擴(kuò)展性 : Hadoop 是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以干計(jì)的節(jié)點(diǎn)中。
  • 高效性 : Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非??臁?/li>
  • 高容錯(cuò)性 : Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分。
  • 低成本 : 與一體機(jī)、商用數(shù)據(jù)倉(cāng)庫以及 QlikView、 Yonghong Z- Suites 等數(shù)據(jù)集市相比,Hadoop 是開源的,項(xiàng)目的軟件成本因此會(huì)大大降低。Hadoop 帶有用 Java 語言編寫的框架,因此運(yùn)行在 linux 生產(chǎn)平臺(tái)上是非常理想的, Hadoop 上的應(yīng)用程序也可以使用其他語言編寫,比如 C++。

3.Hadoop可以做什么

  • 可以大數(shù)據(jù)存儲(chǔ):分布式存儲(chǔ)
  • 日志處理:擅長(zhǎng)日志分析
  • ETL:數(shù)據(jù)抽取到oracle、mysql、DB2、mongdb及主流數(shù)據(jù)庫
  • 機(jī)器學(xué)習(xí): 比如Apache Mahout項(xiàng)目
  • 搜索引擎:Hadoop + lucene實(shí)現(xiàn)
  • 數(shù)據(jù)挖掘:目前比較流行的廣告推薦,個(gè)性化廣告推薦

Hadoop是專為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計(jì)的,并不適合那種對(duì)幾個(gè)記錄隨機(jī)讀寫的在線事務(wù)處理模式。

實(shí)際應(yīng)用:

Flume+Logstash+Kafka+Spark Streaming進(jìn)行實(shí)時(shí)日志處理分析 

 

學(xué)Hadoop你必須要知道的

酷狗音樂的大數(shù)據(jù)平臺(tái) 

學(xué)Hadoop你必須要知道的

4.Hadoop結(jié)構(gòu)

  • 參考Hadoop 系列(一)基本概念

4.1 Hadoop存儲(chǔ)–HDFS

Hadoop 的存儲(chǔ)系統(tǒng)是 HDFS(Hadoop Distributed File System)分布式文件系統(tǒng),對(duì)外部客戶端而言,HDFS 就像一個(gè)傳統(tǒng)的分級(jí)文件系統(tǒng),可以進(jìn)行創(chuàng)建、刪除、移動(dòng)或重命名文件或文件夾等操作,與 Linux 文件系統(tǒng)類似。

Hadoop HDFS 的架構(gòu)是基于一組特定的節(jié)點(diǎn)構(gòu)建的(見圖s),這些節(jié)名稱節(jié)點(diǎn)(NameNode,僅一個(gè)),它在 HDFS 內(nèi)部提供元數(shù)據(jù)服務(wù);第二名稱節(jié)點(diǎn)(Secondary NameNode),名稱節(jié)點(diǎn)的幫助節(jié)點(diǎn),主要是為了整合元數(shù)據(jù)操作(注意不是名稱節(jié)點(diǎn)的備份);數(shù)據(jù)節(jié)點(diǎn)(DataNode),它為 HDFS 提供存儲(chǔ)塊。由于僅有一個(gè) NameNode,因此這是 HDFS 的一個(gè)缺點(diǎn)(單點(diǎn)失敗,在 Hadoop2.x 后有較大改善)。存儲(chǔ)在 HDFS 中的文件被分成塊,然后這些塊被復(fù)制到多個(gè)數(shù)據(jù)節(jié)點(diǎn)中(DataNode),這與傳統(tǒng)的 RAID 架構(gòu)大不相同。塊的大小(通常為 128M)和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶機(jī)決定。名稱節(jié)點(diǎn)可以控制所有文件操作。HDFS 內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的 TCP/IP 協(xié)議。

(1)名稱節(jié)點(diǎn)(NameNode)

它是一個(gè)通常在HDFS架構(gòu)中單獨(dú)機(jī)器上運(yùn)行的組件,負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問。NameNode決定是否將文件映射到DataNode上的復(fù)制塊上。對(duì)于最常見的3個(gè)復(fù)制塊,第一個(gè)復(fù)制塊存儲(chǔ)在同一機(jī)架的不同節(jié)點(diǎn)上,最后一個(gè)復(fù)制塊存儲(chǔ)在不同機(jī)架的某個(gè)節(jié)點(diǎn)上。

(2)數(shù)據(jù)節(jié)點(diǎn)(DataNode)

數(shù)據(jù)節(jié)點(diǎn)也是一個(gè)通常在HDFS架構(gòu)中的單獨(dú)機(jī)器上運(yùn)行的組件。Hadoop集群包含一個(gè)NameNode和大量DataNode。數(shù)據(jù)節(jié)點(diǎn)通常以機(jī)架的形式組織,機(jī)架通過一個(gè)交換機(jī)將所有系統(tǒng)連接起來。

數(shù)據(jù)節(jié)點(diǎn)響應(yīng)來自HDFS客戶機(jī)的讀寫請(qǐng)求。它們還響應(yīng)來自NameNode的創(chuàng)建、刪除和復(fù)制塊的命令。名稱節(jié)點(diǎn)依賴來自每個(gè)數(shù)據(jù)節(jié)點(diǎn)的定期心跳(heartbeat)消息。每條消息都包含一個(gè)塊報(bào)告,名稱節(jié)點(diǎn)可以根據(jù)這個(gè)報(bào)告驗(yàn)證塊映射和其他文件系統(tǒng)元數(shù)據(jù)。如果數(shù)據(jù)節(jié)點(diǎn)不能發(fā)送心跳消息,名稱節(jié)點(diǎn)將采取修復(fù)措施,重新復(fù)制在該節(jié)點(diǎn)上丟失的塊。

(3)第二名稱節(jié)點(diǎn)(Secondary NameNode)

第二名稱節(jié)點(diǎn)的作用在于為HDFS中的名稱節(jié)點(diǎn)提供一個(gè)Checkpoint,它只是名稱節(jié)點(diǎn)的一個(gè)助手節(jié)點(diǎn),這也是它在社區(qū)內(nèi)被認(rèn)為是Checkpoint Node的原因。

如下圖所示,fsimage 是 NameNode 啟動(dòng)時(shí)對(duì)整個(gè)文件系統(tǒng)的快照;edits 是在 NameNode 啟動(dòng)后對(duì)文件系統(tǒng)的改動(dòng)序列。

只有在NameNode重啟時(shí),edits才會(huì)合并到fsimage文件中,從而得到一個(gè)文件系統(tǒng)的最新快照。但是在生產(chǎn)環(huán)境集群中的NameNode是很少重啟的,這意味著當(dāng)NameNode運(yùn)行很長(zhǎng)時(shí)間后,edits文件會(huì)變得很大。而當(dāng)NameNode宕機(jī)時(shí),edits就會(huì)丟失很多改動(dòng)。 

學(xué)Hadoop你必須要知道的

如圖 1-4 所示,Secondary NameNode 會(huì)定時(shí)到 NameNode 去獲取名稱節(jié)點(diǎn)的 edits,并及時(shí)更新到自己 fsimage 上。這樣,如果 NameNode 宕機(jī),我們也可以使用 Secondary-NameNode 的信息來恢復(fù) NameNode。并且,如果 Secondary NameNode 新的 fsimage 文件達(dá)到一定閾值,它就會(huì)將其拷貝回名稱節(jié)點(diǎn)上,這樣 NameNode 在下次重啟時(shí)會(huì)使用這個(gè)新的 fsimage 文件,從而減少重啟的時(shí)間。 

學(xué)Hadoop你必須要知道的

舉個(gè)數(shù)據(jù)上傳的例子來深入理解下HDFS內(nèi)部是怎么做的。 

學(xué)Hadoop你必須要知道的

文件在客戶端時(shí)會(huì)被分塊,這里可以看到文件被分為 5 個(gè)塊,分別是:A、B、C、D、E。同時(shí)為了負(fù)載均衡,所以每個(gè)節(jié)點(diǎn)有 3 個(gè)塊。下面來看看具體步驟:

  1. 客戶端將要上傳的文件按 128M 的大小分塊。
  2. 客戶端向名稱節(jié)點(diǎn)發(fā)送寫數(shù)據(jù)請(qǐng)求。
  3. 名稱節(jié)點(diǎn)記錄各個(gè) DataNode 信息,并返回可用的 DataNode 列表。
  4. 客戶端直接向 DataNode 發(fā)送分割后的文件塊,發(fā)送過程以流式寫入。
  5. 寫入完成后,DataNode 向 NameNode 發(fā)送消息,更新元數(shù)據(jù)。

這里需要注意

  1. 寫 1T 文件,需要 3T 的存儲(chǔ),3T 的網(wǎng)絡(luò)流量。
  2. 在執(zhí)行讀或?qū)懙倪^程中,NameNode 和 DataNode 通過 HeartBeat 進(jìn)行保存通信,確定 DataNode 活著。如果發(fā)現(xiàn) DataNode 死掉了,就將死掉的 DataNode 上的數(shù)據(jù),放到其他節(jié)點(diǎn)去,讀取時(shí),讀其他節(jié)點(diǎn)。
  3. 宕掉一個(gè)節(jié)點(diǎn)沒關(guān)系,還有其他節(jié)點(diǎn)可以備份;甚至,宕掉某一個(gè)機(jī)架也沒關(guān)系;其他機(jī)架上也有備份。

4.2 Hadoop計(jì)算–MapReduce

MapReduce用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念**“Map(映射)”和“Reduce(歸納)”**以及它們的主要思想,都是從函數(shù)式編程語言借來的,還有從矢量編程語言借來的特性。

當(dāng)前的軟件實(shí)現(xiàn)是指定一個(gè) Map(映射)函數(shù):用來把一組鍵值對(duì)映射成一組新的鍵值對(duì)。指定并發(fā)的 Reduce(歸納)函數(shù),用來保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的鍵組,如下圖所示。 

學(xué)Hadoop你必須要知道的

下面將以 Hadoop 的“Hello World”例程—單詞計(jì)數(shù)來分析MapReduce的邏輯,如下圖 所示。一般的 MapReduce 程序會(huì)經(jīng)過以下幾個(gè)過程:輸入(Input)、輸入分片(Splitting)、Map階段、Shuffle階段、Reduce階段、輸出(Final result)。 

學(xué)Hadoop你必須要知道的

1.輸入就不用說了,數(shù)據(jù)一般放在 HDFS 上面就可以了,而且文件是被分塊的。關(guān)于文件塊和文件分片的關(guān)系,在輸入分片中說明。

2.輸入分片:在進(jìn)行 Map 階段之前,MapReduce 框架會(huì)根據(jù)輸入文件計(jì)算輸入分片(split),每個(gè)輸入分片會(huì)對(duì)應(yīng)一個(gè) Map 任務(wù),輸入分片往往和 HDFS 的塊關(guān)系很密切。例如,HDFS 的塊的大小是 128M,如果我們輸入兩個(gè)文件,大小分別是 27M、129M,那么 27M 的文件會(huì)作為一個(gè)輸入分片(不足 128M 會(huì)被當(dāng)作一個(gè)分片),而 129MB 則是兩個(gè)輸入分片(129-128=1,不足 128M,所以 1M 也會(huì)被當(dāng)作一個(gè)輸入分片),所以,一般來說,一個(gè)文件塊會(huì)對(duì)應(yīng)一個(gè)分片。如圖 1-7 所示,Splitting 對(duì)應(yīng)下面的三個(gè)數(shù)據(jù)應(yīng)該理解為三個(gè)分片。

3.Map 階段:這個(gè)階段的處理邏輯就是編寫好的 Map 函數(shù),因?yàn)橐粋€(gè)分片對(duì)應(yīng)一個(gè) Map 任務(wù),并且是對(duì)應(yīng)一個(gè)文件塊,所以這里其實(shí)是數(shù)據(jù)本地化的操作,也就是所謂的移動(dòng)計(jì)算而不是移動(dòng)數(shù)據(jù)。如圖 1-7 所示,這里的操作其實(shí)就是把每句話進(jìn)行分割,然后得到每個(gè)單詞,再對(duì)每個(gè)單詞進(jìn)行映射,得到單詞和1的鍵值對(duì)。

4.Shuffle 階段:這是“奇跡”發(fā)生的地方,MapReduce 的核心其實(shí)就是 Shuffle。那么 Shuffle 的原理呢?Shuffle 就是將 Map 的輸出進(jìn)行整合,然后作為 Reduce 的輸入發(fā)送給 Reduce。簡(jiǎn)單理解就是把所有 Map 的輸出按照鍵進(jìn)行排序,并且把相對(duì)鍵的鍵值對(duì)整合到同一個(gè)組中。如上圖所示,Bear、Car、Deer、River 是排序的,并且 Bear 這個(gè)鍵有兩個(gè)鍵值對(duì)。

5.Reduce 階段:與 Map 類似,這里也是用戶編寫程序的地方,可以針對(duì)分組后的鍵值對(duì)進(jìn)行處理。如上圖所示,針對(duì)同一個(gè)鍵 Bear 的所有值進(jìn)行了一個(gè)加法操作,得到 這樣的鍵值對(duì)。

6.輸出:Reduce 的輸出直接寫入 HDFS 上,同樣這個(gè)輸出文件也是分塊的。

用一張圖表示上述的運(yùn)行流程:MapReduce 的本質(zhì)就是把一組鍵值對(duì) 經(jīng)過 Map 階段映射成新的鍵值對(duì) ;接著經(jīng)過 Shuffle/Sort 階段進(jìn)行排序和“洗牌”,把鍵值對(duì)排序,同時(shí)把相同的鍵的值整合;最后經(jīng)過 Reduce 階段,把整合后的鍵值對(duì)組進(jìn)行邏輯處理,輸出到新的鍵值對(duì) 。這樣的一個(gè)過程,其實(shí)就是 MapReduce 的本質(zhì)。 

學(xué)Hadoop你必須要知道的

Hadoop MapReduce 可以根據(jù)其使用的資源管理框架不同,而分為 MR v1 和 YARN/MR v2 版本。

在 MR v1 版本中,資源管理主要是 Jobtracker 和 TaskTracker。Jobtracker 主要負(fù)責(zé):作業(yè)控制(作業(yè)分解和狀態(tài)監(jiān)控),主要是 MR 任務(wù)以及資源管理;而 TaskTracker 主要是調(diào)度 Job 的每一個(gè)子任務(wù) task;并且接收 JobTracker 的命令。

在 YARN/MR v2 版本中,YARN 把 JobTracker 的工作分為兩個(gè)部分:

ResourceManager 資源管理器全局管理所有應(yīng)用程序計(jì)算資源的分配。

ApplicationMaster 負(fù)責(zé)相應(yīng)的調(diào)度和協(xié)調(diào)。

NodeManager 是每一臺(tái)機(jī)器框架的代理,是執(zhí)行應(yīng)用程序的容器,監(jiān)控應(yīng)用程序的資源(CPU、內(nèi)存、硬盤、網(wǎng)絡(luò))使用情況,并且向調(diào)度器匯報(bào)。 

學(xué)Hadoop你必須要知道的

4.3 Hadoop資源管理–YARN

當(dāng) MapReduce 發(fā)展到 2.x 時(shí)就不使用 JobTracker 來作為自己的資源管理框架,而選擇使用 YARN。這里需要說明的是,如果使用 JobTracker 來作為 Hadoop 集群的資源管理框架的話,那么除了 MapReduce 任務(wù)以外,不能夠運(yùn)行其他任務(wù)。也就是說,如果我們集群的 MapReduce 任務(wù)并沒有那么飽滿的話,集群資源等于是白白浪費(fèi)的。所以提出了另外的一個(gè)資源管理架構(gòu) YARN(Yet Another Resource Manager)。這里需要注意,YARN 不是 JobTracker 的簡(jiǎn)單升級(jí),而是“大換血”。同時(shí) Hadoop 2.X 也包含了此架構(gòu)。Apache Hadoop 2.X 項(xiàng)目包含以下模塊。

  • Hadoop Common:為 Hadoop 其他模塊提供支持的基礎(chǔ)模塊。
  • HDFS:Hadoop:分布式文件系統(tǒng)。
  • YARN:任務(wù)分配和集群資源管理框架。
  • MapReduce:并行和可擴(kuò)展的用于處理大數(shù)據(jù)的模式。

YARN 資源管理框架包括 ResourceManager(資源管理器)、ApplicationMaster、NodeManager(節(jié)點(diǎn)管理器)。各個(gè)組件描述如下。 

學(xué)Hadoop你必須要知道的

ResourceManager 是一個(gè)全局的資源管理器,負(fù)責(zé)整個(gè)系統(tǒng)的資源管理和分配。它主要由兩個(gè)組件構(gòu)成:調(diào)度器(Scheduler)和應(yīng)用程序管理器(ApplicationManager,AM)。

Scheduler 負(fù)責(zé)分配最少但滿足 Application 運(yùn)行所需的資源量給 Application。Scheduler 只是基于資源的使用情況進(jìn)行調(diào)度,并不負(fù)責(zé)監(jiān)視/跟蹤 Application 的狀態(tài),當(dāng)然也不會(huì)處理失敗的 Task。

ApplicationManager 負(fù)責(zé)處理客戶端提交的 Job 以及協(xié)商第一個(gè) Container 以供 ApplicationMaster 運(yùn)行,并且在 ApplicationMaster 失敗的時(shí)候會(huì)重新啟動(dòng) ApplicationMaster(YARN 中使用 Resource Container 概念來管理集群的資源,Resource Container 是資源的抽象,每個(gè) Container 包括一定的內(nèi)存、IO、網(wǎng)絡(luò)等資源)。

ApplicatonMaster 是一個(gè)框架特殊的庫,每個(gè) Application 有一個(gè) ApplicationMaster,主要管理和監(jiān)控部署在 YARN 集群上的各種應(yīng)用。

NodeManager主要負(fù)責(zé)啟動(dòng) ResourceManager 分配給 ApplicationMaster 的 Container,并且會(huì)監(jiān)視 Container 的運(yùn)行情況。在啟動(dòng) Container 的時(shí)候,NodeManager 會(huì)設(shè)置一些必要的環(huán)境變量以及相關(guān)文件;當(dāng)所有準(zhǔn)備工作做好后,才會(huì)啟動(dòng)該 Container。啟動(dòng)后,NodeManager 會(huì)周期性地監(jiān)視該 Container 運(yùn)行占用的資源情況,若是超過了該 Container 所聲明的資源量,則會(huì) kill 掉該 Container 所代表的進(jìn)程。

如圖 1-11 所示,該集群上有兩個(gè)任務(wù)(對(duì)應(yīng) Node2、Node6 上面的 AM),并且 Node2 上面的任務(wù)運(yùn)行有 4 個(gè) Container 來執(zhí)行任務(wù);而 Node6 上面的任務(wù)則有 2 個(gè) Container 來執(zhí)行任務(wù)。 

學(xué)Hadoop你必須要知道的

5.Hadoop生態(tài)

Hadoop 的生態(tài)圈其實(shí)就是一群動(dòng)物在狂歡。我們來看看一些主要的框架。 

學(xué)Hadoop你必須要知道的

Hbase

HBase(Hadoop Database)是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用 HBase 技術(shù)可在廉價(jià) PC Server 上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。

Hive

Hive 是建立在 Hadoop 上的數(shù)據(jù)倉(cāng)庫基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在 Hadoop 中的大規(guī)模數(shù)據(jù)的機(jī)制。

Pig

Pig 是一個(gè)基于 Hadoop 的大規(guī)模數(shù)據(jù)分析平臺(tái),它提供的 SQL-LIKE 語言叫作 Pig Latin。該語言的編譯器會(huì)把類 SQL 的數(shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的 Map-Reduce 運(yùn)算。

Sqoop

Sqoop 是一款開源的工具,主要用于在 Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(MySQL、post-gresql等)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入 Hadoop 的 HDFS 中,也可以將 HDFS 的數(shù)據(jù)導(dǎo)入關(guān)系型數(shù)據(jù)庫中,如下圖所示。 

學(xué)Hadoop你必須要知道的

Flume

Flume 是 Cloudera 提供的一個(gè)高可用、高可靠、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume 支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)。同時(shí),F(xiàn)lume 提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理并寫到各種數(shù)據(jù)接受方(可定制)的能力,如下圖。 

學(xué)Hadoop你必須要知道的

Oozie

Oozie 是基于 Hadoop 的調(diào)度器,以 XML 的形式寫調(diào)度流程,可以調(diào)度 Mr、Pig、Hive、shell、jar 任務(wù)等。

主要的功能如下。

  • Workflow:順序執(zhí)行流程節(jié)點(diǎn),支持 fork(分支多個(gè)節(jié)點(diǎn))、join(將多個(gè)節(jié)點(diǎn)合并為一個(gè))。
  • Coordinator:定時(shí)觸發(fā) Workflow。
  • Bundle Job:綁定多個(gè) Coordinator。

Chukwa

Chukwa 是一個(gè)開源的、用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)。它構(gòu)建在 Hadoop 的 HDFS 和 MapReduce 框架上,繼承了 Hadoop 的可伸縮性和魯棒性。Chukwa 還包含了一個(gè)強(qiáng)大和靈活的工具集,可用于展示、監(jiān)控和分析已收集的數(shù)據(jù)。

ZooKeeper

ZooKeeper 是一個(gè)開放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù),是 Google 的 Chubby 一個(gè)開源的實(shí)現(xiàn),是 Hadoop 和 Hbase 的重要組件,如圖 1-15 所示。它是一個(gè)為分布式應(yīng)用提供一致性服務(wù)的軟件,提供的功能包括:配置維護(hù)、域名服務(wù)、分布式同步、組服務(wù)等。

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2018-11-28 10:00:42

React組件前端

2021-06-07 14:04:13

并發(fā)編程Future

2024-04-09 16:24:18

Promise開發(fā)

2012-04-09 13:16:20

DIVCSS

2019-02-18 13:36:03

Redis數(shù)據(jù)庫面試

2023-05-12 14:49:47

CSS框架前端

2024-08-06 14:54:16

2011-07-13 11:03:17

ASP

2022-09-27 14:36:57

JavaScrip數(shù)組開發(fā)

2024-08-27 11:55:38

2020-11-10 08:30:58

Gartner數(shù)字化技術(shù)

2010-07-27 11:24:51

Flex

2015-09-18 19:19:06

2017-12-01 17:35:02

2014-01-10 13:29:44

微軟Office 365云計(jì)算

2012-10-18 16:14:56

Windows 8

2021-11-18 22:33:25

Windows 11Windows微軟

2017-09-18 18:31:08

Hadoop

2013-12-02 14:07:02

Hadoop大數(shù)據(jù)集群
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 一级毛片免费完整视频 | 黄色高清视频 | 老司机深夜福利网站 | 精品无码久久久久久国产 | 午夜免费观看网站 | 成人国产精品久久久 | 九九精品在线 | 午夜小电影 | 久久久噜噜噜www成人网 | 成人免费一区二区三区牛牛 | 免费在线视频一区二区 | 成年人国产在线观看 | 精品久久久久久亚洲精品 | 国产精品自产av一区二区三区 | 欧美黄色一区 | 一区二区三区观看视频 | 一区二区三区国产精品 | 久久国产一区二区 | 黄色成人亚洲 | 精品一区二区三区在线观看国产 | 亚洲 欧美 另类 综合 偷拍 | 国产精品视频www | 人人做人人澡人人爽欧美 | 日韩在线不卡视频 | 欧美日韩免费在线 | 亚洲香蕉| 午夜影晥| 在线永久看片免费的视频 | 国产精品一区二区电影 | 五月婷婷丁香 | 人人射人人草 | 福利视频一区二区 | 91色综合| 国产精品美女视频 | 成人国产精品久久 | 国产91在线播放精品91 | 人人九九精 | av在线免费观看网址 | 国产女人第一次做爰毛片 | 欧美video| 国产在线a|