成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Hadoop Map-Reduce使用教程

作者：atomti 2010-06-03 16:46:23

開發(fā) 架構(gòu) Hadoop

在學(xué)習(xí)Hadoop的過程中，你可能會遇到Hadoop Map-Reduce方面的問題，本文就向大家介紹一下Hadoop Map-Reduce教程，歡迎大家一起來學(xué)習(xí)Hadoop方面的知識，希望本文的介紹對你的學(xué)習(xí)有所幫助。

本節(jié)從用戶的角度出發(fā)，全面地介紹了Hadoop Map-Reduce框架的各個方面，希望通過本節(jié)介紹大家對Hadoop Map-Reduce有一定的認識，歡迎大家一起來學(xué)習(xí)。

先決條件

請先確認Hadoop被正確安裝、配置和正常運行中。

概述

Hadoop Map-Reduce是一個使用簡易的軟件框架，基于它寫出來的應(yīng)用程序能夠運行在由上千個商用機器組成的大型集群上，并以一種可靠容錯的方式并行處理上T級別的數(shù)據(jù)集。
一個Map-Reduce作業(yè)（job）通常會把輸入的數(shù)據(jù)集切分為若干獨立的數(shù)據(jù)塊，由map任務(wù)（task）以完全并行的方式處理它們。框架會對map的輸出先進行排序，然后把結(jié)果輸入給reduce任務(wù)。通常作業(yè)
的輸入和輸出都會被存儲在文件系統(tǒng)中。整個框架負責任務(wù)的調(diào)度和監(jiān)控，以及重新執(zhí)行已經(jīng)失敗的任務(wù)。
通常，Map-Reduce框架和分布式文件系統(tǒng)是運行在一組相同的節(jié)點上的，也就是說，計算節(jié)點和存儲節(jié)點通常在一起。這種配置允許框架在那些已經(jīng)存好數(shù)據(jù)的節(jié)點上高效地調(diào)度任務(wù)，這可以使整個集群的網(wǎng)絡(luò)帶寬被非常高效地利用。

Map-Reduce框架由單獨一個masterJobTracker和每個集群節(jié)點一個slaveTaskTracker共同組成。這個master負責調(diào)度構(gòu)成一個作業(yè)的所有任務(wù)，這些任務(wù)分布在不同的slave上，master監(jiān)控它們的執(zhí)行，重新執(zhí)行已經(jīng)失敗的任務(wù)。而slave僅負責執(zhí)行由master指派的任務(wù)。
應(yīng)用程序至少應(yīng)該指明輸入/輸出的位置（路徑），并通過實現(xiàn)合適的接口或抽象類提供map和reduce函數(shù)。再加上其他作業(yè)的參數(shù)，就構(gòu)成了作業(yè)配置（jobconfiguration）。然后，Hadoop的jobclient提交作業(yè)（jar包/可執(zhí)行程序等）和配置信息給JobTracker，后者負責分發(fā)這些軟件和配置信息給slave、調(diào)度任務(wù)且監(jiān)控它們的執(zhí)行，同時提供狀態(tài)和診斷信息給job-client。
雖然Hadoop框架是用JavaTM實現(xiàn)的，但Map-Reduce應(yīng)用程序則不一定要用Java來寫。
HadoopStreaming是一種運行作業(yè)的實用工具，它允許用戶創(chuàng)建和運行任何可執(zhí)行程序（例如：Shell工具）來做為mapper和reducer。
HadoopPipes是一個與SWIG兼容的C++API（沒有基于JNITM技術(shù)），它也可用于實現(xiàn)Map-Reduce應(yīng)用程序。

Hadoop Map-Reduce輸入與輸出

Map-Reduce框架運轉(zhuǎn)在<key,value>鍵值對上，也就是說，框架把作業(yè)的輸入看為是一組<key,value>鍵值對，同樣也產(chǎn)出一組<key,value>鍵值對做為作業(yè)的輸出，這兩組鍵值對的類型可能不同。
框架需要對key和value的類(classes)進行序列化操作，因此，這些類需要實現(xiàn)Writable接口。另外，為了方便框架執(zhí)行排序操作，key類必須實現(xiàn)WritableComparable接口。
一個Map-Reduce作業(yè)的輸入和輸出類型如下所示：
(input)<k1,v1>->map-><k2,v2>->combine-><k2,v2>->reduce-><k3,v3>(output)

Hadoop Map-Reduce-用戶界面

這部分文檔為用戶將會面臨的Map-Reduce框架中的各個環(huán)節(jié)提供了適當?shù)募毠?jié)。這應(yīng)該會幫助用戶更細粒度地去實現(xiàn)、配置和調(diào)優(yōu)作業(yè)。然而，請注意每個類/接口的javadoc文檔依然是能提供最全面的
文檔；本文只是想起到教程的作用。
我們會先看看Mapper和Reducer接口。應(yīng)用程序通常會通過提供map和reduce方法來實現(xiàn)它們。
然后，我們會討論其他的核心接口，其中包括：JobConf，JobClient，Partitioner，OutputCollector，Reporter，InputFormat，OutputFormat等等。
最后，我們將以通過討論框架一些有用的功能點（例如：DistributedCache，IsolationRunner等等）的方式來收尾。

Hadoop Map-Reduce核心功能描述

應(yīng)用程序通常會通過提供map和reduce來實現(xiàn)Mapper和Reducer接口，它們組成作業(yè)的核心。
Mapper
Mapper將輸入鍵值對(key/valuepair)映射到一組中間格式的鍵值對集合。
Map是一類將輸入記錄集轉(zhuǎn)換為中間格式記錄集的獨立任務(wù)。這種轉(zhuǎn)換的中間格式記錄集不需要與輸入記錄集的類型一致。一個給定的輸入鍵值對可以映射成0個或多個輸出鍵值對。
HadoopMap-Reduce框架為每一個InputSplit產(chǎn)生一個map任務(wù)，而每個InputSplit是由對應(yīng)每個作業(yè)的InputFormat產(chǎn)生的。

概括地說，對Mapper的實現(xiàn)者需要重寫JobConfigurable.configure(JobConf)方法，這個方法需要傳遞一個JobConf參數(shù)，目的是完成Mapper的初始化工作。然后，框架為這個任務(wù)的InputSplit中每個鍵值對調(diào)用一次map(WritableComparable,Writable,OutputCollector,Reporter)操作。之后，應(yīng)用程序可以通過重寫Closeable.close()方法來執(zhí)行相應(yīng)的清理工作。
輸出鍵值對不需要與輸入鍵值對的類型一致。一個給定的輸入鍵值對可以映射成0個或多個輸出鍵值對。通過調(diào)用OutputCollector.collect(WritableComparable,Writable)可以收集輸出的鍵值對。

應(yīng)用程序可以使用Reporter報告進度，設(shè)定應(yīng)用級別的狀態(tài)消息，更新Counters（計數(shù)器），或者僅是表明自己運行正常。
框架隨后會把與一個特定key關(guān)聯(lián)的所有中間過程的值（value）分成組，然后把它們傳給Reducer以產(chǎn)出最終的結(jié)果。用戶可以通過JobConf.setOutputKeyComparatorClass(Class)來指定具體負責分組的Comparator。
Mapper的輸出被排序后，就被劃分給每個Reducer。分塊的總數(shù)目和一個作業(yè)的reduce任務(wù)的數(shù)目是一樣的。用戶可以通過實現(xiàn)自定義的Partitioner來控制哪個key被分配去哪個Reducer。
用戶可選擇通過JobConf.setCombinerClass(Class)指定一個combiner，它負責對中間過程的輸出進行本地的聚集，這會有助于降低從Mapper到Reducer數(shù)據(jù)傳輸量。
這些被排好序的中間過程的輸出結(jié)果通常是以SequenceFile格式的文件被存放的。應(yīng)用程序可以通過JobConf控制對這些中間結(jié)果是否進行壓縮以及怎么壓縮，使用哪種ompressionCodec。本節(jié)關(guān)于Hadoop Map-Reduce相關(guān)內(nèi)容介紹到這里。

【編輯推薦】

Hadoop MapReduce的簡單應(yīng)用Cascading詳解
如何實現(xiàn)Cassandra與Hadoop MapReduce的整合？
Hadoop集群與Hadoop性能優(yōu)化
HadoopHBase實現(xiàn)配置簡單的單機環(huán)境
深入剖析Hadoop HBase

責任編輯：佚名來源： csdn.net

Hadoop Map-Reduce

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：欧美精品久久久久久久久久 | 亚洲欧美一区二区三区情侣bbw | 日韩成人在线视频 | 欧美成视频 | 男人天堂视频在线观看 | 精品国产一区一区二区三亚瑟 | 九九福利| 欧美成人免费在线视频 | 精品欧美一区二区三区久久久 | 高清国产午夜精品久久久久久 | 色视频免费 | 国产午夜精品福利 | 中文av在线播放 | 亚洲综合在线视频 | 精品福利一区二区三区 | 日本aaaa| 91精品久久久久久久 | 色中文在线 | 91中文 | 日本免费一区二区三区视频 | 超碰97人人人人人蜜桃 | 国产a爽一区二区久久久 | 日韩欧美在线视频 | 日本视频中文字幕 | 天天av网 | 免费在线h视频 | 91偷拍精品一区二区三区 | 日本免费黄色一级片 | 求个av网址 | 精品欧美一区二区三区久久久 | 婷婷福利视频导航 | 亚洲国产网址 | 国产精品99一区二区 | 亚洲一区二区三区四区五区中文 | av毛片免费| 精品久久久久久久久久久久久久 | 欧美在线色 | 欧美日韩电影一区 | 成人一区二区视频 | 欧美成人激情 | 一区二区三区精品视频 |