成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據核心框架MapReduce過程解析

大數據
首先MapReduce很明顯是分為Map階段和Reduce階段。兩個階段分別做什么呢?小編自己畫了個圖,大家共勉一下,請看正文。

首先MapReduce很明顯是分為Map階段和Reduce階段。兩個階段分別做什么呢?

小編自己畫了個圖,大家共勉一下

 

大數據核心框架MapReduce過程解析

圖中1-2過程為map過程,3為Reduce過程,接下來看一張專業(yè)圖片,兩張對比一起看

 

大數據核心框架MapReduce過程解析

在整個mapReduce過程包含很多復雜的處理過程,而我們要學習的就是其中幾個過程包含,Split過程、Partitione過程還有Shuffle過程,舉一個實例的話

假設我們手上有很多復雜數據,那么怎樣來處理呢? 第一步就是分類,把數據分類。 分類后的數據就不復雜了,這就是異而化同。 分類之后數據還是很多,怎么辦呢? 第二步,分割。 分割就是把數據切分成小塊, 這樣就可以并發(fā)或者批量處理了, 這就是大而化小。

回到 map-reduce概念上, map的工作就是切分數據,然后給他們分類,分類的方式就是輸出key,value對,key就是對應“類別”了。 分類之后,reducer拿到的都是同類數據,這樣處理就很容易了。

大數據一般采用的HDFS 解決了大數據存儲的問題,那么 MapReduce 自然要解決的是數據計算問題在處理大數據計算中,一臺機器是無法滿足大批量數據計算的,這個時候就需要使用MapReduce,MapReduce是一種編程模型,用于大規(guī)模數據集的并行計算,需要將數據分配到大量的機器上計算,每臺機器運行一個子計算任務,最后再合并每臺機器運算結果并輸出。 MapReduce 的思想就是 『分而治之』

MapReduce 將整個并行計算過程抽象到兩個函數,在 Map 中進行數據的讀取和預處理,之后將預處理的結果發(fā)送到 Reduce 中進行合并。一個簡單的 MapReduce 程序只需要指定 map()、reduce()、 input 和output,剩下的事由框架完成。

Map ( 映射 ) : 對一些獨立元素組成的列表的每一個元素進行指定的操作,可以高度并行。

Reduce( 化簡 ) : 對一個列表的元素進行合并。

MapReduce執(zhí)行流程

以經典的 WordCount 的例子來說明一下MapReduce的執(zhí)行流程,WordCount就是統(tǒng)計每個單詞出現的次數。

 

大數據核心框架MapReduce過程解析

MapReduce計算框架的一般流程有以下幾個步驟:

輸入 ( Input ) 和拆分 ( Split ):

對數據進行分片處理。將源文件內容分片成一系列的 InputSplit,每個 InputSplit 存儲著對應分片的數據信息,記住是對文件內容進行分片,并不是將源文件拆分成多個小文件。

迭代 ( iteration ):

遍歷輸入數據,并將之解析成 key/value 對。拆分數據片經過格式化成鍵值對的格式,其中 key 為偏移量,value 是每一行的內容,這一步由MapReduce框架自動完成。

映射 ( Map ):

將輸入 key/value 對映射 ( map ) 成另外一些 key/value 對。MapReduce 開始在機器上執(zhí)行 map 程序,map 程序的具體實現由我們自己定義,對輸入的 key/value 進行處理,輸出新的 key/value,這也是hadoop 并行事實發(fā)揮作用的地方。

洗牌 ( Shuffer ) 過程:

依據 key 對中間數據進行分組 ( grouping )。這是一個洗牌的過程,得到map方法輸出的 對后,Mapper 會將它們按照 key 值進行處理,這包括 sort (排序)、combiner (合并)、partition (分片) 等操作達到排序分組和均衡分配,得到 Mapper 的最終輸出結果交給 Reducer。mapper 和 reducer 一般不在一個節(jié)點上,這就導致了reducer 需要從不同的節(jié)點上下載數據,經過處理后才能交給 reducer 處理。

歸并( Reduce ):

以組為單位對數據進行歸約 ( reduce )。Reducer 先對從 Mapper 接收的數據進行排序,再交由用戶自定義的 reduce方法進行處理。

迭代:

將最終產生的 key/value 對保存到輸出文件中。得到新的 對,保存到輸出文件中,即保存在 HDFS 中。

責任編輯:未麗燕 來源: 今日頭條
相關推薦

2011-08-10 11:16:00

Platform

2020-10-26 07:05:02

大數據管道編排編排框架

2015-08-18 09:47:13

2023-11-30 11:39:52

Rust生態(tài)框架

2024-06-13 08:10:18

2018-03-28 17:16:09

大數據

2012-08-08 09:53:23

HadoopMapReduce

2018-12-07 14:50:35

大數據數據采集數據庫

2015-08-11 15:52:52

大數據數據分析

2012-03-12 10:09:50

Hadoop微軟大數據

2013-03-01 10:46:50

大數據核心海量數據

2013-08-14 09:48:02

微軟REEF

2020-01-09 10:47:15

HDFS數據文件

2022-07-14 09:24:28

大數據技術

2021-05-09 15:32:50

大數據架構大數據數據

2015-09-11 13:54:51

大數據關鍵技術

2019-02-20 23:06:56

大數據數據語言

2015-09-15 14:44:37

大數據核心問題

2019-03-05 14:57:21

大數據Hadoop框架

2015-03-25 17:24:48

大數據時代大數據數據資產
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一级毛片播放 | 精品视频在线免费观看 | 亚洲欧美在线免费观看 | 夜夜精品浪潮av一区二区三区 | 国产乱一区二区三区视频 | 91.色| 欧美精品区| 一区二区三区亚洲 | 国产久| 91麻豆精品国产91久久久更新资源速度超快 | 91视频国产精品 | 91xx在线观看 | 国产精品自在线 | 精品1区2区3区 | 日韩欧美在线观看视频网站 | 久久久精选 | 91精品国产综合久久久久 | 毛片一区二区三区 | 天天插日日操 | 日韩中文一区 | 超碰在线播| 国产蜜臀97一区二区三区 | gogo肉体亚洲高清在线视 | 日本成人一区二区 | 99精品网 | 伊人久久在线 | 美美女高清毛片视频免费观看 | 日韩在线免费视频 | 欧美a v在线 | 欧美日韩中文在线观看 | 一本一道久久a久久精品蜜桃 | 天天操天天天 | 中文字幕四虎 | 天天操伊人 | 国产网站在线播放 | 成人h电影在线观看 | 欧美日韩在线高清 | 中文成人在线 | 日本午夜在线视频 | 国产成人高清成人av片在线看 | 91av视频在线观看 |