成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

實例講解Hadoop用法

開發 架構 Hadoop
Hadoop你是否了解,本文通過實例就向大家介紹一下Hadoop方面的知識,希望本文的介紹對你的學習有所幫助,歡迎大家一起來學習Hadoop。

本節和大家一起學習一下Hadoop,通過它的實際應用來向大家展示它的功能,從而使讀者更容易了解,希望通過本節的介紹大家對Hadoop有初步的了解。

Hadoop最佳實踐

1.簡介
Hadoop是Apache自由軟件基金會資助的頂級項目,致力于提供基于map-reduce計算模型的高效、可靠、高擴展性分布式計算平臺。

2.Map-Reduce應用場景
作為一種受限的分布式計算模型,Map-Reduce計算模型有其擅長的領域,也有其不擅長的方面:

條款1:map-reduce計算模型適用于批處理任務,即在可接受的時間內對整個數據集計算某個特定的查詢的結果,該計算模型不適合需要實時反映數據變化狀態的計算環境。

條款2:map-reduce計算模型是以“行”為處理單位的,無法回溯已處理過的“行”,故每行日志都必須是一個獨立的語義單元,行與行之間不能有語義上的關聯。

條款3:相對于傳統的關系型數據庫管理系統,Map-Reduce計算模型更適合于處理半結構化或無結構話的數據。

因為Map-Reduce計算模型是在處理的時候對數據進行解釋的,這就意味著輸入的Key和Value可以不是數據本身固有的屬性,Key、Value的選擇完全取決于分析數據的人。

條款4:Map-Reduce是一個線性可擴展模型,服務器越多,處理時間越短。

以下是同一個任務在不同機器數下獲得的測試結果:

 3.任務調度優化
首先對一些術語進行一下說明。Job是一組客服端想要完成的工作,包括輸入數據,map-reduce程序以及配置信息,Hadoop通過將Job劃分為一些task來執行,task又分為maptask和reducetask。

如何調度Hadoop任務才能充分發揮集群中所有服務器的能力呢?

條款5:每個Job的輸入文件不宜過大,也不宜過小。文件過大會造成reduce任務分布不均勻,導致reducetime的不可預知性,而大量的小文件則會嚴重影響Hadoop的性能。

Hadoop會將Job的輸入文件分割成64M固定大小的split,每個split啟動一個maptask處理,這個split中的每個record都經過用戶定義的map函數處理生成中間結果。若輸入文件小于64M,則此文件單獨作
為一個split處理。故當輸入文件中有大量的小文件時,那么管理這些小文件的開銷以及maptask的創建開銷會占據絕大多數的Job執行時間。

為了找到Hadoop合適的Job文件大小,我們在一個有50臺退役機器組成的集群做了一組性能測試,結果如下表:

我們把一個任務的計算時間分為兩部分:reduceshuffletime和reducetime。

lreduceshuffletime是reduce任務把map輸出的<key,value>對copy到本地的時間,即reduceshuffletime=map時間+<key,value>對網絡傳輸時間。

lreducetime就是rudece處理這些<key,value>對的時間。

從上表我們可以得出結論:

l各個任務的reduceshuffletime是完全線性的(隨著任務量增加,時間線性增加)。

l任務量在300G以內,reducetime基本線性增長,之后隨著任務量增加,reducetime呈現隨機性加大的趨勢。在任務量達到550G后這種隨機性更加明顯,先后運行同樣的任務時間可能會相差一個小時??梢酝茢?,隨著任務量增加,reduce任務分布不均勻的機率提高,導致了reducetime的不可預知性。

l上面兩個時間的疊加影響下,在300G以內退役機器處理任務的時間是線性增加的。300G以上的任務需要分成若干個小任務串行運行,保證reduce處理在線性可控的區間內。本節關于Hadoop方面的知識沒有介紹完畢,請關注下節介紹。

【編輯推薦】

  1. Hadoop初探
  2. 學習筆記 Hadoop是什么?
  3. Hadoop集群與Hadoop性能優化
  4. HadoopHBase實現配置簡單的單機環境
  5. 深入剖析Hadoop HBase

 

責任編輯:佚名 來源: csdn.net
相關推薦

2010-06-03 18:32:51

Hadoop

2011-04-02 16:37:26

PAT

2010-09-14 17:20:57

2009-08-28 16:37:32

C# for循環

2010-11-22 16:22:39

MySQL連接查詢

2010-03-03 14:05:36

Python實例應用

2011-05-23 13:24:01

2011-04-01 09:04:09

RIP

2010-09-03 10:23:49

PPP Multili

2011-04-02 16:33:33

2021-10-14 09:14:50

PyQueryPython網頁

2009-12-21 16:52:52

靜態路由設置

2009-06-08 16:52:00

2010-06-29 19:08:23

UML建模技術

2009-07-06 13:38:02

2009-06-17 13:57:54

java實例Reflection

2010-06-11 17:44:10

UML對象圖

2013-01-10 14:54:48

Android開發組件Intent

2009-12-23 15:16:52

WPF數據綁定

2009-09-15 09:45:23

Linq動態條件
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天夜夜操 | www视频在线观看 | 国产一区二区三区免费视频 | 国产精品女人久久久 | 久久成人精品视频 | 免费毛片网 | 国产成在线观看免费视频 | 91在线观看视频 | 久久不卡区 | 四虎最新地址 | 午夜在线小视频 | 97人澡人人添人人爽欧美 | 先锋av资源网 | 国产精品日韩欧美一区二区三区 | 久久噜噜噜精品国产亚洲综合 | 日本午夜精品 | 亚洲国产一区二区三区在线观看 | 欧美日韩国产传媒 | 亚洲九色| 日韩激情在线 | 欧美激情久久久 | 成人免费视频网址 | 我要看免费一级毛片 | 欧美成人精品一区二区男人看 | 中文在线a在线 | 欧美日韩国产一区二区三区 | 99久久精品国产一区二区三区 | 五月婷婷在线播放 | 精品视频在线观看 | 中文字幕99 | 亚洲综合色视频在线观看 | 在线视频一区二区 | 久久久久久久久久久久久久国产 | 国产精品久久久久久久久久久久久 | a级大片免费观看 | 精品免费 | 成人国产精品免费观看 | 亚洲一区二区av | 亚洲福利 | 久久久精品久 | 国产丝袜人妖cd露出 |