成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MapReduce初級案例——數據排序

大數據
“ 數據排序”是許多實際任務執行時要完成的第一項工作,比如學生成績評比、 數據建立索引等。這個實例和數據去重類似,都是先對原始數據進行初步處理,為進一步的數據操作打好基礎。

[[173555]]

“ 數據排序”是許多實際任務執行時要完成的第一項工作,比如學生成績評比、 數據建立索引等。這個實例和數據去重類似,都是先對原始數據進行初步處理,為進一步的數據操作打好基礎。下面進入這個示例。

1 實例描述

對輸入文件中數據進行排序。 輸入文件中的每行內容均為一個數字, 即一個數據。要求在輸出中每行有兩個間隔的數字,其中, 第一個代表原始數據在原始數據集中的位次, 第二個代表原始數據。

樣例輸入:

(1) file1:

(2) file2:

(3) file3:

樣例輸出:

2 設計思路

這個實例僅僅要求對輸入數據進行排序,熟悉 MapReduce 過程的讀者會很快想到在MapReduce 過程中就有排序,是否可以利用這個默認的排序,而不需要自己再實現具體的排序呢?答案是肯定的。

但是在使用之前首先需要了解它的默認排序規則。它是按照 key 值進行排序的,如果key 為封裝 int 的 IntWritable 類型,那么 MapReduce 按照數字大小對 key 排序,如果 key為封裝為 String 的 Text 類型,那么 MapReduce 按照字典順序對字符串排序。

了解了這個細節,我們就知道應該使用封裝 int 的 IntWritable 型數據結構了。也就是在map 中將讀入的數據轉化成 IntWritable 型,然后作為 key 值輸出( value 任意)。 reduce 拿到之后,將輸入的 key 作為 value 輸出,并根據 value-list 中元素的個數決定輸出的次數。輸出的 key(即代碼中的 linenum)是一個全局變量,它統計當前 key 的位次。

需要注意的是這個程序中沒有配置 Combiner,也就是在 MapReduce 過程中不使用 Combiner。這主要是因為使用 map 和 reduce 就已經能夠完成任務了。

3 程序代碼

程序代碼如下所示:

 

4 代碼結果

(1)準備測試數據

通過 Eclipse 下面的“ DFS Locations”在“ /user/hadoop”目錄下創建輸入文件“ sort_in”文件夾( 備注:“ sort_out”不需要創建。)如圖 2.4-1 所示,已經成功創建。

然后在本地建立三個 txt 文件,通過 Eclipse 上傳到“ /user/hadoop/sort_in”文件夾中,三個 txt 文件的內容如“實例描述”那三個文件一樣。如圖 2.4-2 所示,成功上傳之后。從 SecureCRT 遠處查看“ Master.Hadoop”的也能證實我們上傳的三個文件。

查看兩個文件的內容如圖 2.4-3 所示:

(2)查看運行結果

這時我們右擊 Eclipse 的“ DFS Locations”中“ /user/hadoop”文件夾進行刷新,這時會發現多出一個“ sort_out”文件夾,且里面有 3 個文件,然后打開雙其“ part-r-00000”文件,會在 Eclipse 中間把內容顯示出來。如圖 2.4-4 所示。

責任編輯:趙寧寧 來源: 36大數據
相關推薦

2013-04-24 10:47:48

Hadoop集群

2016-10-14 16:52:03

單表關聯數據信息

2021-02-22 07:29:07

算法初級排序

2021-02-26 05:29:11

排序算法數組

2011-08-10 11:16:00

Platform

2019-08-14 17:13:23

大數據MapReduce框架

2009-08-14 13:20:29

ASP.NET Gri

2014-03-17 15:28:48

MapReduce

2023-03-06 08:10:52

數據結構算法數據

2018-11-14 14:33:33

MapReduce數據集計算

2011-10-18 14:00:30

MapReduce分布式流式

2009-10-27 10:58:00

VB.NET文件名排序

2016-05-09 10:16:14

MapReduce數據分析明星微博

2012-08-08 09:53:23

HadoopMapReduce

2019-11-08 14:31:45

MapReduce數據集數據結構

2020-06-19 17:43:51

華為

2020-11-03 10:16:24

Hive數據傾斜Hive SQL

2023-09-27 15:34:48

數據編程

2017-04-19 11:17:48

SparkHadoopMapReduce

2014-03-20 09:49:51

MapReduce
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 性一交一乱一透一a级 | 日韩精品久久久久久 | 免费国产一区二区 | 伊人免费网 | 久久999| 国产欧美日韩一区二区三区在线 | 91视频精选 | 精品在线看 | 正在播放国产精品 | 欧美国产在线一区 | 福利视频一二区 | 欧美一区不卡 | 国产一区二区电影 | 在线观看av网站 | 久久精品毛片 | 亚洲人免费视频 | 草久久久| 久久久久久国产免费视网址 | 日韩视频在线免费观看 | 午夜天堂精品久久久久 | 亚洲视频一区二区三区 | 综合久久久久 | 欧美日韩亚洲视频 | 99热这里都是精品 | 在线免费观看日本视频 | 色接久久 | 久久精品影视 | 亚洲一区二区三区观看 | 一区| 一区二区三区在线观看视频 | av影片在线 | 亚洲91视频 | 久久毛片| 中文字幕一区二区三区在线观看 | 国产欧美一区二区三区日本久久久 | 欧美精品中文字幕久久二区 | 精品视频一区二区三区在线观看 | 亚洲一区二区三区免费观看 | 99热在线免费 | 亚洲天堂久久新 | 99精品视频在线观看免费播放 |