成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hadoop是什么,能干什么,怎么使用

數(shù)據(jù)庫 其他數(shù)據(jù)庫 Hadoop
Hadoop是由java語言編寫的,在分布式服務(wù)器集群上存儲海量數(shù)據(jù)并運(yùn)行分布式分析應(yīng)用的開源框架,其核心部件是HDFS與MapReduce。

Hadoop是什么,能干什么,怎么使用

1、Hadoop是什么

1.1、小故事版本的解釋

小明接到一個(gè)任務(wù):計(jì)算一個(gè)100M的文本文件中的單詞的個(gè)數(shù),這個(gè)文本文件有若干行,每行有若干個(gè)單詞,每行的單詞與單詞之間都是以空格鍵分開的。對于處理這種100M量級數(shù)據(jù)的計(jì)算任務(wù),小明感覺很輕松。他首先把這個(gè)100M的文件拷貝到自己的電腦上,然后寫了個(gè)計(jì)算程序在他的計(jì)算機(jī)上執(zhí)行后順利輸出了結(jié)果。

后來,小明接到了另外一個(gè)任務(wù),計(jì)算一個(gè)1T(1024G)的文本文件中的單詞的個(gè)數(shù)。再后來,小明又接到一個(gè)任務(wù),計(jì)算一個(gè)1P(1024T)的文本文件中的單詞的個(gè)數(shù)……

面對這樣大規(guī)模的數(shù)據(jù),小明的那一臺計(jì)算機(jī)已經(jīng)存儲不下了,也計(jì)算不了這樣大的數(shù)據(jù)文件中到底有多少個(gè)單詞了。機(jī)智的小明上網(wǎng)百度了一下,他在百度的輸入框中寫下了:大數(shù)據(jù)存儲和計(jì)算怎么辦?按下回車鍵之后,出現(xiàn)了有關(guān)Hadoop的網(wǎng)頁。

看了很多網(wǎng)頁之后,小明總結(jié)一句話:Hadoop就是存儲海量數(shù)據(jù)和分析海量數(shù)據(jù)的工具。

1.2、稍專業(yè)點(diǎn)的解釋

Hadoop是由java語言編寫的,在分布式服務(wù)器集群上存儲海量數(shù)據(jù)并運(yùn)行分布式分析應(yīng)用的開源框架,其核心部件是HDFS與MapReduce。

HDFS是一個(gè)分布式文件系統(tǒng):引入存放文件元數(shù)據(jù)信息的服務(wù)器Namenode和實(shí)際存放數(shù)據(jù)的服務(wù)器Datanode,對數(shù)據(jù)進(jìn)行分布式儲存和讀取。

MapReduce是一個(gè)計(jì)算框架:MapReduce的核心思想是把計(jì)算任務(wù)分配給集群內(nèi)的服務(wù)器里執(zhí)行。通過對計(jì)算任務(wù)的拆分(Map計(jì)算/Reduce計(jì)算)再根據(jù)任務(wù)調(diào)度器(JobTracker)對任務(wù)進(jìn)行分布式計(jì)算。

1.3、記住下面的話:

Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。

把HDFS理解為一個(gè)分布式的,有冗余備份的,可以動態(tài)擴(kuò)展的用來存儲大規(guī)模數(shù)據(jù)的大硬盤。

把MapReduce理解成為一個(gè)計(jì)算引擎,按照MapReduce的規(guī)則編寫Map計(jì)算/Reduce計(jì)算的程序,可以完成計(jì)算任務(wù)。

2、Hadoop能干什么

大數(shù)據(jù)存儲:分布式存儲

日志處理:擅長日志分析

ETL:數(shù)據(jù)抽取到oracle、mysql、DB2、mongdb及主流數(shù)據(jù)庫

機(jī)器學(xué)習(xí): 比如Apache Mahout項(xiàng)目

搜索引擎:Hadoop + lucene實(shí)現(xiàn)

數(shù)據(jù)挖掘:目前比較流行的廣告推薦,個(gè)性化廣告推薦

Hadoop是專為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計(jì)的,并不適合那種對幾個(gè)記錄隨機(jī)讀寫的在線事務(wù)處理模式。

實(shí)際應(yīng)用:

(1)Flume+Logstash+Kafka+Spark Streaming進(jìn)行實(shí)時(shí)日志處理分析

Hadoop是什么,能干什么,怎么使用

 

(2)酷狗音樂的大數(shù)據(jù)平臺

Hadoop是什么,能干什么,怎么使用

 

3、怎么使用Hadoop

3.1、Hadoop集群的搭建

無論是在windows上裝幾臺虛擬機(jī)玩Hadoop,還是真實(shí)的服務(wù)器來玩,說簡單點(diǎn)就是把Hadoop的安裝包放在每一臺服務(wù)器上,改改配置,啟動就完成了Hadoop集群的搭建。

3.2、上傳文件到Hadoop集群

Hadoop集群搭建好以后,可以通過web頁面查看集群的情況,還可以通過Hadoop命令來上傳文件到hdfs集群,通過Hadoop命令在hdfs集群上建立目錄,通過Hadoop命令刪除集群上的文件等等。

3.3、編寫map/reduce程序

通過集成開發(fā)工具(例如eclipse)導(dǎo)入Hadoop相關(guān)的jar包,編寫map/reduce程序,將程序打成jar包扔在集群上執(zhí)行,運(yùn)行后出計(jì)算結(jié)果。

 

 

責(zé)任編輯:龐桂玉 來源: 今日頭條
相關(guān)推薦

2022-12-02 14:57:15

物聯(lián)網(wǎng)物聯(lián)網(wǎng)平臺

2023-10-07 14:51:46

物聯(lián)網(wǎng)物聯(lián)網(wǎng)平臺

2018-08-30 17:14:56

2020-07-08 13:38:10

NginxApache服務(wù)器

2022-08-08 07:03:31

Docker場景Registry

2019-04-22 10:08:52

NginxApacheWEB服務(wù)器

2013-02-18 08:15:35

powershell

2014-03-07 10:46:49

編程語言趣味

2013-08-08 09:55:20

私有云DevOps方法虛擬機(jī)

2018-05-23 10:43:42

5G無限容量遠(yuǎn)程操作

2018-07-24 10:18:08

編程語言PythonPHP

2023-01-10 08:43:15

定義DDD架構(gòu)

2017-08-22 10:49:28

DNA存儲電影

2010-08-30 09:58:56

超算高科技

2021-01-15 13:21:02

PythonWeb開發(fā)機(jī)器學(xué)習(xí)

2009-09-14 08:57:30

2019-01-29 11:08:48

NginxApacheHTTP協(xié)議

2023-08-18 14:39:20

RCS谷歌

2012-06-11 10:02:35

2009-09-01 09:50:22

Samba服務(wù)器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 一区二区三区高清不卡 | 人人干人人草 | 玖玖色在线视频 | 亚洲视频在线一区 | 亚洲精品视频在线观看免费 | 成人黄色av网址 | 亚洲成人在线免费 | 玖操| 亚洲免费在线观看 | 成人三区四区 | 色一级| 久久久成人网 | 欧美精品久久一区 | ririsao久久精品一区 | 一色桃子av一区二区 | 精品亚洲视频在线 | 日本天堂视频 | 午夜影视大全 | 国产免费va | 欧美aaa一级片 | 久久免费视频1 | 国产一区二区视频在线观看 | 男女网站免费观看 | 一区二区三区av夏目彩春 | 97精品久久 | 国产一二区视频 | 国产精品成人一区二区三区 | 精品成人在线观看 | 亚洲欧美一区二区三区在线 | 久久久新视频 | 亚洲精品自拍视频 | 久久美国| 亚洲一二三区av | 欧美日韩国产一区二区三区不卡 | 亚洲网在线| 国产91中文| 亚洲成人久久久 | 成人网av| 国产乱肥老妇国产一区二 | www.国产日本| 99久久精品免费 |