成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

當我們說大數據Hadoop,究竟在說什么?

大數據 Hadoop
本文講解了大數據開發中最流行的軟件Hadoop, 它主要分為3部分,管理文件存儲的hdfs, 統一管理資源和任務的調度平臺Yarn,以及提供了一種計算引擎MapReduce, 基于這三個"磐石",可以構建出整個大數據生態。

?前言

提到大數據,大抵逃不過兩個問題,一個是海量的數據該如何存儲,另外一個就是那么多數據該如何進行查詢計算呢。好在這些問題前人都有了解決方案,而Hadoop就是其中的佼佼者,是目前市面上最流行的一個大數據軟件,那它包括哪些內容呢?有什么特點呢?

Hadoop介紹

提到Hadoop,大家的理解是什么?

狹義上理解,Hadoop指的是Apache軟件基金會的一款用java語言實現,開源的軟件,允許用戶使用簡單的編程模型實現跨機器集群對海量數據進行分布式計算處理。

廣義上,Hadoop指的是圍繞Hadoop打造的大數據生態圈,如下圖所示, 其中Hadoop是整個生態圈的底座、地基,構建出整個大數據的生態系統。

圖片

Hadoop怎么來的?

Hadoop之父:Doug Cutting

《The Google file system》:谷歌分布式文件系統GFS

《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式計算框架MapReduce

《Bigtable: A Distributed Storage System for Structured Data》:谷歌結構化數據存儲系統

Hadoop三大核心組件

hadoop主要由3大部分組成,俗稱Hadoop三劍客:

Hadoop HDFS(分布式文件存儲系統)

全稱分布式文件系統,本質是一個文件系統,由于數據量很大,總不能將將所有數據存儲到一臺"電腦"上,哪有那么大磁盤的電腦,那么是不是可以存儲到多個不同的"電腦"上,也就是分布式的,把文件存儲在不同的節點中,主要是為了解決海量數據存儲的問題,它處在生態圈的底層與核心地位。

Hadoop MapReduce(分布式計算框架)

MapReduce作為大數據生態圈第一代分布式計算框架,主要是解決了海量數據的計算問題。

傳統的計算方式一般都是將數據從各個節點上加載過來,然后統一計算。這樣有個最大的弊端就是計算十分慢,只有一個節點工作。而MapReduce計算框架可以分布在各個節點上并行計算,最后進行歸并。

注意,MapReduce只是一個計算框架,或者說編程模型,不是一個軟件,無需部署。

Hadoop YARN(集群資源管理和任務調度平臺)

YARN是分布式通用的集群資源管理系統和任務調度平臺,怎么理解呢?

大數據的很多計算任務,比如MapReduce任務、或者其他的Spark任務等等,他們在計算的時候需要CPU、內存、磁盤等資源,那么多個任務進行運算的時候需要有個管理者去給他們進行資源分配、調度等,這個管理員就是YARN。

Hadoop優點

Hadoop為什么這么流行,這和它的眾多優點分不開。

擴容能力

Hadoop是在可用的計算機集群間分配數據并完成計算任務的,這些集群可方便靈活的方式擴展到數以千計的節點。

成本低

Hadoop集群允許通過部署普通廉價的機器組成集群來處理大數據,以至于成本很低。看重的是集群整體能力。

效率高

通過并發數據,Hadoop可以在節點之間動態并行的移動數據,使得速度非常快。

可靠性

能自動維護數據的多份復制,并且在任務失敗后能自動地重新部署(redeploy)計算任務。所以Hadoop的按位存儲和處理數據的能力值得人們信賴。

開源

由于Hadoop開源,所以整個社區活躍度很高,很多企業都是基于Hadoop構建他們的大數據平臺。

Hadoop架構變遷

Hadoop也一直在迭代升級,如今已經到了3.0時代了,那么每個大版本有什么差別呢?

1.Hadoop 1.0時代

圖片

Hadoop1.0時代只有HDFS?(分布式文件存儲)和MapReduce(資源管理和分布式數據處理)兩部分。

2.Hadoop 2.0時代

圖片

Hadoop2.0時代引入了YARN作為統一的集群資源管理和任務調度平臺,它不僅可以提交自己的任務,還可以提交其他的一些任務,是一個很大的變革,也是保證Hadoop的統治地位的一大原因。

3.Hadoop 3.0時代

Hadoop 3.0架構組件和Hadoop 2.0類似, 但是3.0著重于性能優化。

Hadoop初體驗

好了,上面基本講清楚Hadoop的基本內容,那Hadoop究竟長啥樣呢?至于安裝這邊就不介紹了。

Hadoop分布式文件系統

我們可以在web上看到hadoop的文件系統,其實和我們的目錄沒啥差別。

圖片

YARN集群資源管理和任務調度平臺

我們也可以在瀏覽器輸入指定的地址看到之前都提交過上面樣的計算任務。

圖片

至于MapReduce是看不到的,它只是一個計算框架,提交到這個Yarn上。

總結

本文講解了大數據開發中最流行的軟件Hadoop, 它主要分為3部分,管理文件存儲的hdfs, 統一管理資源和任務的調度平臺Yarn,以及提供了一種計算引擎MapReduce, 基于這三個"磐石",可以構建出整個大數據生態。

責任編輯:武曉燕 來源: JAVA旭陽
相關推薦

2014-06-25 09:11:48

技術

2019-06-04 14:36:04

高并發Java架構

2022-04-28 13:02:32

cpu指令編程

2021-06-23 15:12:59

WiFi路由器網絡

2016-11-22 23:44:56

2018-04-12 16:46:24

云計算虛擬化服務

2011-08-31 13:12:36

2022-03-11 21:28:31

部署開發服務器

2021-06-28 21:11:40

Wi-Fi信號游戲

2019-12-24 11:19:44

容器DockerLinux

2020-11-16 15:47:05

SaaS軟件轉型

2022-11-11 09:28:57

軟件設計DDD

2021-01-27 05:25:44

Go語言函數

2017-12-19 10:57:24

地球人口數據分析可視化

2013-04-08 10:49:53

當我們變成一堆數字大數據時代

2024-07-26 08:35:29

2021-05-31 10:46:16

自動駕駛特斯拉數據

2019-08-19 09:12:51

索尼三星華為

2017-03-07 15:43:28

編程語言函數數據結構

2021-11-25 14:14:28

加密貨幣數字貨幣貨幣
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲五码久久 | 在线观看成人精品 | 精品久久久久久久久久久久久久 | 欧美日韩理论 | 一区二区三区视频在线免费观看 | 成人教育av | 一道本在线 | 日本久草视频 | 亚洲视频欧美视频 | 国产日产久久高清欧美一区 | 伊人精品| 免费在线精品视频 | 男女视频91 | 日韩电影中文字幕在线观看 | 亚洲精品一级 | 国产精品视频网 | 精品三区| 97超在线视频 | 亚洲国产精品99久久久久久久久 | 在线不卡一区 | 少妇一级淫片免费放播放 | 国产成人一区在线 | 91精品国产色综合久久 | 91精品国产综合久久精品 | 91中文字幕在线 | 亚洲啪啪 | 亚洲人成人一区二区在线观看 | 亚洲美女天堂网 | 日韩电影免费观看中文字幕 | 羞羞的视频免费在线观看 | 免费观看av网站 | 91精品国产综合久久久久久蜜臀 | 国产乱性| 国产精品久久国产精品99 | 久久不射网| 澳门永久av免费网站 | 在线观看视频福利 | 国产精品久久久久国产a级 欧美日本韩国一区二区 | 欧美一区二区三区四区五区无卡码 | 美女爽到呻吟久久久久 | 国产精品视频久久 |