成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一文讀懂大數據的黃色小象幫手——Hadoop

大數據 Hadoop
繼云計算之后,大數據(Big Data)接棒成為最熱門的科技潮字,和大數據有關的技術和科技接二連三成為科技圈注目的焦點。如果你也關注云端跟大數據的資訊,Hadoop 這個字出現頻率一定挺高的,這個黃色小象 Logo 也應該經常亮相。

繼云計算之后,大數據(Big Data)接棒成為最熱門的科技潮字,和大數據有關的技術和科技接二連三成為科技圈注目的焦點。如果你也關注云端跟大數據的資訊,Hadoop 這個字出現頻率一定挺高的,這個黃色小象 Logo 也應該經常亮相。

 

一文讀懂大數據的黃色小象幫手——Hadoop

 

究竟 Hadoop 是什么?能夠用來解決什么問題?又為什么重要?比起解釋一大堆技術上的細節,倒不如把重點放在 Hadoop 處理巨量資料的角度切入了解,看 Hadoop 能夠帶來什么好處,同時也從這個方向反過來理解大數據。

Hadoop 的雛形 Nutch 最初是由 Doug Cutting 和 Mike Cafarella 針對網頁相關的資料搜尋而開發,2006 年 Doug Cutting 進入 Yahoo 后成立了專業的團隊繼續研究發展這項技術,正式命名為 Hadoop。

Hadoop 這個名稱并不代表任何英文字匯或者縮寫代號,「Hadoop」來自于 Doug Cutting 兒子的一個黃色大象填充玩具1,主要塬因是開發過程中他需要為這套軟體提供一個代號方便溝通,而 Hadoop 這個名字發音簡單拼字容易,而且毫無意義、也沒有在任何地方使用過,因此雀屏中選,黃色小象也因而成為 Hadoop 的標誌。

值得一提的是,在 Hadoop 之后所發展的幾個相關軟件和模組也都參考了這樣的命名方式,名稱不會與主要功能實際相關,而是採用與大象或其他動物有關的名稱作為其開發代號,像是 Pig、Hive、ZooKeeper 等等。

 

[[129607]]

 

什么是 Hadoop?

首先,想像有個檔案大小超過 PC 能夠儲存的容量,那便無法儲存在你的電腦裡,對吧?

Hadoop 不但讓你儲存超過一個伺服器所能容納的超大檔案,還能同時儲存、處理、分析幾千幾萬份這種超大檔案,所以每每提到大數據,便會提到 Hadoop 這套技術。

簡單來說,Hadoop 是一個能夠儲存并管理大量資料的云端平臺,為 Apache 軟體基金會底下的一個開放塬始碼、社群基礎、而且完全免費的軟體,被各種組織和產業廣為採用,非常受歡迎。

#p#

而要懂 Hadoop,你必須先了解它最主要的兩項功能:

Hadoop 如何儲存資料(Store)

Hadoop 怎么處理資料(Process)

分散式檔案系統 HDFS

Hadoop 是一個叢集系統(cluster system),也就是由單一伺服器擴充到數以千計的機器,整合應用起來像是一臺超級電腦。而資料存放在這個叢集中的方式則是採用 HDFS 分散式檔案系統(Hadoop Distributed File System)。

HDFS 的設計概念是這樣的,叢集系統中有數以千計的節點用來存放資料,如果把一份檔案想成一份藏寶圖,機器中會有一個機器老大(Master Node)跟其他機器小弟(Slave/Worker Node),為了妥善保管藏寶圖,先將它分割成數小塊(block),通常每小塊的大小是 64 MB,而且把每小塊拷貝成叁份(Data replication),再將這些小塊分散給小弟們保管。機器小弟們用「DataNode」這個程式來放藏寶圖,機器老大則用「NameNode」這個程式來監視所有小弟們藏寶圖的存放狀態。

如果老大的程式 NameNode 發現有哪個 DataNode 上的藏寶圖遺失或遭到損壞(例如某位小弟不幸陣亡,順帶藏寶圖也丟了),就會尋找其他 DataNode 上的副本(Replica)進行復製,保持每小塊的藏寶圖在整個系統都有叁份的狀態,這樣便萬無一失。

 

一文讀懂大數據的黃色小象幫手——Hadoop

 

透過 HDFS,Hadoop 能夠儲存上看 TB(Tera Bytes)甚至 PB(Peta Bytes)等級的巨量資料,也不用擔心單一檔案的大小超過一個磁碟區的大小,而且也不用擔心某個機器損壞導致資料遺失。

來看看 Yahoo 的 Hadoop cluster 系統:

 

[[129608]]

 

MapReduce 平行運算架構

上一段提到,HDFS 將資料分散儲存在 Hadoop 電腦叢集中的數個機器裡,現在我們要談談 Hadoop 如何用 MapReduce 這套技術處理這些節點上的資料。

在函數程式設計(Functional programming)3中很早就有了 Map(映射)和 Reduce(歸納)的觀念,類似于演算法中個別擊破(Divide and Conquer)的作法,也就是將問題分解成很多個小問題之后再做總和。

MapReduce 顧名思義是以 Map 跟 Reduce 為基礎的應用程式。一般我們進行資料分析處理時,是將整個檔案丟進程式軟體中做運算出結果,而面對巨量資料時,Hadoop 的做法是採用分散式計算的技術處理各節點上的資料。

在各個節點上處理資料片段,把工作分散、分佈出去的這個階段叫做 Mapping;接下來把各節點運算出的結果直接傳送回來歸納整合,這個階段就叫做 Reducing。這樣多管齊下、在上千臺機器上平行處理巨量資料,可以大大節省資料處理的時間。

黃色小象以及小象的朋友們

總和來看,Hadoop 透過 HDFS 和 MapReduce 這兩項核心功能,解決了檔案存放的問題、解決了系統擴張的問題、解決了系統備份的問題、解決了資料處理的問題,非常適合應用于大數據儲存和大數據分析,因此被廣泛接受成為大數據的主流技術。

當然 Hadoop 并沒有解決所有巨量資料帶來的難題,所以許多與 Hadoop 相關的技術被開發來應付巨量資料的其他需求4。像是用來處理資料的 script 語言「Pig」、類似 SQL 語法查詢功能的「Hive」、專門用在 Hadoop 上的資料庫系統「HBase」等。

Hadoop 生態系:

 

一文讀懂大數據的黃色小象幫手——Hadoop

 

對 Hadoop 有初步的認識后,如果想進一步學習相關的大數據技術,可以參考《成為大數據時代的精英學子:Big Data 的推薦好課!》一文,其中列出了許多線上的 Hadoop 推薦好課。

責任編輯:王雪燕 來源: 數據分析精選
相關推薦

2014-04-29 09:59:44

2018-04-03 13:08:31

2017-05-05 12:59:00

大數據物聯網安全

2022-10-20 08:01:23

2024-12-27 14:45:59

2018-03-17 09:00:21

大數據 區塊鏈

2021-07-05 10:48:42

大數據實時計算

2024-05-07 08:49:36

Hadoop數據存儲-分布式存儲

2019-01-30 09:30:50

大數據互聯網人工智能

2022-08-27 10:37:48

電子取證信息安全

2023-12-22 19:59:15

2021-08-04 16:06:45

DataOps智領云

2019-11-29 17:26:56

大數據分布式計算技術

2021-09-04 19:04:14

配置LogbackJava

2022-05-04 17:43:28

元數據大數據

2023-11-27 17:35:48

ComponentWeb外層

2023-05-20 17:58:31

低代碼軟件

2022-07-05 06:30:54

云網絡網絡云原生

2022-07-26 00:00:03

語言模型人工智能

2021-12-29 18:00:19

無損網絡網絡通信網絡
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 二区在线观看 | 日韩 国产 在线 | 日韩在线视频观看 | 日韩欧美中文字幕在线视频 | 四虎影院在线观看av | 久久久精品一区二区三区 | 特级毛片 | 国产剧情一区二区三区 | 亚洲高清成人 | 激情五月婷婷在线 | 免费在线一区二区 | 九九av | 国产一区2区 | 国产精品久久久久久久久图文区 | 午夜久久久久久久久久一区二区 | 国产91精品久久久久久久网曝门 | 免费性视频 | 91精品国产自产精品男人的天堂 | 性高朝久久久久久久3小时 av一区二区三区四区 | 久久三区| 亚洲 欧美 激情 另类 校园 | 国产一区二区三区在线 | 久久草在线视频 | 蜜桃视频在线观看免费视频网站www | 色爽女 | 中文字幕日韩一区 | 久草视频网站 | 久久999| 日韩精品一区二区三区四区视频 | 欧美日本韩国一区二区 | 久久99视频 | 在线观看成人小视频 | 一级片视频免费观看 | 国产精品久久国产精品久久 | 亚洲欧洲日韩精品 中文字幕 | 精品国产乱码久久久久久88av | 人人人干 | 日韩精品一区中文字幕 | 亚洲精品乱码久久久久久按摩观 | 一区二区三区视频在线观看 | 国产精品日韩欧美一区二区三区 |