成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

架構師入門必看系列,分布式文件系統HDFS解讀

存儲 存儲軟件 分布式
在Hadoop生態系統中,Hadoop分布式文件系統(HDFS)是非常關鍵的一環,它為管理大數據資源池和支撐相關大數據分析應用提供了一個具有高可靠性的工具。

在Hadoop生態系統中,Hadoop分布式文件系統(HDFS)是非常關鍵的一環,它為管理大數據資源池和支撐相關大數據分析應用提供了一個具有高可靠性的工具。在分布式存儲領域,HDFS也扮演著重要角色,是作為系統架構師必須了解的分布式文件系統之一。

 

 

HDFS的工作原理

HDFS支持在計算節點之間快速傳輸數據。在開始階段,它與MapReduce緊密耦合——MapReduce是一個用于大規模數據集的并行運算的編程框架。

當HDFS接收數據時,會將信息分解為單獨的塊,并將它們分布到集群中的不同節點,從而支持高效的并行處理。

此外,HDFS專門設計有高容錯的特性。HDFS可以多次復制每個數據片段,并將副本分發給各個節點,將至少一個副本放在其他服務器機架上。因此,在集群中的其他地方也可以找到崩潰節點上的數據。這確保了在恢復數據時可以繼續進行處理。

HDFS使用主/從架構。在其最初版本中,每個Hadoop集群由一個NameNode(用于管理文件系統運行)和支持DataNode(用于管理單個計算節點上的數據存儲)組成。這些HDFS元素結合起來,可支持具有大數據集的應用程序。

這個主節點“數據分塊”架構,從谷歌文件系統(GFS)以及IBM的通用并行文件系統(GPFS)中吸取了部分設計指導元素。GFS是一個可擴展的分布式文件系統,用于大型的、分布式的、對大量數據進行訪問的應用。它運行于廉價的普通硬件上,并提供容錯功能,可以給大量的用戶提供總體性能較高的服務。GPFS是一種專門為集群環境設計的高性能、可擴展的并行文件系統,可以在集群中的多個節點間實現對共享文件系統中文件的快速存取操作,并提供穩定的故障恢復和容錯機制。此外,雖然HDFS不是與可移植操作系統接口(POSIX)的模型兼容的,但它在某些方面也與POSIX設計風格相呼應。

 

HDFS架構圖-應用程序通過Client與NameNode和DataNode進行交互

為什么要使用HDFS

HDFS最早出自雅虎,用于滿足該公司廣告服務和搜索引擎的部分需求。與其他面向Web的公司一樣,雅虎發現自己需要處理的應用程序的用戶訪問越來越多,而這些用戶正在產生越來越多的數據。后來,Facebook、eBay和Twitter等公司也開始使用HDFS作為大數據分析的基礎,來解決相同的需求。

但HDFS的用途遠不止于此。上述所提到的大規模Web搜索,我們可以將其歸類于數據密集型并行計算。此外,HDFS也常用于計算密集型并行計算應用場景,如氣象計算。在數據密集與計算密集混合型場景中也多有應用,如3D建模與渲染。HDFS也是許多開源數據倉庫(有時稱為數據湖,Data Lake)的核心。

HDFS通常用于大規模部署,因為它具備一個重要特性,就是可運行在普通廉價機器上。還有,例如運行Web搜索和相關應用程序的這種系統,往往需要可以擴展到數百PB和數千個節點,因此系統必須擁有易于擴展的特性,這正是HDFS所具備的。此外,服務器故障在這種規模下很常見,HDFS所提供的容錯能力在這方面也很有實際價值。

不適用于HDFS的場景

首先,HDFS不適用于對延遲要求較高的場景,如實時查詢。在延遲方面,HDFS沒有充分的優勢。其次,HDFS也難以支持大量小文件的存儲。在Hadoop系統中,通常將“小文件”定義為遠小于HDFS的block size(默認64MB)的文件,由于每個文件都會產生各自的MetaData元數據,Hadoop通過Namenode來存儲這些信息,若小文件過多,容易導致占用大量NameNode內存,也會使尋道時間超過讀取時間,為系統帶來性能瓶頸。

此外,HDFS不支持多用戶寫入,也無法進行文件隨機修改。僅支持以append的方式,即通過追加的方式添加到文件結尾處。HDFS適用于存儲半結構化和非結構化數據,若有數據嚴格的結構化特性,強行采用HDFS是不合適的。***,HDFS適用于TB、PB級的大數據處理,文件數量通常在百萬以上,如果數據量很小,完全沒有必要采用HDFS。

HDFS和Hadoop的歷史

這里簡要說一些關鍵的時間節點。2006年,Apache Hadoop項目正式啟動,HDFS和MapReduce開始獨立發展。該軟件開始廣泛應用于各行各業的大數據分析項目中。2012年,HDFS和Hadoop版本1.0發布。

2013年Hadoop 2.0版本加入了通用YARN資源管理器,MapReduce和HDFS有效解耦。此后,Hadoop支持各種數據處理框架和文件系統。雖然MapReduce經常被Apache Spark所替代,但HDFS仍然是Hadoop的一種流行的文件格式。

 

在發布了四個alpha版本和一個beta版本之后,Apache Hadoop 3.0.0在2017年12月開始普遍可用,HDFS增強支持額外的NameNode、擦除編碼工具和更大的數據壓縮。與此同時,HDFS工具,如LinkedIn的開源Dr. Elephant和Dynamometer 性能測試工具的進步,也使HDFS能夠支持更進一步的開發實現。

 

責任編輯:武曉燕 來源: IT168
相關推薦

2013-06-18 14:00:59

HDFS分布式文件系統

2012-08-31 16:04:11

HDFS分布式文件系統

2013-01-07 10:29:31

大數據

2012-07-20 14:40:22

2013-01-07 10:42:43

HDFS

2013-01-09 10:16:09

HDFS

2021-04-13 08:06:17

分布式HDFS存儲大型數據

2018-03-01 16:26:30

HDFSHadoop系統

2010-11-01 05:50:46

分布式文件系統

2012-05-10 14:04:07

分布式文件系統架構

2013-06-18 16:58:12

HDFS分布式文件系統

2013-06-18 14:13:43

HDFS分布式文件系統

2018-08-14 10:44:58

HadoopHDFS命令

2013-06-18 14:33:13

HDFS分布式文件系統

2017-10-17 08:33:31

存儲系統分布式

2010-11-15 13:24:07

分布式文件系統

2010-06-04 18:45:43

Hadoop分布式文件

2012-09-19 15:05:24

MogileFS分布式文件系統

2012-09-19 13:43:13

OpenAFS分布式文件系統

2018-01-18 17:14:58

分布式文件系統FastDFS
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品成人一区二区三区 | 天天操网| 在线观看精品视频网站 | 日韩精品免费在线 | 欧美成人在线影院 | 99久久精品视频免费 | 国产视频二区在线观看 | 国产综合在线视频 | 中文字幕视频在线看 | 天堂中文在线播放 | 99久久99久久精品国产片果冰 | 一区二区三区免费 | 一区二区三区四区在线视频 | 一区二区三区亚洲 | 久久久久久免费精品一区二区三区 | 99精品免费视频 | 欧美一区二区 | 国产九九九九 | 黑人巨大精品 | 国产精品国产自产拍高清 | 中文字幕av亚洲精品一部二部 | 性高湖久久久久久久久 | 99久久精品免费看国产四区 | 国产在线播 | 亚洲精品久久久久中文字幕欢迎你 | 不卡一区二区三区四区 | 国产一区二区三区四区五区加勒比 | 日韩av在线一区二区 | 日韩一区二区在线视频 | 国产精品亚洲精品日韩已方 | 激情麻豆视频 | 天堂中文在线播放 | 求个av网址 | 人人草人人干 | 久久久久国产视频 | 亚洲人成网亚洲欧洲无码 | 国产日韩欧美一区二区 | 国产欧美视频一区二区三区 | 婷婷在线视频 | 日韩另类 | 日本三级播放 |