成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

詳解大數據開發-HDFS入門

大數據
HDFS(Hadoop Distributed File System)是hadoop生態系統的一個重要組成部分,是Hadoop中的的存儲組件,在整個Hadoop中的地位非同一般,也是最基礎的一部分,因為它涉及到數據存儲,MapReduce等計算模型都要依賴于存儲在HDFS中的數據。

今天帶來的是全新的章節,大數據開發-HDFS,作為Hadoop生態系統的一個重要組成部分,其存在不可或缺,基礎的才是最重要的,而HDFS就是這樣一個存在。下面就開始HDFS的學習。

一、 HDFS介紹

HDFS(Hadoop Distributed File System)是hadoop生態系統的一個重要組成部分,是Hadoop中的的存儲組件,在整個Hadoop中的地位非同一般,也是最基礎的一部分,因為它涉及到數據存儲,MapReduce等計算模型都要依賴于存儲在HDFS中的數據。HDFS是一個分布式文件系統,以流式數據訪問模式存儲超大文件,將數據分塊存儲到一個商業硬件集群內的不同機器上。HDFS在最開始是作為Apache Nutch搜索引擎項目的基礎架構而開發的。HDFS是Apache Hadoop Core項目的一部分。

分布式文件系統解決的問題就是大數據存儲。它們是橫跨在多臺計算機上的存儲系統。分布式文件系統在大數據時代有著廣泛的應用前景,它們為存儲和處理超大規模數據提供所需的擴展能力。

 

[[393004]]

 

二、HDFS設計理念

硬件出現故障是常態,而HDFS由成百上千的服務器組成,每一個組成部分都有可能出現故障。因此故障的檢測和自動快速恢復是HDFS的核心架構目標。與一般的應用不同,HDFS上的應用主要是以流式讀取數據HDFS被設計成適合批量處理,而不是用戶交互式的。相較于數據訪問的反應時間,實際上更注重數據訪問的高吞吐量。典型的 HDFS文件大小是GB到TB的級別。所以,HDFS被調整成支持大文件。它應該提供很高的聚合數據帶寬,一個集群中支持數百個節點,一個集群中還應該支持千萬級別的文件。

大部分 HDFS 應用對文件要求的是 write-one-read-many訪問模型。一個文件一旦創建、寫入、關閉之后就不需要修改了。這一假設簡化了數據一致性問題,使高吞吐量的數據訪問成為可能。

移動計算的代價比之移動數據的代價低。一個應用請求的計算,離它操作的數據越近就越高效,這在數據達到海量級別的時候更是如此。將計算移動到數據附近,比之將數據移動到應用所在顯然更好。

在異構的硬件和軟件平臺上的可移植性,這將推動需要大數據集的應用更廣泛地采用 HDFS 作為平臺。

 

[[393005]]

 

三、概念介紹

以下有幾個較為重要的概念需要介紹下

(1)超大文件。目前的hadoop集群能夠存儲幾百TB甚至PB級的數據。

(2)流式數據訪問。HDFS的訪問模式是:一次寫入,多次讀取,更加關注的是讀取整個數據集的整體時間。

(3)商用硬件。HDFS集群的設備不需要多么昂貴和特殊,只要是一些日常使用的普通硬件即可,正因為如此,hdfs節點故障的可能性還是很高的,所以必須要有機制來處理這種單點故障,保證數據的可靠。

(4)不支持低時間延遲的數據訪問。hdfs關心的是高數據吞吐量,不適合那些要求低時間延遲數據訪問的應用。

(5)單用戶寫入,不支持任意修改。hdfs的數據以讀為主,只支持單個寫入者,并且寫操作總是以添加的形式在文末追加,不支持在任意位置進行修改。

四、為什么我們需要HDFS?

1.數據量巨大,磁盤開始很糾結的處理我們需要的海量信息。所以需要文件系統有大規模數據分布存儲能力。

2.讀取一塊磁盤的所有數據需要很長時間,寫入更是需要更長時間(寫入時間一般是讀取時間的3倍)即使有文件為1ZB,或者小點10EB時,這樣的磁盤也無法做到隨讀隨取。所以需要文件系統有高并發訪問能力。

3.當數據集的大小超過一臺獨立物理計算機的存儲能力時,就有必要對它進行分區并存儲到若干臺單獨的計算機上。

4.從概念圖上看,分布化的文件系統會因為分布后的結構不完整,導致系統復雜度加大,并且引入的網絡編程,同樣導致分布式文件系統更加復雜。所以需要強大的容錯能力。

5.HDFS解決以上方案是分片冗余,本地校驗,需要數據塊存儲模式數據冗余式存儲,直接將多份的分片文件交給分片后的存儲服務器去校驗。冗余后的分片文件還有個額外功能,只要冗余的分片文件中有一份是完整的,經過多次協同調整后,其他分片文件也將完整。

經過協調校驗,無論是傳輸錯誤,I/O錯誤,還是個別服務器宕機,整個系統里的文件是完整的。

6.分布后的文件系統有個無法回避的問題,因為文件不在一個磁盤導致讀取訪問操作的延時,這個是HDFS現在遇到的主要問題。

現階段,HDFS的配置是按照高數據吞吐量優化的,可能會以高時間延時為代價。但萬幸的是,HDFS是具有很高彈性,可以針對具體應用再優化。

總結就是:可以實現負載均衡、提高響應效率,因為多個服務器可以同時服務,提高了效率。

 

[[393006]]

 

以上就是本期的所有內容了,Hadoop在大數據開發的學習當中,占據著相當重要的地位,相關知識點也會比較多,所以關于HDFS一定要好好理解,以免在后面學習Hadoop造成更多的困難。

 

責任編輯:姜華 來源: 中國IDC圈
相關推薦

2021-03-15 14:02:21

大數據數據開發Spark

2020-01-09 10:47:15

HDFS數據文件

2018-09-03 11:57:28

大數據存儲Spark

2020-07-23 07:24:40

Kubernetes大數據開發

2017-02-27 16:35:00

HDFS大數據分析

2022-04-06 15:59:11

大數據HDFS存儲系統

2018-07-20 16:57:51

大數據書單工程師

2023-05-11 00:17:44

分區HiveReduce

2018-07-11 13:33:43

大數據人工智能Hadoop

2022-10-14 15:44:03

大數據Hadoop

2019-04-15 15:32:12

大數據開發數據分析數據科學

2017-01-22 21:30:39

大數據Kaggle函數

2018-12-21 11:01:05

存儲大數據RAID

2016-12-02 19:19:35

大數據Hadoop

2017-03-06 10:45:29

HadoopHDFS大數據

2009-11-16 14:31:26

原型開發

2011-08-31 10:37:06

MTK開發入門

2011-07-29 11:28:58

iPhone開發

2019-02-20 23:06:56

大數據數據語言

2016-12-15 21:15:58

大數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本小电影网站 | 色女人天堂 | 国产精品99久久久久久动医院 | 国产欧美日韩在线观看 | 免费黄色的视频 | 精品麻豆剧传媒av国产九九九 | 午夜精品一区二区三区在线视频 | 女女百合av大片一区二区三区九县 | 91在线精品一区二区 | 91av国产在线视频 | 一区二区三区在线播放视频 | 久久91av| 天天操天天天干 | 久久精品一区二区三区四区 | 国产成人久久精品一区二区三区 | 91久久精品国产91久久 | 成人精品一区二区 | 精品国产一区二区三区av片 | 精品一区二区视频 | www.中文字幕av | 亚洲大片一区 | 中文一区 | 在线国产一区二区 | 欧美激情亚洲激情 | 日韩欧美一区二区三区在线播放 | 91.com视频| 亚洲女人天堂网 | 国产精久久久久久久妇剪断 | 视频一区在线 | hsck成人网 | 国产精品久久久久aaaa | 国产精品久久久久久久久免费丝袜 | 日韩午夜网站 | 国产精品一级在线观看 | 亚洲精品1| 免费成年网站 | 欧洲一区二区三区 | 免费日韩av网站 | 国产精品精品久久久 | 久久亚洲天堂 | 亚洲一区中文字幕在线观看 |