成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

為何HDFS是大數據分析的軟肋

大數據 數據分析
分布式文件系統是大型分析非常重要的一環。即使你是在使用Spark,你仍然需要將大量的數據快速的存入內存,所以文件系統一定要可以是高速率的。但是,HDFS并不像它標榜的那樣好,它是大數據分析的薄弱環節。

分布式文件系統是大型分析非常重要的一環。即使你是在使用Spark,你仍然需要將大量的數據快速的存入內存,所以文件系統一定要可以是高速率的。但是,HDFS并不像它標榜的那樣好,它是大數據分析的薄弱環節。

 

 

 

[[184262]]

什么是分布式文件系統?普通的文件系統是基于塊來存儲文件的。查找文件時,要去磁盤中匹配每一個塊。一般是有文件分配表或多種FAT的。但是,分布式文件系統的物理存儲資源是不一定直接連接在本地節點上的,而是通過計算機網絡與節點相連。另外,像RAID或SAN系統,塊是會復制的,因此,網絡節點丟失并不會造成數據丟失。

HDFS存在的缺陷

HDFS中的文件分配表的核心是NameNode。客戶端主要通過NameNode執行數據操作,DataNode會與其他DataNode進行通信并復制數據塊以實現冗余,這樣單一的DataNode損壞不會導致集群的數據丟失。但是NameNode一旦發生故障,后果會非常嚴重。雖然NameNode可以故障轉移,但是需要花費大量的時間。這也意味著序列中會有更多的等待時間。HDFS的垃圾回收,尤其是Java垃圾回收是需要占用大量的內存,一般是本機有效內存的10倍。

因為HDFS的設計更多的是建立在響應"一次寫入、多次讀寫"任務的基礎上。在多數情況下,分析任務都會涉及數據集中的大部分數據,也就是說,對HDFS來說,請求讀取整個數據集要比讀取一條記錄更加高效。所以HDFS在語言選擇方面更偏向于基礎語言,而不是高級語言。

傳統的操作可以用更短的時間來開發部署,維護成本更低、安全性更好。業內有這樣一種說法,大多數操作系統支持C語言、匯編和Java的原因是,文件系統處于一個較低的水平。

HDFS的工具和其他文件系統的工具相較是有差距的。比起你曾經處理的任何文件系統或分布式存儲HDFS周圍的工具是一種較差。基于Java的文件系統只能搭上IT人員最喜愛的POSIX工具的末班車。你嘗試過NFS掛載HDFS嗎?其它的HDFS工具的安裝也是非常復雜的。相反的,如果你使用REST bridge Tool和客戶端命令行就會非常容易。

HDFS支持原生代碼擴展,提高了運行效率。另外,社區也為NameNode的發展做出了很多貢獻。如果你想要打造一個高端的系統,那么必須打破監測和診斷工具中的NameNode瓶頸。總之,在操作系統上使用基于C或C ++的較為成熟的分布式文件系統往往是一個更好的選擇。

Spark和云計算需求的變化

早期的Hadoop企業部署基本上是在本地完成的,隨著Spark和云部署的崛起,使用Amazon S3作為數據源的情況漸漸多了起來。

Hadoop供應商都期望能夠出現更為統一的Hadoop平臺,期望HDFS能夠與安全組件集成。Spark本身就因文件系統的多樣性而存在很多矛盾,所以,想要和文件系統緊密集成幾乎是不可能的。

MAPR FS文件系統漸漸引起了企業的興趣。MAPR FS沒有NameNode,而是采用了更標準和熟悉的集群方案方案。 MAPR的分區設計也很好的避免了瓶頸。

除了上述的分布式文件系統,還有很多的分布式文件系統可以供選擇,例如Ceph、Gluster。Gluster是一種更為標準的分布式文件系統,擅長I/O操作。目前,大多數人選擇使用Spark來存儲文件是因為他們對于Spark更加熟悉,而并非是因為它性能好、速度快。

大型HDFS安裝的遷移是不可能一蹴而就的,但是隨著時間的遷移,未來我們在Spark和云項目中會越來越少的看到HDFS。也許,HDFS會脫離YARN,單獨成為Hadoop的一部分。

責任編輯:張燕妮 來源: it168網站
相關推薦

2015-03-04 11:01:36

大數據數據分析分析

2015-07-29 16:19:54

大數據時代分析

2015-09-01 11:31:50

數據英雄

2021-06-15 14:07:42

Google BigQ大數據大數據分析

2022-04-06 15:59:11

大數據HDFS存儲系統

2015-08-14 10:28:09

大數據

2015-07-29 11:27:28

大數據時代數據分析統計學

2021-08-06 11:01:23

大數據數據分析技術

2019-07-31 14:16:35

大數據人工智能算法

2017-07-22 00:41:27

大數據數據存儲

2015-08-11 15:52:52

大數據數據分析

2021-10-12 15:25:08

大數據數據分析

2022-03-29 14:49:14

大數據數據分析

2015-07-23 09:34:57

大數據數據分析

2013-04-09 09:28:20

大數據大數據全球技術峰會

2012-12-11 10:39:08

2024-03-04 11:10:01

2018-10-24 14:32:15

數據分析數據科學算法

2021-11-08 14:03:44

大數據數據分析技術

2012-08-21 16:32:41

IBM大數據數據分析
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美成人精品一区二区男人看 | 欧美激情一区二区三区 | 日本 欧美 国产 | 国产a级毛毛片 | www国产亚洲精品久久网站 | 欧美精品v国产精品v日韩精品 | 国内精品久久精品 | 成人小视频在线免费观看 | 欧美日韩一区在线播放 | 精品美女 | 99视频免费在线 | 羞羞涩涩在线观看 | 无码日韩精品一区二区免费 | 天堂资源 | 91精品国产91久久久久久 | 91精品国产综合久久精品 | 日日摸夜夜爽人人添av | 毛片网在线观看 | 午夜伦理影院 | 久久国产麻豆 | 日本免费网 | 久久久无码精品亚洲日韩按摩 | 一区二区三区免费 | v亚洲 | 精品一区二区三区四区五区 | 成人性视频在线播放 | 欧美aⅴ| 国产目拍亚洲精品99久久精品 | 日韩毛片免费视频 | 亚洲成人福利在线观看 | 国产日产精品一区二区三区四区 | 伊人久久大香线 | 最新中文字幕在线 | 欧美一区二区在线播放 | 日日噜噜噜夜夜爽爽狠狠视频97 | 久久久久久久久国产精品 | 日韩国产专区 | 成人免费一区二区三区视频网站 | 亚洲97 | 天天干天天操天天射 | 欧美精品在线一区 |