成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hadoop集群配置中如何寫入和讀取數據?

開發 架構 Hadoop
Hadoop集群你是否熟悉,本文就像大家介紹一下Hadoop集群性能優化中有關機架感知配置問題,歡迎大家一起來學習,希望通過本文的介紹大家對機架感知有所了解。

本節和大家繼續學習一下有關Hadoop集群性能優化中機架感知配置方面的內容,主要包括寫入數據和讀出數據兩大部分,希望通過本節的介紹大家對Hadoop集群中機架感知配置有一定的認識。

Hadoop集群功能測試

以下是分別就配置了機架感知信息和沒有配置機架感知信息的hadoopHDFS啟動instance進行的數據上傳時的測試結果。

寫入數據

當沒有配置機架信息時,所有的機器hadoop都默認在同一個默認的機架下,名為“/default-rack”,這種情況下,任何一臺datanode機器,不管物理上是否屬于同一個機架,都會被認為是在同一個機架下,此時,就很容易出現之前提到的增添機架間網絡負載的情況。例如,對沒有機架信息的hadoopHDFS啟動instance上傳一個文件,其block信息如下:
從上圖可以看出,在沒有機架信息的情況下,namenode默認將所有的slaves機器全部默認為在/default-rack下,根據hadoop代碼的分析也能知道哦啊,此時在寫block時,三個datanode機器的選擇完全是隨機的。

而當Hadoop集群中配置了機架感知信息以后,hadoop在選擇三個datanode時,就會進行相應的判斷:

1.如果上傳本機不是一個datanode,而是一個客戶端,那么就從所有slave機器中隨機選擇一臺datanode作為***個塊的寫入機器(datanode1)。
a)而此時如果上傳機器本身就是一個datanode(例如mapreduce作業中task通過DFSClient向hdfs寫入數據的時候),那么就將該datanode本身作為***個塊寫入機器(datanode1)。

2.隨后在datanode1所屬的機架以外的另外的機架上,隨機的選擇一臺,作為第二個block的寫入datanode機器(datanode2)。

3.在寫第三個block前,先判斷是否前兩個datanode是否是在同一個機架上,如果是在同一個機架,那么就嘗試在另外一個機架上選擇第三個datanode作為寫入機器(datanode3)。而如果datanode1和datanode2沒有在同一個機架上,則在datanode2所在的機架上選擇一臺datanode作為datanode3。

4.得到3個datanode的列表以后,從namenode返回該列表到DFSClient之前,會在namenode端首先根據該寫入客戶端跟datanode列表中每個datanode之間的“距離”由近到遠進行一個排序。如果此時DFS寫入端不是datanode,則選擇datanode列表中的***個排在***位。客戶端根據這個順序有近到遠的進行數據塊的寫入。在此,判斷兩個datanode之間“距離”的算法就比較關鍵,hadoop目前實現如下,以兩個表示datanode的對象DatanodeInfo(node1,node2)為例:
a)首先根據node1和node2對象分別得出兩個datanode在整個hdfs集群中所處的層次。這里的層次概念需要解釋一下:每個datanode在hdfs集群中所處的層次結構字符串是這樣描述的,假設hdfs的拓撲結構如下:

如上圖所示,每個datanode都會對應自己在集群中的位置和層次,如node1的位置信息為“/rack1/datanode1”,那么它所處的層次就為2,其余類推。
b)得到兩個node的層次后,會沿著每個node所處的拓樸樹中的位置向上查找,如“/rack1/datanode1”的上一級就是“/rack1”,此時兩個節點之間的距離加1,兩個node分別同上向上查找,直到找到共同的祖先節點位置,此時所得的距離數就用來代表兩個節點之間的距離。所以,如上圖所示,node1和node2之間的距離就為4.
5.當根據“距離”排好序的datanode節點列表返回給DFSClient以后,DFSClient便會創建BlockOutputStream,并想這次block寫入pipeline中的***個節點(最近的節點)開始寫入block數據。
6.寫完***個block以后,依次按照datanode列表中的次遠的node進行寫入,直到***一個block寫入成功,DFSClient返回成功,該block寫入操作結束。
通過以上策略,namenode在選擇數據塊的寫入datanode列表時,就充分考慮到了將block副本分散在不同機架下,并同時盡量的避免了之前描述的網絡多于開銷。
對配置了機架信息的hadoopHDFS啟動instance上傳一個文件,其block信息如下:
從上圖可以看出,在配置了機架信息的情況下,為了減少機架間的網絡流量,namenode會將其中兩個副本寫在同一個機架上,并且為了盡量做到容錯,會將第三個block寫道另一個機架上的datanode上。

讀取數據

我們看一下Hadoop集群配置中如何讀取數據。當對某個文件的某個block進行讀取的時候,hadoop采取的策略也是一樣:

1.首先得到這個block所在的datanode的列表,有幾個副本數該列表就有幾個datanode。

2.根據列表中datanode距離讀取端的距離進行從小到大的排序:
a)首先查找本地是否存在該block的副本,如果存在,則將本地datanode作為***個讀取該block的datanode
b)然后查找本地的同一個rack下是否有保存了該block副本的datanode
c)***如果都沒有找到,或者讀取數據的node本身不是datanode節點,則返回datanode列表的一個隨機順序。本節關于Hadoop集群相關內容介紹完畢。
 

【編輯推薦】

  1. 實現Hadoop集群性能優化,Hadoop機架感知如何配置?
  2. 專家指導 如何實現Hadoop集群搭建
  3. Hadoop文件系統如何快速安裝?
  4. Hadoop集群搭建過程中相關環境配置詳解
  5. Hadoop完全分布模式安裝實現詳解

 

 

責任編輯:佚名 來源: csdn.net
相關推薦

2023-01-15 17:11:44

Rust

2019-10-10 08:00:00

LinuxWindows分區

2023-11-03 11:56:34

2010-06-07 09:14:55

Hadoop集群

2012-06-28 10:52:06

Hadoop集群

2013-05-27 14:13:51

Hadoop 2.0.

2021-08-02 15:02:37

Go Excelize 開發

2010-06-04 17:43:12

Hadoop集群搭建

2012-06-25 10:30:06

Hadoop集群

2010-06-03 14:42:47

Hadoop分布式集群

2010-06-04 18:17:50

Hadoop集群

2010-06-04 10:35:14

2010-06-03 15:39:47

Hadoop配置

2012-09-18 09:55:44

Hadoop 2.0

2012-08-31 10:00:12

Hadoop云計算群集網絡

2012-11-08 14:47:52

Hadoop集群

2013-07-31 10:04:42

hadoopHadoop集群集群和網絡

2020-12-10 10:46:23

PythonExcel圖片

2010-06-04 18:06:22

Hadoop集群搭建

2011-04-21 10:05:35

Hadoop集群lzo
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费观看一级毛片 | 久久成人综合 | 亚洲一区二区久久 | 欧美日韩一区在线观看 | 亚洲欧洲日韩精品 中文字幕 | 久久中文一区二区 | 久久精品在线 | 欧美视频免费在线 | 欧美在线激情 | 午夜寂寞影院在线观看 | 日韩成年人视频在线 | 国产午夜精品福利 | 亚洲成人久久久 | 涩涩视频网站在线观看 | 成人国产精品久久 | 亚洲免费人成在线视频观看 | 国产精品国产成人国产三级 | 一级做a爰片性色毛片16美国 | 中文字幕av在线 | 在线国产一区 | 日韩字幕一区 | 中文字幕视频在线看5 | 91精品免费 | 成年人在线视频 | 亚洲欧美激情四射 | 国产欧美日韩综合精品一区二区 | 91精品国产麻豆 | 天天操天天拍 | www日| 欧美aaaaaaaa| 亚洲 欧美 日韩 精品 | 四虎影院新地址 | 精品一区二区三区在线观看 | 亚洲精品一区中文字幕乱码 | wwwxxx日本在线观看 | 国产精品视屏 | 少妇久久久 | 伊人精品久久久久77777 | 亚洲 欧美 综合 | 男人阁久久 | 国产精品一区二区av |