成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hadoop 3中的磁盤管理大招解密

存儲 存儲軟件 Hadoop
DataNode 使用基于輪詢的策略寫入新塊。但是,在長期運行的集群中,由于 HDFS 中大規(guī)模文件刪除或通過磁盤熱交換特性添加新 DataNode 磁盤等事件,DataNode 仍然可能創(chuàng)建了顯著不平衡的卷。

1、前言

本文深入研究 HDFS 磁盤平衡的新特性,這是 Hadoop3 中加入的一個特性。

HDFS 現(xiàn)在包括(在 CDH 5. 8. 2 和更高版本中發(fā)布)用于跨節(jié)點移動數(shù)據(jù)的全面的存儲容量管理方法。

在 HDFS 中,DataNode 將數(shù)據(jù)塊分散到本地文件系統(tǒng)目錄中,這可以使用 hdfs-site.xml 文件的 dfs.datanode.data.dir 參數(shù)指定。

在典型的安裝中,每個目錄(在 HDFS 術(shù)語中稱為卷)位于不同的設(shè)備上(例如,在單獨的 HDD 和 SSD 上)。

當向 HDFS 寫入新塊時,DataNode 使用卷選擇策略為塊選擇磁盤。

[[226313]]

當前支持兩種此類策略類型:

  • 輪詢(round-robin)
  • 可用空間(available space)(HDFS-1804)

簡而言之,如圖1所示,輪詢策略在可用磁盤上均勻分布新塊,而可用空間策略優(yōu)先將數(shù)據(jù)寫入具有***可用空間(按百分比)的磁盤。

圖1

默認情況下,DataNode 使用基于輪詢的策略寫入新塊。但是,在長期運行的集群中,由于 HDFS 中大規(guī)模文件刪除或通過磁盤熱交換特性添加新 DataNode 磁盤等事件,DataNode 仍然可能創(chuàng)建了顯著不平衡的卷。

即使您使用基于可用空間的卷選擇策略,卷不平衡仍然可能導致效率較低的磁盤 I / O。

例如:每個新寫入將轉(zhuǎn)到新添加的空磁盤,而其他磁盤在此期間是空閑的,這會在新磁盤造成瓶頸。

最近,Apache Hadoop 社區(qū)開發(fā)了服務器離線腳本(在 HDFS-1312,dev@ mailing list 和 GitHub 中所討論的),以緩解數(shù)據(jù)不平衡問題。

但是,由于處于 HDFS 代碼庫之外,這些腳本要求 DataNode 在磁盤之間移動數(shù)據(jù)之前脫機。

因此,HDFS-1312 還引入了一種在線磁盤平衡器,旨在根據(jù)各種指標重新平衡正在運行的 DataNode 上的卷。

與 HDFS 平衡器類似,HDFS 磁盤平衡器作為 DataNode 中的線程運行,以便在具有相同存儲類型的卷之間移動塊文件。

在本文的剩余部分,您將了解為什么以及如何使用此新特性。

2、如何使用磁盤平衡器?

讓我們通過一個例子逐步探討這個有用的特性。

首先,確認在所有 DataNode 上配置 dfs.disk.balancer.enabled 設(shè)置為 true。

從 CDH 5.8.2 起,用戶可以通過 Cloudera Manager 中的 HDFS 安全閥片段指定此配置:

在此示例中,我們將向預加載的 HDFS DataNode 添加一個新磁盤(/mnt/disk1),并將新磁盤掛載到 /mnt/disk2。

在 CDH 中,每個 HDFS 數(shù)據(jù)目錄位于單獨的磁盤上,因此可以使用 df 顯示磁盤使用情況:

顯然,是時候讓磁盤平衡了!

典型的磁盤平衡器任務涉及三個步驟(通過 HDFS diskbalancer 命令實現(xiàn)):計劃,執(zhí)行和查詢。

在***步中,HDFS 客戶端從 NameNode 讀取關(guān)于指定的 DataNode 的必要信息,以生成執(zhí)行計劃:

從輸出中可以看出,HDFS 磁盤平衡器使用計劃器來計算指定 DataNode 上數(shù)據(jù)移動計劃的步驟,這是通過使用 DataNode 向 NameNode 報告的磁盤使用信息來完成的。

每個步驟指定要移動數(shù)據(jù)的源卷和目標卷,以及預計移動的數(shù)據(jù)量。

在編寫本文時,HDFS 支持的唯一計劃器是 GreedyPlanner ,它不斷將數(shù)據(jù)從最常用的設(shè)備移動到最少使用的設(shè)備,直到全部數(shù)據(jù)均勻分布在所有設(shè)備上。

用戶還可以在計劃命令中指定空間利用率的閾值;因此,如果空間利用率的差異低于閾值,則計劃器認為磁盤是平衡的。

另一個值得注意的選項是通過在計劃過程中指定— bandwidth 來限制磁盤平衡器任務 I/O,以便磁盤平衡器 I/O 不會影響前臺工作。

磁盤平衡器執(zhí)行計劃生成為存儲在 HDFS 中的 JSON 文件。

默認情況下,計劃文件保存在 /system/diskbalancer 目錄下:

要在 DataNode 上執(zhí)行計劃,請運行:

此命令將 JSON 計劃文件提交給 DataNode,DataNode 在后臺 BlockMover 線程中執(zhí)行它。

檢查 DataNode 上磁盤平衡器任務的狀態(tài),請使用 query 命令:

輸出(PLAN_DONE)表示磁盤平衡任務已完成。要驗證磁盤平衡器的有效性,請再次使用 df -h 查看跨兩個本地磁盤的數(shù)據(jù)分布:

輸出確認磁盤平衡器成功地將卷之間的磁盤空間使用率差異降低到10%以下。任務完成!

要閱讀有關(guān) HDFS 磁盤均衡器的更多詳細信息,請閱讀 Cloudera 文檔和上游文檔。

3、總結(jié)

隨著 HDFS-1312 中引入期待已久的內(nèi)部 DataNode 磁盤平衡器特性,CDH 5.8.2 及更高版本中帶來的 HDFS 版本提供了一個全面的存儲容量管理解決方案,可以實現(xiàn)以下3種數(shù)據(jù)移動:跨節(jié)點(平衡器)、存儲類型(Mover)和單個 DataNode 中的磁盤(磁盤平衡器)。

責任編輯:武曉燕 來源: 高效運維
相關(guān)推薦

2014-01-03 09:13:39

JavaScriptthis

2015-10-09 09:43:28

CSS CSS3

2009-10-22 13:06:00

Linux磁盤管理

2011-01-11 13:53:33

Linux管理磁盤

2009-10-22 09:25:28

linux磁盤配額

2010-08-03 10:32:42

Android 3.0Android 3.0Android開發(fā)

2016-01-04 17:39:48

蟻視CES

2018-07-30 11:56:17

解密加密開發(fā)

2020-01-09 10:44:47

Hadoop 3缺點優(yōu)點

2016-09-19 14:52:12

Hadoophdfs磁盤

2013-11-28 17:48:36

騰訊應用寶平臺

2009-02-17 16:20:02

Linux磁盤掛載硬件管理

2011-02-22 15:29:39

2009-02-19 17:02:49

Windows 7隱藏分區(qū)

2023-04-26 11:16:44

2017-12-07 10:39:19

linux磁盤RAID

2019-10-10 16:20:23

spark內(nèi)存管理

2019-04-17 14:44:42

Spark內(nèi)存源碼

2010-12-31 10:56:13

Windows Ser管理磁盤配額

2016-02-24 09:38:25

Hadoop集群管理大數(shù)據(jù)技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国内精品久久久久久久 | 日日夜夜精品视频 | 国产精品中文字幕在线观看 | 99久久99久久精品国产片果冰 | 亚洲高清在线播放 | 欧美日韩成人在线 | 91.色 | 九色网址| 美女福利网站 | 免费观看国产视频在线 | 最新国产精品精品视频 | 久久久久久久久久久久久九 | 国产精品国产精品国产专区不卡 | 亚洲 欧美 另类 综合 偷拍 | 一级片在线视频 | 日韩和的一区二在线 | 日韩av黄色| 成人欧美一区二区三区色青冈 | 最新国产精品精品视频 | a级免费视频 | 99热播放| 99久久婷婷国产综合精品电影 | 一区二区三区高清 | 国产伦精品一区二区三毛 | 成人黄在线观看 | 一级毛片视频免费观看 | 91资源在线 | 久久中文一区二区 | 四虎成人精品永久免费av九九 | 毛片高清| 99精品国产一区二区三区 | 你懂的国产 | 欧美精品在线一区二区三区 | 久久久久久久久久久久久9999 | 美国黄色毛片 | 国产精品亚洲一区二区三区在线观看 | 国产精品久久二区 | 午夜综合 | 在线观看黄色 | 自拍亚洲 | 欧洲国产精品视频 |