成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

HBase存儲剖析與數(shù)據(jù)遷移

存儲 存儲軟件
HBase的存儲結(jié)構(gòu)和關(guān)系型數(shù)據(jù)庫不一樣,HBase面向半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲。所以,對于結(jié)構(gòu)化的SQL語言查詢,HBase自身并沒有接口支持。

 1.概述

HBase的存儲結(jié)構(gòu)和關(guān)系型數(shù)據(jù)庫不一樣,HBase面向半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲。所以,對于結(jié)構(gòu)化的SQL語言查詢,HBase自身并沒有接口支持。在大數(shù)據(jù)應(yīng)用中,雖然也有SQL查詢引擎可以查詢HBase,比如Phoenix、Drill這類。但是閱讀這類SQL查詢引擎的底層實現(xiàn),依然是調(diào)用了HBase的Java API來實現(xiàn)查詢,寫入等操作。這類查詢引擎在業(yè)務(wù)層創(chuàng)建Schema來映射HBase表結(jié)構(gòu),然后通過解析SQL語法數(shù),***底層在調(diào)用HBase的Java API實現(xiàn)。

本篇內(nèi)容筆者并不是給大家來介紹HBase的SQL引擎,我們來關(guān)注HBase更低層的東西,那就是HBase的存儲實現(xiàn)。以及跨集群的HBase集群數(shù)據(jù)遷移。

2.內(nèi)容

HBase數(shù)據(jù)庫是唯一索引就是RowKey,所有的數(shù)據(jù)分布和查詢均依賴RowKey。所以,HBase數(shù)據(jù)庫在表的設(shè)計上會有很嚴(yán)格的要求,從存儲架構(gòu)上來看,HBase是基于分布式來實現(xiàn)的,通過Zookeeper集群來管理HBase元數(shù)據(jù)信息,比如表名就存放在Zookeeper的/hbase/table目錄下。如下圖所示:

 

2.1 Architecture

HBase是一個分布式存儲系統(tǒng),底層數(shù)據(jù)存儲依賴Hadoop的分布式存儲系統(tǒng)(HDFS)。HBase架構(gòu)分三部分來組成,它們分別是:ZooKeeper、HMaster和HRegionServer。

  • ZooKeeper:HBase的元數(shù)據(jù)信息、HMaster進(jìn)程的地址、Master和RegionServer的監(jiān)控維護(hù)(節(jié)點之間的心跳,判斷節(jié)點是否下線)等內(nèi)容均需要依賴ZooKeeper來完成。是HBase集群中不可缺少的核心之一。
  • HMaster:HMaster進(jìn)程在HBase中承擔(dān)Master的責(zé)任,負(fù)責(zé)一些管理操作,比如給表分配Region、和數(shù)據(jù)節(jié)點的心跳維持等。一般客戶端的讀寫數(shù)據(jù)的請求操作不會經(jīng)過Master,所以在分配JVM內(nèi)存的適合,一般32GB大小即可。
  • HRegionServer:HRegionServer進(jìn)程在HBase中承擔(dān)RegionServer的責(zé)任,負(fù)責(zé)數(shù)據(jù)的存儲。每個RegionServer由多個Region組成,一個Region維護(hù)一定區(qū)間的RowKey的數(shù)據(jù)。如下圖所示:

 

圖中Region(dn2:16030)維護(hù)的RowKey范圍為0001~0002。

HBase為了保證高可用性(HA),一般都會部署兩個Master節(jié)點,其中一個作為主,另一個作為Backup節(jié)點。這里誰是主,誰是Backup取決于那個HMaster進(jìn)程能從Zookeeper上對應(yīng)的Master目錄中競爭到Lock,持有該目錄Lock的HMaster進(jìn)程為主Master,而另外一個為Backup,當(dāng)主Master發(fā)生意外或者宕機(jī)時,Backup的Master會立刻競爭到Master目錄下的Lock從而接管服務(wù),成為主Master對外提供服務(wù),保證HBase集群的高可用性。

2.2 RegionServer

HBase負(fù)責(zé)數(shù)據(jù)存儲的就是RegionServer,簡稱RS。在HBase集群中,如果只有一份副本時,整個HBase集群中的數(shù)據(jù)都是唯一的,沒有冗余的數(shù)據(jù)存在,也就是說HBase集群中的每個RegionServer節(jié)點上保存的數(shù)據(jù)都是不一樣的,這種模式由于副本數(shù)只有一份,即是配置多個RegionServer組成集群,也并不是高可用的。這樣的RegionServer是存在單點問題的。雖然,HBase集群內(nèi)部數(shù)據(jù)有Region存儲和Region遷移機(jī)制,RegionServer服務(wù)的單點問題可能花費很小的代價可以恢復(fù),但是一旦停止RegionServre上含有ROOT或者M(jìn)ETA表的Region,那這個問題就嚴(yán)重,由于數(shù)據(jù)節(jié)點RegionServer停止,該節(jié)點的數(shù)據(jù)將在短期內(nèi)無法訪問,需要等待該節(jié)點的HRegionServer進(jìn)程重新啟動才能訪問其數(shù)據(jù)。這樣HBase的數(shù)據(jù)讀寫請求如果恰好指向該節(jié)點將會收到影響,比如:拋出連接異常、RegionServer不可用等異常。

3.日志信息

HBase在實現(xiàn)WAL方式時會產(chǎn)生日志信息,即HLog。每一個RegionServer節(jié)點上都有一個HLog,所有該RegionServer節(jié)點上的Region寫入數(shù)據(jù)均會被記錄到該HLog中。HLog的主要職責(zé)就是當(dāng)遇到RegionServer異常時,能夠盡量的恢復(fù)數(shù)據(jù)。

在HBase運行的過程當(dāng)中,HLog的容量會隨著數(shù)據(jù)的寫入越來越大,HBase會通過HLog過期策略來進(jìn)行定期清理HLog,每個RegionServer內(nèi)部均有一個HLog的監(jiān)控線程。HLog數(shù)據(jù)從MemStore Flush到底層存儲(HDFS)上后,說明該時間段的HLog已經(jīng)不需要了,就會被移到“oldlogs”這個目錄中,HLog監(jiān)控線程監(jiān)控該目錄下的HLog,當(dāng)該文件夾中的HLog達(dá)到“hbase.master.logcleaner.ttl”(單位是毫秒)屬性所配置的閥值后,監(jiān)控線程會立即刪除過期的HLog數(shù)據(jù)。

4.數(shù)據(jù)存儲

HBase通過MemStore來緩存Region數(shù)據(jù),大小可以通過“hbase.hregion.memstore.flush.size”(單位byte)屬性來進(jìn)行設(shè)置。RegionServer在寫完HLog后,數(shù)據(jù)會接著寫入到Region的MemStore。由于MemStore的存在,HBase的數(shù)據(jù)寫入并非是同步的,不需要立刻響應(yīng)客戶端。由于是異步操作,具有高性能和高資源利用率等優(yōu)秀的特性。數(shù)據(jù)在寫入到MemStore中的數(shù)據(jù)后都是預(yù)先按照RowKey的值來進(jìn)行排序的,這樣便于查詢的時候查找數(shù)據(jù)。

5.Region分割

在HBase存儲中,通過把數(shù)據(jù)分配到一定數(shù)量的Region來達(dá)到負(fù)載均衡。一個HBase表會被分配到一個或者多個Region,這些Region會被分配到一個或者多個RegionServer中。在自動分割策略中,當(dāng)一個Region中的數(shù)據(jù)量達(dá)到閥值就會被自動分割成兩個Region。HBase的表中的Region按照RowKey來進(jìn)行排序,并且一個RowKey所對應(yīng)的Region只有一個,保證了HBase的一致性。

一個Region中由一個或者多個Store組成,每個Store對應(yīng)一個列族。一個Store中包含一個MemStore和多個Store Files,每個列族是分開存放以及分開訪問的。自動分割有三種策略,分別是:

  • ConstantSizeRegionSplitPolicy:在HBase-0.94版本之前是默認(rèn)和唯一的分割策略。當(dāng)某一個Store的大小超過閥值時(hbase.hregion.max.filesize,默認(rèn)時10G),Region會自動分割。
  • IncreasingToUpperBoundRegionSplitPolicy:在HBase-0.94中,這個策略分割大小和表的RegionServer中的Region有關(guān)系。分割計算公式為:Min(R*R*'hbase.hregion.memstore.flush.size','hbase.hregion.max.filesize'),其中,R表示RegionServer中的Region數(shù)。比如:hbase.hregion.memstore.flush.size=256MB,hbase.hregion.max.filesize=20GB,那么***次分割的大小為Min(1*1*256,20GB)=256MB,也就是在***次大到256MB會分割成2個Region,后續(xù)以此公式類推計算。
  • KeyPrefixRegionSplitPolicy:可以保證相同前綴的RowKey存放在同一個Region中,可以通過hbase.regionserver.region.split.policy屬性來指定分割策略。

6.磁盤合理規(guī)劃

部署HBase集群時,磁盤和內(nèi)存的規(guī)劃是有計算公式的。隨意分配可能造成集群資源利用率不高導(dǎo)致存在浪費的情況。公式如下:

  1. # 通過磁盤維度的Region數(shù)和Java Heap維度的Region數(shù)來推導(dǎo) Disk Size/(RegionSize*ReplicationFactor)=Java Heap*HeapFractionForMemstore/(MemstoreSize/2) 

公式中對應(yīng)的hbase-site.xml文件中的屬性中,見下表:

在實際使用中,MemstoreSize空間打下只使用了一半(1/2)的容量。 舉個例子,一個RegionServer的副本數(shù)配置為3,RegionSize為10G,HBase的JVM內(nèi)存分配45G,HBase的MemstoreSize為128M,那此時根據(jù)公式計算得出理想的磁盤容量為45G*1024*0.4*2*10G*1024*3/128M=8.5T左右磁盤空間。如果此時,分配一個節(jié)點中掛載10個可用盤,共27T。那將有兩倍的磁盤空間不匹配造成浪費。 為了提升磁盤匹配度,可以將RegionSize值提升至30G,磁盤空間計算得出25.5T,基本和27T磁盤容量匹配。

7.數(shù)據(jù)遷移

對HBase集群做跨集群數(shù)據(jù)遷移時,可以使用Distcp方案來進(jìn)行遷移。該方案需要依賴MapReduce任務(wù)來完成,所以在執(zhí)行遷移命令之前確保新集群的ResourceManager、NodeManager進(jìn)程已啟動。同時,為了查看遷移進(jìn)度,推薦開啟proxyserver進(jìn)程和historyserver進(jìn)程,開啟這2個進(jìn)程可以方便在ResourceManager業(yè)務(wù)查看MapReduce任務(wù)進(jìn)行的進(jìn)度。 遷移的步驟并不復(fù)雜,在新集群中執(zhí)行distcp命令即可。具體操作命令如下所示:

  1. # 在新集群的NameNode節(jié)點執(zhí)行命令[hadoop@nna ~]$ hadoop distcp -Dmapreduce.job.queue.name=queue_0001_01 -update -skipcrccheck -m 100 hdfs://old_hbase:9000/hbase/data/tabname /hbase/data/tabname 

為了遷移方便,可以將上述命令封裝成一個Shell腳本。具體實現(xiàn)如下所示:

  1. #! /bin/bash 
  2. for i in `cat /home/hadoop/hbase/tbl` 
  3. do 
  4. echo $i 
  5. hadoop distcp -Dmapreduce.job.queue.name=queue_0001_01 -update -skipcrccheck -m 100 hdfs://old_hbase:9000/hbase/data/$i /hbase/data/$i 
  6. done 
  7. hbase hbck -repairHoles 

將待遷移的表名記錄在/home/hadoop/hbase/tbl文件中,一行代表一個表。內(nèi)容如下所示:

  1. [hadoop@nna ~]$ vi /home/hadoop/hbase/tbl 
  2. # 表名列表 
  3. tbl1 
  4. tbl2 
  5. tbl3 
  6. tbl4 

***,在循環(huán)迭代遷移完成后,執(zhí)行HBase命令“hbase hbck -repairHoles”來修復(fù)HBase表的元數(shù)據(jù),如表名、表結(jié)構(gòu)等內(nèi)容,會從新注冊到新集群的Zookeeper中。

8.總結(jié)

HBase集群中如果RegionServer上的Region數(shù)量很大,可以適當(dāng)調(diào)整“hbase.hregion.max.filesize”屬性值的大小,來減少Region分割的次數(shù)。在執(zhí)行HBase跨集群數(shù)據(jù)遷移時,使用Distcp方案來進(jìn)行,需要保證HBase集群中的表是靜態(tài)數(shù)據(jù),換言之,需要停止業(yè)務(wù)表的寫入。如果在執(zhí)行HBase表中數(shù)據(jù)遷移時,表持續(xù)有數(shù)據(jù)寫入,導(dǎo)致遷移異常,拋出某些文件找不到。

責(zé)任編輯:武曉燕 來源: HBase技術(shù)社區(qū)
相關(guān)推薦

2019-08-08 15:05:26

HBase數(shù)據(jù)遷移命令

2017-07-13 11:13:18

大數(shù)據(jù)數(shù)據(jù)存儲

2010-06-03 13:08:51

2020-04-01 10:28:12

Apache HBas數(shù)據(jù)結(jié)構(gòu)算法

2014-08-22 11:04:39

大數(shù)據(jù)架構(gòu)

2014-05-21 13:26:28

公有云存儲云計算

2017-10-23 10:51:40

NAS數(shù)據(jù)遷移

2019-09-16 12:55:27

HBaseKafka數(shù)據(jù)

2011-03-31 12:17:07

Cacti備份

2017-03-08 10:29:06

HBase大數(shù)據(jù)存儲

2010-06-03 19:38:26

Hadoop

2015-05-13 09:34:46

分布式存儲元數(shù)據(jù)設(shè)計公有云

2018-07-25 08:57:42

存儲數(shù)據(jù)遷移

2009-09-17 15:22:38

LINQ to SQL

2011-10-10 16:44:37

分頁數(shù)據(jù)庫

2018-06-19 09:54:22

MySQLHBase存儲

2024-08-08 16:28:55

2024-11-26 07:56:30

2016-08-31 01:05:43

mysql數(shù)據(jù)庫HBase

2023-11-03 13:41:16

數(shù)據(jù)技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩欧美国产综合 | 欧美国产一区二区 | av在线免费看网址 | 久久久99精品免费观看 | 精品国产一区二区久久 | 在线观看视频h | 天堂久久天堂综合色 | 国产免费一区 | 亚洲国产偷 | h视频免费在线观看 | 婷婷91| 青青草华人在线视频 | 日本福利视频 | 久久男人天堂 | 国产精品美女久久久久久免费 | 日韩一区二区三区视频 | 天天干夜夜 | 免费视频一区 | 日韩成人在线观看 | 国产精品1区2区 | 欧美男人天堂 | 中文字幕av网站 | 人操人免费视频 | 欧美日韩在线免费观看 | 日韩精品一区二区三区视频播放 | 欧美综合在线视频 | 日韩av手机在线观看 | 午夜精品一区 | 草久视频 | 蜜桃av一区二区三区 | 青青草社区 | 国产精品片| 免费特级黄毛片 | 国产精品96久久久久久 | eeuss国产一区二区三区四区 | 国产精品91久久久久久 | 激情综合五月 | 亚洲精品久久 | 免费观看av网站 | 成人三级视频 | 色婷婷婷婷色 |