成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hbase 構建二級索引的一些解決方案

大數據
HBase的一級索引就是rowkey,我們僅僅能通過rowkey進行檢索。假設我們相對Hbase里面列族的列列進行一些組合查詢,就只能全表掃描了。表如果較大的話,代價是不可接受的,所以要提出二級索引的方案。

[[442461]]

本文轉載自微信公眾號「大數據技術派」,作者柯廣  。轉載本文請聯系大數據技術派公眾號。

1 為什么需要二級索引

HBase的一級索引就是rowkey,我們僅僅能通過rowkey進行檢索。假設我們相對Hbase里面列族的列列進行一些組合查詢,就只能全表掃描了。表如果較大的話,代價是不可接受的,所以要提出二級索引的方案。

二級索引的思想:簡單理解就是,根據列族的列的值,查出rowkey,再按照rowkey就能很快從hbase查詢出數據,我們需要構建出根據列族的列的值,很快查出rowkey的方案。

2 常見的二級索引方案

  • MapReduce方案;
  • Coprocessor方案;
  • elasticsearch+hbase方案;
  • Solr+hbase方案;

2.1 MapReduce方案

IndexBuilder:利用MR的方式構建Index 長處:并發批量構建Index 缺點:不能實時構建Index

舉例:原表:

  1. row  1      f1:name  zhangsan 
  2. row  2      f1:name  lisi 
  3. row  3      f1:name  wangwu 

索引表:

  1. row     zhangsan    f1:id   1 
  2. row     lisi        f1:id   2 
  3. row     wangwu      f1:id   3 

這種方式的思想是再構建一張hbase表,列族的列這里的name作為索引表的rowkey,根據rowkey查詢出數據hbase是很快的,拿到id后,也就拿到了原表的rowkey了,因為源表的rowkey就是id,每次查詢一共需要查詢兩張表。

2.2 Coprocessor方案

有關協處理器的講解,Hbase官方文檔是最好的,這里大體說一下它的作用與使用方法。

  • Coprocessor提供了一種機制可以讓開發者直接在RegionServer上運行自定義代碼來管理數據。通常我們使用get或者scan來從Hbase中獲取數據,使用Filter過濾掉不需要的部分,最后在獲得的數據上執行業務邏輯。但是當數據量非常大的時候,這樣的方式就會在網絡層面上遇到瓶頸。客戶端也需要強大的計算能力和足夠大的內存來處理這么多的數據,客戶端的壓力就會大大增加。但是如果使用Coprocessor,就可以將業務代碼封裝,并在RegionServer上運行,也就是數據在哪里,我們就在哪里跑代碼,這樣就節省了很大的數據傳輸的網絡開銷。
  • Coprocessor有兩種:Observer和Endpoint EndPoint主要是做一些計算用的,比如計算一些平均值或者求和等等。而Observer的作用類似于傳統關系型數據庫的觸發器,在一些特定的操作之前或者之后觸發。學習過Spring的朋友肯定對AOP不陌生,想象一下AOP是怎么回事,就會很好的理解Observer了。Observer Coprocessor在一個特定的事件發生前或發生后觸發。在事件發生前觸發的Coprocessor需要重寫以pre作為前綴的方法,比如prePut。在事件發生后觸發的Coprocessor使用方法以post作為前綴,比如postPut。Observer Coprocessor的使用場景如下:2.1. 安全性:在執行Get或Put操作前,通過preGet或prePut方法檢查是否允許該操作;2.2. 引用完整性約束:HBase并不直接支持關系型數據庫中的引用完整性約束概念,即通常所說的外鍵。但是我們可以使用Coprocessor增強這種約束。比如根據業務需要,我們每次寫入user表的同時也要向user_daily_attendance表中插入一條相應的記錄,此時我們可以實現一個Coprocessor,在prePut方法中添加相應的代碼實現這種業務需求。2.3. 二級索引:可以使用Coprocessor來維持一個二級索引。正是我們需要的

索引設計思想

關鍵部分來了,既然Hbase并沒有提供二級索引,那如何實現呢?先看下面這張圖

Coprocessor

我們的需求是找出滿足cf1:col2=c22這條記錄的cf1:col1的值,實現方法如圖,首先根據cf1:col2=c22查找到該記錄的行鍵,然后再通過行健找到對應的cf1:col1的值。其中第二步是很容易實現的,因為Hbase的行鍵是有索引的,那關鍵就是第一步,如何通過cf1:col2的值找到它對應的行鍵。很容易想到建立cf1:col2的映射關系,即將它們提取出來單獨放在一張索引表中,原表的值作為索引表的行鍵,原表的行鍵作為索引表的值,這就是Hbase的倒排索引的思想。

2.3 elasticsearch+hbase方案

比如說你現在有一行數據

id name age ….30 個字段

但是你現在搜索,只需要根據 id name age 三個字段來搜索

如果你傻乎乎的往 es 里寫入一行數據所有的字段,就會導致說 70% 的數據是不用來搜索的,結果硬是占據了 es 機器上的 filesystem cache 的空間,單挑數據的數據量越大,就會導致 filesystem cahce 能緩存的數據就越少

僅僅只是寫入 es 中要用來檢索的少數幾個字段就可以了,比如說,就寫入 es id name age 三個字段就可以了,然后你可以把其他的字段數據存在 mysql 里面,我們一般是建議用 es + hbase 的這么一個架構。

hbase 的特點是適用于海量數據的在線存儲,就是對 hbase 可以寫入海量數據,不要做復雜的搜索,就是做很簡單的一些根據 id 或者范圍進行查詢的這么一個操作就可以了

從 es 中根據 name 和 age 去搜索,拿到的結果可能就 20 個 doc id,然后根據 doc id 到 hbase 里去查詢每個 doc id 對應的完整的數據,給查出來,再返回給前端。

你最好是寫入 es 的數據小于等于,或者是略微大于 es 的 filesystem cache 的內存容量

然后你從 es 檢索可能就花費 20ms,然后再根據 es 返回的 id 去 hbase 里查詢,查 20 條數據,可能也就耗費個 30ms,可能你原來那么玩兒,1T 數據都放 es,會每次查詢都是 5 ~ 10 秒,現在可能性能就會很高,每次查詢就是 50ms。

四個字總結的話,我覺得就是“各司其職”,HBase 就用來存儲,ES 就用來做索引,況且目前的實際情況跟文章中說的也很像,要查詢的字段就幾個,而其他的字段又很大又沒用,沒必要都丟到 ES 中,浪費查詢效率

2.4 Solr+hbase方案

Solr是一個獨立的企業級搜索應用server,它對并提供相似干Web-service的API接口。用戶能夠通過http請求,向搜索引擎server提交一定格式的XML文件,生成索引。也能夠通過Http Get操作提出查找請求,并得到XML格式的返回結果。

Solr是一個高性能。採用Java5開發。基干Lucene的全文搜索server。同一時候對其進行了擴展。提供了比Lucene更為豐富的查詢語言,同一時候實現了可配置、可擴展并對查詢性能進行了優化,而且提供了一個完好的功能節理界面。是一款非常優秀的全文搜索引擎。

HBase無可置疑擁有其優勢,但其本身僅僅對rowkey支持毫秒級的高速檢索,對于多字段的組合查詢卻無能為力。基于Solr的HBase多條件查詢原理非常easy。將HBase表中涉及條件過濾的字段和rowkey在Solr中建立索引,通過Solr的多條件查詢高速獲得符合過濾條件的rowkey值,拿到這些rowkey之后在HBASE中通過指定rowkey進行查詢。

 

網上其它還有根據Phoenix構建的,redis、mysql等都是可以嘗試的。

 

責任編輯:武曉燕 來源: 大數據技術派
相關推薦

2025-05-09 09:10:00

2019-05-09 10:40:46

存儲

2015-11-23 10:16:12

2021-10-25 15:25:38

MySQL索引數據庫

2021-11-18 15:08:19

MySQLSQL索引

2020-02-02 16:59:31

HBase大數據二級索引

2019-10-25 21:54:55

Python 開發編程語言

2009-07-17 09:17:41

IT運維SiteView游龍科技

2019-03-04 14:48:44

云計算互聯網解決方案

2010-09-07 23:32:30

2020-02-03 09:09:23

機器學習ML深度學習

2013-08-28 09:24:09

企業級移動信息化解決方案

2022-03-09 21:55:30

HBase數據入倉

2024-08-29 15:26:21

2022-09-01 11:02:42

前端工具

2020-06-22 21:38:58

冷鏈管理物聯網

2009-04-22 08:44:36

2021-03-30 09:01:07

Python模擬軟件Python基礎

2011-12-07 13:17:39

SonicWALLiOSiPad

2009-11-25 13:07:53

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 九一在线 | 日韩午夜精品 | 亚洲一区二区三区视频 | 日韩区| 日日夜夜精品免费视频 | 一级毛片免费完整视频 | 日韩三区在线观看 | 一区二区福利视频 | 在线国产一区二区 | a视频在线观看 | 成人av免费在线观看 | 国产片侵犯亲女视频播放 | 国产最新网址 | 四虎永久免费地址 | 久久一级| 日韩欧美二区 | 国产精品免费一区二区三区 | 狠狠的干 | 国产精品久久久久久52avav | 免费的av| 超碰在线97国产 | 久久久网 | 亚洲黄色一级 | 欧美日韩精品免费观看 | 亚洲久久 | 男人天堂手机在线视频 | 久久精品99久久 | 国产精品国产三级国产a | 中文无吗 | 日韩av一区二区在线观看 | 国产羞羞视频在线观看 | av免费在线观看网站 | 九九精品在线 | 日韩欧美成人一区二区三区 | 天天干天天操天天射 | 欧美一级免费看 | 日韩一区在线播放 | 国产精品一区久久久 | 精品久久久久久久久久久久久久 | 在线视频91 | 久热精品在线播放 |