HDInsight HBase的概述和應用實例列舉
什么是HBase的?
HBase的是建立在的HadoopApache的開源的NoSQL數據庫,它提供了大量的非結構化和半結構化數據的隨機存取能力強的一致性。它是仿照谷歌的BigTable,是一個以家庭為中心的列式數據庫。數據被存儲在一個行內的表和數據的行由列族分組。 HBase的是在這個意義上,無論是列也不存儲在其中的數據的類型,需要使用它們之前,定義一個無模式數據庫。開放源代碼是***發布由Mike Cafarella于2007年,線性擴展處理PB級數據的數千個節點。它可以依賴于數據的冗余,批量處理和通過在的Hadoop生態系統的分布式應用程序中提供的其他功能。
什么是AzureHDInsight HBase的?
HDInsight的HBase提供一個管理的集群集成到Azure環境。該簇被配置為直接在Azure斑點存儲,這提供了在性能/成本選擇低等待時間和增加的彈性存儲數據。這使客戶能夠構建大型數據集工作的交互式網站,構建存儲傳感器和遙測數據,從數以百萬計的端點的服務,以及分析這些數據與Hadoop作業。 HBase的和的Hadoop都是很好的出發點,在Azure大數據項目,特別是,可以實現實時應用與大型數據集工作。
在HDInsight實現利用HBase的的橫向擴展架構,可提供自動分片表,強一致性讀取和寫入,和自動故障轉移。性能提高了內存高速緩存的讀取和高通量流式寫入。虛擬網絡的配置也可用于HDInsight HBase的。有關詳細信息,請參閱提供HDInsight群集在Azure上的虛擬網絡。
如何在HDInsight HBase的數據管理?
數據可以在HBase的使用創造GET,PUT和掃描從HBase的shell命令進行管理。數據通過表決,并閱讀使用get命令寫入到數據庫中。掃描命令用于獲得在一個表中,從多行數據。數據也可以使用HBase的C#的API,它提供了一個客戶機庫的HBase的REST API的頂端管理。一個HBase的數據庫也可以使用Hive查詢。的介紹,這些編程模型,請參閱獲取使用HBase的用Hadoop在HDInsight開始。協處理器也可以允許在數據庫所在的節點數據的處理。
場景:什么是用例HBase的?
BigTable,推而廣之,HBase的創建為其典型用例是網頁搜索。搜索引擎建立一個映射條款,包含它們的網頁索引。但也有很多其他的用例HBase的適用哪幾個的,都逐項本節。
用例1:key-value存儲
HBase的可作為一個鍵值存儲,適用于管理信息系統。 Facebook的HBase的使用他們的郵件系統,它是理想的存儲和管理網絡通信。 WebTable使用HBase的搜索和管理從網頁中提取表。
用例#2:傳感器數據
Hase的是用于捕獲是從各種來源的增量收集的數據是有用的。這包括社交分析,時間序列,保持交互式儀表盤了解***的趨勢和專柜,以及管理審計日志系統。例子包括彭博交易終端和開放時間序列數據庫(OpenTSDB),它存儲并提供訪問收集了服務器系統的健康指標。
用例3:實時查詢
Phoenix是Apache HBase的一個SQL查詢引擎。它是作為一個JDBC驅動程序和能使查詢和使用SQL管理HBase的表。
用例4:HBase的一個平臺
應用程序可以在HBase的頂部使用它作為數據存儲上運行。例子包括鳳凰城,OpenTSDB,KIJI,和Titan。應用程序還可以整合HBase的。例子包括Hive,Pig,Solr的,風暴,水槽,黑斑羚,星火,神經節和鉆孔。
接下來的步驟
得到HDInsight開始使用HBase的用Hadoop
提供HDInsight群集在Azure上的虛擬網絡
與HBase的在HDInsight分析微博人氣
使用Maven來構建使用HBase的使用HDInsight Java應用程序(的Hadoop)
C#HBase的SDK
另請參閱
Apache的HBase
Bigtable:分布式存儲系統的結構化數據
本文翻譯自Microsoft Azure官網:http://azure.microsoft.com/en-us/documentation/articles/hdinsight-hbase-overview/
原文出自:http://blog.csdn.net/yangzhenping/article/details/40983023