成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Apache CarbonData:大數據生態一種新的高性能數據格式

大數據
Apache CarbonData致力于推動大數據開源技術的持續發展,以一份數據同時滿足多種業務場景訴求,打造高效、開放、完整生態的大數據新融合數倉。

[[180713]]

Apache CarbonData是一種新的高性能數據存儲格式,針對當前大數據領域分析場景需求各異而導致的存儲冗余問題,CarbonData提供了一種新的融合數據存儲方案,以一份數據同時支持“任意維度組合的過濾查詢、快速掃描、詳單查詢等”多種應用場景,并通過多級索引、字典編碼、列存等特性提升了IO掃描和計算性能,實現百億數據級秒級響應。CarbonData是由華為開源貢獻到Apache基金會的大數據項目,致力于推動大數據開源生態技術的發展。

隨著數據與日俱增,業務驅動下的數據分析靈活性要求越來越高,不同場景的數據分業務系統而構建,導致冗余嚴重,缺乏高效、統一的融合數倉,阻礙企業快速轉型。

企業典型的訴求總結如下:

***,數據統一存儲:為了節約成本,企業希望一份數據支持多種使用場景;減少數據孤島和冗余,通過數據共享產生更大價值。

第二,高效:數據分析要求越來越高效、實時。

第三,易集成:提供標準接口,新的大數據方案與企業已采購的工具和IT系統要能無縫集成,支撐老業務快速遷移。

第四,大集群:區別于以往的單機系統,企業客戶希望新的大數據方案能應對日益增多的數據,隨時可以通過增加資源的方式橫向擴展,無極擴容。

第五,開放生態:通過開源開放,讓更多的客戶和合作伙伴的數據連接在一起,發揮更大的價值。

華為針對上述典型訴求,從2013年開始調研分析業界大數據方案,發現每種技術都只能解決某種場景的訴求,不能同時滿足上述的所有訴求,如:并行數據庫技術不能有效與Hadoop生態集成,數據不能統一共享存儲;搜索類技術提升了性能,但是數據膨脹很大,不支持標準SQL、不能兼容老的業務,這促使了華為著手開發CarbonData項目。

整個大數據時代的開啟,可以說是源自于Google的MapReduce論文,他引發了Hadoop開源項目以及后續一系列的生態發展。他的“偉大”之處在于計算和存儲解耦的架構,使企業的部分業務(主要是批處理)從傳統的垂直方案中解放出來,計算和存儲可以按需擴展極大提升了業務發展的敏捷性,讓眾多企業普及了這一計算模式,從中受益。

CarbonData借鑒了這一理念,存儲和計算邏輯上分離,通過索引技術讓存儲和計算物理上更接近,提升CPU和IO效率,實現超高性能的大數據分析:

列式存儲:高效的列式數據組織,區別于行存,可以實現列裁剪和過濾下壓,使OLAP查詢性能更高。同時,CarbonData針對明細數據查詢實現了深度優化,在需要返回所有列的場景下性能優于其他列存方案。

豐富的索引支持:支持全局多維索引、文件索引、Min/Max、倒排索引等多種索引技術,從表級,文件級,列級等多個層級逐級快速定位數據,避免SQL-on-Hadoop引擎常見的“暴力掃描“,從而大幅提升性能,實現十年數據秒級響應, 三百維字段任意組合查詢。

全局字典編碼:除了常見的Delta、RLE、BitPacking等編碼外,CarbonData應用了全局字典編碼來實現免解碼的計算,計算框架可以直接使用經過編碼的數據來做聚合,排序等計算,這對需要做跨節點數據交換的業務來說性能提升非常明顯(3倍以上)。

自適應類型轉換:CarbonData針對分析型應用中大量使用的數值類型(Double/Decimal/Numeric/BigInt)實現存儲內數據類型轉換,配合列式數據壓縮,使得壓縮非常高效,數據壓縮率基于應用場景不同一般壓縮比在2到8之間。

標準SQL和API:在SparkSQL基礎上,支持標準SQL99/2003;支持數據批量更新、刪除,適用于OLAP場景下數據的周期性刷新,例如拉鏈表更新、維表數據同步。提供JDBC/ODBC連接,支持與BI工具無縫對接;兼容Spark DataFrame/DataSet,支持復雜分析應用。

數據生態集成:支持與Hadoop、Spark等大數據生態系統集成,支持和商業BI工具無縫對接。既滿足傳統數倉、數據集市、BI應用要求,也提供大數據生態豐富多樣的API支持,覆蓋從GB級到EB級應用。

開源開放: CarbonData于2016年6月3日全票通過進入大數據領域全球***的開源社區Apache,半年時間里,Apache社區代碼貢獻者超過60人。目前特性貢獻來自于華為、Intel、Talend、Ebay、Inmobi、Knoldus、阿里、美團、樂視、滴滴等公司資深架構師和開發人員。

Apache CarbonData致力于推動大數據開源技術的持續發展,以一份數據同時滿足多種業務場景訴求,打造高效、開放、完整生態的大數據新融合數倉。歡迎大家參與到社區建設:

目前已經發布了三個Apache穩定本

Code

JIRA

Mailinglist:

Cwiki

主頁(完善中)

責任編輯:武曉燕 來源: 36大數據
相關推薦

2016-12-20 16:40:13

CarbonData數據存儲大數據

2018-07-03 08:33:04

Hadoop存儲CarbonData

2019-05-08 14:18:40

Hadoop存儲CarbonData

2020-12-16 10:12:52

大數據小數據人工智能

2022-07-28 11:29:23

數據安全數據令牌化

2016-10-19 16:01:21

大數據中心

2022-06-06 15:44:24

大數據數據分析思維模式

2020-05-19 17:07:09

Spark測試數據計算

2015-09-17 09:08:08

2013-07-30 14:19:34

大數據

2018-01-29 08:22:04

高性能存儲挑戰

2009-03-09 09:34:56

AjaxHTMLJavaScript

2025-04-25 03:00:00

開源數據集成工具數據庫

2022-06-09 09:38:39

Cloudlets云存儲

2018-09-18 11:16:11

MapReduceXML大數據

2016-03-25 10:33:44

大數據百分點BD-OS數據處理

2017-05-10 16:10:28

Kafka大數據數據庫

2016-07-29 00:43:22

數據驅動

2024-11-12 12:08:06

JSON數據技巧

2018-12-14 14:30:12

安全檢測布式系測試
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天干天天操 | 91精品国产综合久久福利软件 | 久久国产高清 | 久久亚洲综合 | 一级黄色片在线看 | 国产精品久久av | a在线观看| 午夜精品一区二区三区免费视频 | 一区二区三区四区五区在线视频 | 日韩中文字幕在线观看 | 国产免费一区二区三区 | 久久久免费少妇高潮毛片 | 亚洲欧美一区二区三区在线 | 人成久久| 免费看的黄网站 | 亚洲免费精品 | 欧美精品99 | 一级毛片视频 | 精品在线播放 | 亚洲精品9999久久久久 | 国产精品中文 | 国产一区二区在线免费观看 | 日韩精品免费视频 | 手机在线一区二区三区 | 一区二区三区av | 亚洲一级av毛片 | 欧美精品a∨在线观看不卡 欧美日韩中文字幕在线播放 | 久草新在线 | 亚洲aⅴ| 欧美精品一区二区三区在线播放 | 亚洲国产自产 | 天天射中文 | 日韩视频在线一区 | 激情欧美日韩一区二区 | 日韩欧美在线一区 | 国产黄色大片网站 | 久久久精品国产 | 日本精品视频 | 91精品国产91久久久久久最新 | 色播久久 | 欧美日韩国产高清 |