成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

這么火的數倉確定不學習一下?

運維 數據庫運維
Apache Doris是一個現代化的MPP(大規模并行處理)分析型數據庫產品。僅需亞秒級響應時間即可獲得查詢結果,有效地支持實時數據分析。Apache Doris的分布式架構非常簡潔,易于運維,并且可以支持10PB以上的超大數據集。

[[420263]]

一、 Doris 簡介

什么是Doris

Apache Doris是一個現代化的MPP(大規模并行處理)分析型數據庫產品。僅需亞秒級響應時間即可獲得查詢結果,有效地支持實時數據分析。Apache Doris的分布式架構非常簡潔,易于運維,并且可以支持10PB以上的超大數據集。Apache Doris可以滿足多種數據分析需求,例如固定歷史報表,實時數據分析,交互式數據分析和探索式數據分析等。

Doris 由百度大數據部研發 ( 百度 Palo),在百度內部,有超過200個產品線在使用,部署機器超過1000臺,單一業務最大可達到上百 TB。百度將 Doris 貢獻給 Apache 社區之后,許多外部用戶也成為了 Doris 的使用者,例如新浪微博,美團,小米等著名企業。

關鍵字:MPP,分布式,數據分析,PB級

優點

兼容MySQL協議。

聚合表技術+預聚合技術。

動態水平拓展和自動負載均衡。

缺點

網絡上相關經驗少。

二、 Doris定位

在數據分析處理框架中,Doris 主要做的是 Online 層面的數據服務,主要處理的是數據分析方面的服務。

Doris適用場景有以下:

1、報表

報表類數據分析,數據分析以及查詢的模式相對比較固定,而且后臺 SQL 的模式往往都是確定的。針對此類應用場景,選擇使用 MySQL 存結果數據,用戶可從界面選擇執行批處理以及發送郵件。在 Doris 平臺中,報表類查詢時延一般在秒級以下。

2、多維分析

這里提到的多維分析,同樣要求數據是結構化的,適用于查詢相對靈活的場景,例如數據分析條件以及聚合維度等方面不是很確定,一般將此類數據分析定義為多維分析。相對于報表類分析,多維分析的查詢時延會稍慢,大約在會在 10s 的級別。

三、 Doris 架構

Doris 架構圖如下:

Doris 的整體架構和 TiDB 類似,借助 MySQL 協議,用戶使用任意 MySQL 的 ODBC/JDBC以及MySQL 的客戶端,都可以直接訪問 Doris。Doris 中的模塊包括 FE 和 BE 兩類:FE 主要負責元數據的管理、存儲,以及查詢的解析等;一個用戶請求經過 FE 解析、規劃后,具體的執行計劃會發送給 BE,BE 則會完成查詢的具體執行。BE 節點主要負責數據的存儲、以及查詢計劃的執行。目前平臺的 FE 部分主要使用 Java,BE 部分主要使用 C++。

四、 Doris 數據結構

如果從表的角度來看數據結構,用戶的一張 Table 會拆成多個 Tablet,Tablet 會存成多副本,存儲在不同的 BE 中,從而保證數據的高可用和高可靠。

五、 MPP(Massively Parallel Processing)

MPP 將SQL拆分成多份,分布到每臺機器執行,最后再將結果匯總。假如有10臺機器,在大數據量下,這種查詢執行方式可以使得查詢性能達到10倍的提升。

六、 表設計

列式存儲

Doris的表和關系型數據相同,由行和列構成。每行數據對應用戶一條記錄,每列數據有相同數據類型。所有數據的列數相同,可以動態增刪列。Doris中,張表的列可以分為維度列(也成為key列)和指標列(value列),維度列用于分組和排序,指標列可通過聚合函數SUM,COUNT,MIM,MAX,REPLACE,HLL_UNION,BITMAP_UNION等累加起來。因此,DorisDB的表也可以認為是多維的key到多維指標的映射。

稀疏索引

Doris對數據進行有序存儲,在數據有序的基礎上為其建立稀疏索引,索引粒度為block(1024行)。這其中有一個特殊的地方,就是 varchar 類型的字段。varchar 類型字段只能作為稀疏索引的最后一個字段。索引會在 varchar 處截斷,因此 varchar 如果出現在前面,可能索引的長度可能不足 36 個字節。具體可以參閱 數據模型、ROLLUP 及前綴索引。

除稀疏索引之外,Doris還提供bloomfilter索引,bloomfilter索引對區分度比較大的列過濾效果明顯。如果考慮到varchar不能放在稀疏索引中,可以建立bloomfilter索引。

七、 數據模型

明細模型

Doris建表的默認模型是明細模型。

一般用明細模型來處理的場景有如下特點:

1. 需要保留原始的數據(例如原始日志,原始操作記錄等)來進行分析;

2. 查詢方式靈活,不局限于預先定義的分析式,傳統的預聚合方式難以命中;

3. 數據更新不頻繁。導入數據的來源一般為日志數據或者是時序數據,以追加寫為主要特點,數據產生后就不會發生太多變化。

聚合模型

適合采用聚合模型來分析的場景具有如下特點:

1. 業務方進行的查詢為匯總類查詢,比如sum、count、 max等類型的查詢;

2. 不需要召回原始的明細數據;

3. 老數據不會被頻繁更新,只會追加新數據。

Doris會將指標列按照相同維度列進行聚合。當多條數據具有相同的維度時,Doris會把指標進行聚合。從而能夠減少查詢時所需要的處理的數據量,進而提升查詢的效率。

更新模型

適合采用更新模型來分析的場景具有如下特點:

1. 已經寫入的數據有存量的更新需求;

2. 需要進行實時數據分析。

更新模型中,排序鍵滿足唯一性約束,成為主鍵。

Doris存儲內部會給每一個批次導入數據分配一個版本號,同一主鍵的數據可能有多個版本,查詢時,最大(最新)版本的數據勝出。

八、 物化視圖

物化視圖是提取某些維度的組合建立對用戶透明的卻有真實數據的視圖表格。Doris 的物化視圖可以保證用戶在更新時,直接更新原始表,Doris 會保證原表、物化視圖原子生效。在查詢的時候用戶也只需指定原始表,Doris 會根據查詢的具體條件,選擇適合的物化視圖完成查詢。

通常用戶可以通過物化視圖功能完成以下兩種功能。

1、更換索引列進行重排列。

2、針對指定列做聚合查詢。

 

責任編輯:武曉燕 來源: 碼蟲甲
相關推薦

2023-11-23 17:02:34

LinuxSED工具

2022-01-13 10:45:48

數倉對象主題域

2019-11-18 14:45:13

代碼開發工具

2023-02-08 09:02:05

VS Code摸魚神器

2019-11-12 13:39:35

電腦中央處理器軟件

2018-09-27 14:50:04

機器學習數據科學書籍

2013-03-04 10:10:36

WebKit瀏覽器

2018-03-15 15:51:40

戴爾

2021-06-24 07:54:20

vite 靜態處理public

2022-09-23 15:01:33

圖片加載代碼

2021-03-10 18:05:16

JavaProtobuf序列化

2021-01-26 05:39:57

Protobuf java

2024-03-07 10:21:56

2020-04-16 18:04:07

JavaScript前端技術

2023-11-23 16:53:56

數據倉庫大數據

2023-12-26 01:14:20

函數式編程死鎖

2024-01-10 17:04:13

通信模塊通信技術通信模組

2014-08-26 11:03:54

2021-06-15 10:19:11

機器學習人工智能計算機

2022-08-22 17:46:56

虛擬數倉Impala
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区四区毛片 | 一区二区三区在线看 | 久久精品中文 | 国产草草视频 | 欧美aaa一级片 | 日韩av在线免费 | 三区四区在线观看 | 老司机狠狠爱 | 欧美精品欧美精品系列 | 精品三区 | 久久久不卡网国产精品一区 | 国产成人免费视频网站视频社区 | 国产美女福利在线观看 | 欧美日韩一区不卡 | 一级大黄色片 | 久久久无码精品亚洲日韩按摩 | 久久精品99 | 欧美五月婷婷 | 国产无套一区二区三区久久 | 久草在线 | 成人影院午夜 | 欧美国产日韩在线观看成人 | 亚洲精品在线观看网站 | 国产韩国精品一区二区三区 | 国产成人短视频在线观看 | 精品一二区 | 国产精品爱久久久久久久 | 99re66在线观看精品热 | 青春草国产 | 在线欧美亚洲 | 日韩三级电影在线看 | 国产精品亚洲综合 | 日日操夜夜摸 | 欧美日韩福利视频 | 网站黄色在线免费观看 | 国产精品视频一区二区三区不卡 | 九九九久久国产免费 | 欧洲一区视频 | 成人在线播放网站 | 五月综合激情婷婷 | 久久视频精品 |