成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于Doris ,打造快速、安全、高可靠的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)

開發(fā) 前端
分區(qū)和桶化的思想是將數(shù)據(jù)“切割”成較小的部分,以增加數(shù)據(jù)處理速度。關(guān)鍵是設(shè)置適當(dāng)數(shù)量的數(shù)據(jù)分區(qū)和桶。根據(jù)使用情況,根據(jù)每個(gè)表自定義桶化字段和桶的數(shù)量。

在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,構(gòu)建一個(gè)快速、安全和高可靠的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)對(duì)于企業(yè)來(lái)說(shuō)至關(guān)重要。Apache Doris作為一個(gè)強(qiáng)大的開源數(shù)據(jù)倉(cāng)庫(kù)解決方案,提供了實(shí)現(xiàn)這一目標(biāo)的理想選擇。通過(guò)利用Doris的強(qiáng)大功能和特性,可以構(gòu)建一個(gè)高度可擴(kuò)展且具備優(yōu)異性能的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù),以滿足數(shù)據(jù)處理和分析的需求。本文介紹如何基于Doris打造這樣一個(gè)數(shù)據(jù)倉(cāng)庫(kù),以實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)。

1 使用Apache Doris構(gòu)建實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)

1.1 數(shù)據(jù)模型選擇

Apache Doris使用三種數(shù)據(jù)模型來(lái)組織數(shù)據(jù),這些模型之間的主要區(qū)別在于是否以及如何聚合數(shù)據(jù)。

  • Duplicate Key模型:用于詳細(xì)數(shù)據(jù)查詢。支持任意維度的即席查詢。
  • Unique Key模型:用于存在數(shù)據(jù)唯一性約束的用例。支持精確去重、多流Upsert和部分列更新。
  • Aggregate Key模型:用于數(shù)據(jù)報(bào)表。通過(guò)預(yù)聚合數(shù)據(jù),加速數(shù)據(jù)報(bào)表生成。

金融用戶在不同的數(shù)據(jù)倉(cāng)庫(kù)層中采用不同的數(shù)據(jù)模型:

  • ODS(原始數(shù)據(jù)層)- Duplicate Key模型:作為支付服務(wù)提供商,用戶每天收到一百萬(wàn)筆結(jié)算數(shù)據(jù)。由于結(jié)算周期可能跨越一整年,相關(guān)數(shù)據(jù)需要保存一年。因此,合適的方式是將其放入Duplicate Key模型,該模型不執(zhí)行任何數(shù)據(jù)聚合。唯一的例外是一些容易變動(dòng)的數(shù)據(jù),比如來(lái)自零售商的訂單狀態(tài)。這些數(shù)據(jù)應(yīng)該放入U(xiǎn)nique Key模型,以便同一零售商ID或訂單ID的新記錄始終替換舊記錄。
  • DWD(數(shù)據(jù)倉(cāng)庫(kù)層)和DWS(數(shù)據(jù)服務(wù)層)- Unique Key模型:DWD和DWS層的數(shù)據(jù)進(jìn)一步抽象,但仍然放在Unique Key模型中,以便結(jié)算數(shù)據(jù)可以自動(dòng)更新。
  • ADS(分析數(shù)據(jù)層)- Aggregate Key模型:該層中的數(shù)據(jù)高度抽象。通過(guò)預(yù)聚合數(shù)據(jù),減輕下游分析的計(jì)算負(fù)載。

1.2 分區(qū)和桶化策略

分區(qū)和桶化的思想是將數(shù)據(jù)“切割”成較小的部分,以增加數(shù)據(jù)處理速度。關(guān)鍵是設(shè)置適當(dāng)數(shù)量的數(shù)據(jù)分區(qū)和桶。根據(jù)使用情況,根據(jù)每個(gè)表自定義桶化字段和桶的數(shù)量。例如,經(jīng)常需要從零售商扁平表查詢不同零售商的維度數(shù)據(jù),因此可以將零售商ID列指定為桶化字段,并列出各種數(shù)據(jù)大小的推薦桶數(shù)量。

圖片圖片

2 多源數(shù)據(jù)遷移

在采用Apache Doris時(shí),需要將所有分支機(jī)構(gòu)的本地?cái)?shù)據(jù)遷移到Doris中,但會(huì)發(fā)現(xiàn)分支機(jī)構(gòu)使用了不同的數(shù)據(jù)庫(kù),并且具有非常不同的數(shù)據(jù)文件格式,所以遷移可能會(huì)很混亂。

圖片圖片

幸運(yùn)的是,Apache Doris支持豐富的數(shù)據(jù)集成方法,既支持實(shí)時(shí)數(shù)據(jù)流式處理,又支持離線數(shù)據(jù)導(dǎo)入。

  • 實(shí)時(shí)數(shù)據(jù)流處理:Apache Doris實(shí)時(shí)獲取MySQL Binlog。其中一部分通過(guò)Flink CDC直接寫入Doris,而高容量的數(shù)據(jù)則通過(guò)Kafka同步,然后通過(guò)Flink-Doris-Connector寫入Doris。
  • 離線數(shù)據(jù)導(dǎo)入:包括更多種類的數(shù)據(jù)源和數(shù)據(jù)格式。歷史數(shù)據(jù)和增量數(shù)據(jù)從S3和HDFS導(dǎo)入Doris使用經(jīng)紀(jì)人加載方法,來(lái)自Hive或JDBC的數(shù)據(jù)通過(guò)Insert Into方法同步到Doris,文件通過(guò)Flink-Doris-Connector和Flink FTP Connector加載到Doris。(FTP是用戶在系統(tǒng)之間傳輸文件的方式,所以他們開發(fā)了Flink-FTP-Connector以支持復(fù)雜的數(shù)據(jù)格式和多個(gè)換行符的數(shù)據(jù)。)

3 全量數(shù)據(jù)攝取和增量數(shù)據(jù)攝取

為了確保業(yè)務(wù)連續(xù)性和數(shù)據(jù)準(zhǔn)確性,可用以下攝取全量數(shù)據(jù)和增量數(shù)據(jù)的方法:

  • 全量數(shù)據(jù)攝取:在Doris中創(chuàng)建目標(biāo)模式的臨時(shí)表,將全量數(shù)據(jù)導(dǎo)入臨時(shí)表,然后使用ALTER TABLE t1 REPLACE WITH TABLE t2語(yǔ)句原子替換常規(guī)表為臨時(shí)表。這種方法可以避免對(duì)前面的查詢產(chǎn)生影響。
alter table ${DB_NAME}.${TBL_NAME} drop partition IF EXISTS p${P_DOWN_DATE};
ALTER TABLE ${DB_NAME}.${TBL_NAME} ADD PARTITION IF NOT EXISTS p${P_DOWN_DATE} VALUES[('${P_DOWN_DATE}'), ('${P_UP_DATE}'));

LOAD LABEL ${TBL_NAME}_${load_timestamp} ...
  • 增量數(shù)據(jù)導(dǎo)入:創(chuàng)建新的數(shù)據(jù)分區(qū)以容納增量數(shù)據(jù)。

4 離線數(shù)據(jù)處理

已經(jīng)將部分離線數(shù)據(jù)處理工作遷移到Apache Doris,并把執(zhí)行速度提高了5倍。

圖片圖片

  • 之前:舊的基于Hive的離線數(shù)據(jù)倉(cāng)庫(kù)使用TEZ執(zhí)行引擎每天處理3000萬(wàn)條新數(shù)據(jù)記錄。使用2TB計(jì)算資源,整個(gè)流程需要2.5小時(shí)。
  • 現(xiàn)在:Apache Doris在僅30分鐘內(nèi)完成相同的任務(wù),僅消耗1TB。腳本執(zhí)行僅需要10秒,而不是8分鐘。

5 面向金融機(jī)構(gòu)的企業(yè)功能

多租戶資源隔離

這是必需的,因?yàn)榻?jīng)常會(huì)發(fā)生多個(gè)團(tuán)隊(duì)或業(yè)務(wù)系統(tǒng)請(qǐng)求同一數(shù)據(jù)的情況。這些任務(wù)可能導(dǎo)致資源搶占,從而降低性能和系統(tǒng)的穩(wěn)定性。

5.1 不同工作負(fù)載的資源限制

這里把分析工作負(fù)載分為四類,并為每個(gè)類別設(shè)置了資源限制。特別是擁有四種不同類型的Doris賬戶,并為每種類型的賬戶設(shè)置了CPU和內(nèi)存資源的限制。

圖片圖片

通過(guò)這種方式,當(dāng)一個(gè)租戶需要過(guò)多的資源時(shí),它只會(huì)影響自己的效率,而不會(huì)影響其他租戶。

5.2 基于資源標(biāo)簽的隔離

為了滿足母子公司層級(jí)的數(shù)據(jù)安全性,這里為子公司設(shè)置隔離的資源組。每個(gè)子公司的數(shù)據(jù)存儲(chǔ)在其自己的資源組中,并具有三個(gè)副本,而母公司的數(shù)據(jù)則存儲(chǔ)在四個(gè)副本中:三個(gè)在母公司資源組中,另一個(gè)在子公司資源組中。因此,當(dāng)子公司的員工請(qǐng)求母公司的數(shù)據(jù)時(shí),查詢只會(huì)在子公司資源組中執(zhí)行。具體而言,采取以下步驟:

圖片圖片

5.3 工作負(fù)載組

基于資源標(biāo)簽的隔離方案確保了物理級(jí)別的隔離,但作為Apache Doris開發(fā)人員,希望進(jìn)一步優(yōu)化資源利用率并追求更細(xì)粒度的資源隔離。為此,在Apache Doris 2.0中推出了工作負(fù)載組功能。

工作負(fù)載組機(jī)制將查詢與工作負(fù)載組相關(guān)聯(lián),限制了查詢可以使用的后端節(jié)點(diǎn)的CPU和內(nèi)存資源的共享。當(dāng)集群資源短缺時(shí),最大的查詢將停止執(zhí)行。相反,當(dāng)集群資源充足且工作負(fù)載組需要的資源超過(guò)限制時(shí),它將按比例分配空閑資源。

5.4 細(xì)粒度用戶權(quán)限管理

出于規(guī)章制度和合規(guī)性原因,有的提供商實(shí)施嚴(yán)格的權(quán)限控制,以確保每個(gè)人只能訪問(wèn)他們應(yīng)該訪問(wèn)的內(nèi)容。參考做法如下:

  • 用戶權(quán)限設(shè)置:不同子公司或具有不同業(yè)務(wù)需求的系統(tǒng)用戶被分配不同的數(shù)據(jù)訪問(wèn)權(quán)限。
  • 對(duì)數(shù)據(jù)庫(kù)、表和行的權(quán)限控制:Apache Doris的ROW POLICY機(jī)制使這些操作變得容易。
  • 對(duì)列的權(quán)限控制:通過(guò)創(chuàng)建視圖來(lái)實(shí)現(xiàn)。

圖片圖片

6 集群穩(wěn)定性保證

  • 斷路器機(jī)制:偶爾,系統(tǒng)用戶可能輸入有誤的SQL,導(dǎo)致資源消耗過(guò)多。為此,設(shè)置了斷路器機(jī)制。它將及時(shí)停止這些消耗資源的查詢,防止對(duì)系統(tǒng)的干擾。
  • 數(shù)據(jù)攝取并發(fā)控制:例如經(jīng)常需要將歷史數(shù)據(jù)整合到數(shù)據(jù)平臺(tái)中。這涉及大量的數(shù)據(jù)修改任務(wù),可能會(huì)對(duì)集群造成壓力。為解決這個(gè)問(wèn)題,可在唯一鍵模型中啟用寫入合并模式,啟用垂直壓縮和段壓縮,并調(diào)整數(shù)據(jù)壓縮參數(shù)以控制數(shù)據(jù)攝取并發(fā)性。
  • 網(wǎng)絡(luò)流量控制:若有在不同城市的兩個(gè)集群,可采用針對(duì)不同場(chǎng)景的服務(wù)質(zhì)量(QoS)策略,以實(shí)現(xiàn)精確的網(wǎng)絡(luò)隔離,確保網(wǎng)絡(luò)質(zhì)量和穩(wěn)定性。
  • 監(jiān)控和警報(bào):將Doris與內(nèi)部監(jiān)控和警報(bào)平臺(tái)集成,任何檢測(cè)到的問(wèn)題都將通過(guò)消息軟件和電子郵件及時(shí)通知。
責(zé)任編輯:武曉燕 來(lái)源: Java學(xué)研大本營(yíng)
相關(guān)推薦

2024-10-18 08:17:09

Doris數(shù)據(jù)倉(cāng)庫(kù)

2023-10-05 18:25:40

存儲(chǔ)分開存儲(chǔ)SSD

2020-02-05 15:09:38

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)中臺(tái)OPPO

2022-06-28 09:47:05

數(shù)據(jù)倉(cāng)庫(kù)

2025-02-06 08:54:54

2024-02-19 00:06:06

數(shù)據(jù)分析系統(tǒng)Doris

2022-03-16 10:20:57

數(shù)據(jù)智慧城市傳感器

2022-06-24 09:38:43

數(shù)據(jù)庫(kù)大數(shù)據(jù)

2023-11-17 18:02:19

數(shù)據(jù)倉(cāng)庫(kù)性能Doris

2009-01-19 13:54:58

ERP數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用研究

2013-10-25 09:14:30

Teradata數(shù)據(jù)倉(cāng)庫(kù)服務(wù)

2017-06-30 13:26:56

華為

2017-02-28 09:21:56

HadoopHive數(shù)據(jù)倉(cāng)庫(kù)

2021-09-01 10:03:44

數(shù)據(jù)倉(cāng)庫(kù)云數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)

2023-01-09 07:55:43

Rust開源數(shù)據(jù)倉(cāng)庫(kù)

2022-07-06 08:00:00

數(shù)據(jù)倉(cāng)庫(kù)SQLDoris

2021-06-07 10:45:16

大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖

2020-09-17 14:32:18

數(shù)據(jù)倉(cāng)庫(kù)HiveImpala

2025-05-20 10:03:59

數(shù)據(jù)倉(cāng)庫(kù)Flink SQLPaimon
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久草精品在线 | 国产精品 欧美精品 | 成人精品鲁一区一区二区 | 99免费精品视频 | 一级片aaa | 成人av一区二区三区 | 国产精品高清一区二区 | 在线a视频 | 欧美国产中文字幕 | 亚洲一区视频在线 | 欧美精品1区 | 中文字幕av一区二区三区 | 黄a免费网络| 国产乱码精品一区二三赶尸艳谈 | 国产精品3区 | 国产欧美精品一区二区 | 国产精品18毛片一区二区 | 中文字幕高清免费日韩视频在线 | 亚洲国产精品一区二区久久 | 日韩欧美精品 | 国产免费一区二区三区网站免费 | 九色在线视频 | 国产精品日日摸夜夜添夜夜av | 正在播放国产精品 | 91九色porny首页最多播放 | 91正在播放| 天天搞夜夜操 | 天天色天天射天天干 | 国产成人精品一区二区三区在线观看 | 欧美mv日韩mv国产网站91进入 | 亚洲精品久久久久久久久久久 | 欧美在线一区二区三区四区 | 成人做爰www免费看 午夜精品久久久久久久久久久久 | 亚洲一区二区三区四区五区中文 | 天天干天天爱天天爽 | 我爱操 | 国产精品久久久久国产a级 欧美日韩国产免费 | 成人av观看 | 日韩精品一区二区三区在线播放 | 91精品国产一区二区三区 | 精品久久久一区 |