成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

淺談數倉的數據治理

大數據 數據倉庫
絕大數公司建立數倉之初是沒有考慮好數據治理怎么做的,因為數據部門剛開始成立,必然要有一些“數據驅動”的成果,而數據治理不能很好的體現這些業績。所以,都是在業務發展的過程中,逐漸遇到了一些數據問題,才考慮做這件事的。

?絕大數公司建立數倉之初是沒有考慮好數據治理怎么做的,因為數據部門剛開始成立,必然要有一些“數據驅動”的成果,而數據治理不能很好的體現這些業績。所以,都是在業務發展的過程中,逐漸遇到了一些數據問題,才考慮做這件事的。

1.如何開始數據治理?

首先從數據管理開始,在開始數據治理之前,我們要先梳理數倉的核心資產。從數據的采集到數據的加工,再到數據的應用(包括數倉報表數據、指標數據)。

那么對于業務數據源,我們要明確數倉中主要的數據源都來自哪些業務系統,哪些關鍵流程,明確關鍵來源數據的數據負責人,結合業務制定數據管理規范。

2.數倉數據治理的思路

數倉的數據治理可以從以下幾個關鍵點入手:數據目錄重新劃分,提高模型復用度,ETL任務優化、數據質量監控。

數據目錄劃分:

很多數倉剛開始設計的時候是沒有完整清晰的規劃的,慢慢數據目錄會變得混亂無序,找某個模型會變得很繁瑣。那么,這時候一個好的目錄設計,會幫助我們理清數倉的架構,快速的查找定位模型,比如是在哪個層、哪個業務域等。 這些都清晰的展示出來時,數據開發的效率就會有快速的提升了。

模型復用:

離線數倉一般團隊都比較大,上次跟快手的一個朋友聊,他們離線數倉都有上百人。所以模型的復用一定要關注,,比如關注一些復用度較高的字段,可以放到中間層統一處理,也就是我們說的有個大寬表提供復用;比如復用較高的函數或者邏輯,我們開發統一的UDF函數,提高數據處理性能。

任務優化:

每當你申請資源時,領導都會問你要價值和用途,其實除了申請額外的資源,我們還可以優化現有的資源。因為在數倉開發過程中,大家的技術水平良莠不齊,對業務理解程度相差甚大,那么此時,每個人開發的ETL任務的質量必然不一樣。所以,我們需要時常對任務的執行時長和調用的資源進行監控,展開專項優化,比如降低輸入數據量,大量distinct操作使用groupby替換等。當然,管理上可以把任務執行效率作為一個考核項,對不達標的進行晾曬。

數據質量:

主要是數據重復、空值、數據異常等情況的監控,一定要配置規則校驗。上次直播,我講過,并不是任務執行成功就完事大吉了,有時候任務執行成功的代價更為慘重。比如,以前的一個項目,會給老板推送業務指標短信,所以對這個任務加了失敗告警監控,但是沒有對內容進行校驗,導致因為業務的異常數據,引起最后的指標異常,老板很生氣,后果很嚴重。所以,我們還要考慮對于一些關鍵業務的數據指標監控,發現異常,及時終止下游任務,進行告警。當然,數據質量還有很多工作,之前的一篇文章也講過,可以閱讀《談談ETL中的數據質量》

3.總結

總而言之,數倉數據治理的價值很難量化,所以有很多數據團隊不愿意去做,但是不做,會很“癢”。

如果,你開始做數倉治理了,那么就要做好長期作戰的準備了,比如制定一些月度的資產管理相關的會議,進行回顧,定期對低效率任務進行優化,這都是需要一套管理機制的,而管理機制落地的最好方式應該就是和績效考核綁定了。?

責任編輯:華軒 來源: 今日頭條
相關推薦

2022-02-18 09:02:04

數據倉庫治理

2023-03-08 07:50:57

企業數據治理

2022-12-06 17:52:57

離線數倉治理

2021-08-15 16:29:45

數據企業機器學習

2022-02-17 11:29:17

數據治理項目數據使用

2022-08-04 13:31:40

數據安全隱私計算個人信息

2021-10-13 07:23:03

數據同步倉庫

2023-09-28 08:19:57

語言模型數倉數據

2023-06-28 16:10:09

Dataleap數倉建設

2023-11-23 16:53:56

數據倉庫大數據

2022-08-22 17:46:56

虛擬數倉Impala

2021-12-02 08:41:30

數倉建模設計

2023-06-15 07:24:11

數據治理EB級數倉

2021-01-31 23:54:23

數倉模型

2021-06-11 07:26:16

數據倉庫機器學習

2023-04-14 15:50:29

元數據數據治理

2023-07-27 07:44:07

云音樂數倉平臺

2021-08-11 07:53:22

數倉維度建模

2023-11-23 16:59:37

數據倉庫建模

2023-02-20 07:33:47

Teradata數據倉庫
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲一区二区三区在线 | 久久国产亚洲 | 狠狠干狠狠插 | 欧美精品久久久久 | 亚洲三区在线观看 | 91超碰在线 | 久久99精品久久久久久 | 日本免费黄色 | 超碰欧美 | 久久午夜精品福利一区二区 | 国产91丝袜 | 伊人一区| 黄色网址大全在线观看 | 亚洲成人免费视频在线观看 | 国产视频久久 | 国产99久久精品 | 日韩成人在线视频 | 日韩成人在线观看 | 精国产品一区二区三区四季综 | 欧美成人精品二区三区99精品 | 国产精品成人一区二区三区 | 玖玖国产 | 亚洲成人综合网站 | 亚洲一区精品在线 | 国产一区中文字幕 | 黄色片视频 | 久久精品视频在线观看 | 天天干.com | 成人国产精品久久久 | 99国产精品99久久久久久粉嫩 | 欧美精品成人一区二区三区四区 | 国产1区在线 | av日日操 | 看羞羞视频免费 | 中文字幕二区 | 久久久久国产精品一区 | 亚洲欧美精品 | 性色视频在线观看 | www.黄色网 | 欧美五月婷婷 | 久在线精品视频 |