成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

與“數(shù)據(jù)中臺(tái)”,來一次親密接觸

開發(fā) 架構(gòu) 開發(fā)工具 中臺(tái)
數(shù)據(jù)中臺(tái)是 2015 年阿里提出來的雙中臺(tái)的概念其中的一個(gè)重要組成,阿里作為先驅(qū)者,提供了數(shù)據(jù)中臺(tái)架構(gòu)、以及非常多的建設(shè)思路供大家參考,但是一千人眼里有一千個(gè)數(shù)據(jù)中臺(tái),到底什么是數(shù)據(jù)中臺(tái)?數(shù)據(jù)中臺(tái)包含什么?

 數(shù)據(jù)中臺(tái)是 2015 年阿里提出來的雙中臺(tái)的概念其中的一個(gè)重要組成,阿里作為先驅(qū)者,提供了數(shù)據(jù)中臺(tái)架構(gòu)、以及非常多的建設(shè)思路供大家參考,但是一千人眼里有一千個(gè)數(shù)據(jù)中臺(tái),到底什么是數(shù)據(jù)中臺(tái)?數(shù)據(jù)中臺(tái)包含什么?

 

[[324712]]

 

圖片來自 Pexels

 

 

本文分享的議題主要包括如下幾大內(nèi)容:

  • 帶大家回顧一下大數(shù)據(jù)在國內(nèi)的發(fā)展,從傳統(tǒng)數(shù)倉到當(dāng)前數(shù)據(jù)中臺(tái)的演進(jìn)過程。
  • 我個(gè)人認(rèn)為數(shù)據(jù)中臺(tái)的核心組成,以及一些技術(shù)選型參考。
  • 數(shù)據(jù)研發(fā)是數(shù)據(jù)中臺(tái)很重要的一環(huán),會(huì)分享一些我們?cè)跀?shù)據(jù)研發(fā)方面的實(shí)踐,主要是數(shù)據(jù)倉庫架構(gòu)與研發(fā)方面。

大數(shù)據(jù)演進(jìn),從數(shù)據(jù)倉庫到數(shù)據(jù)中臺(tái)

第一階段

21 世紀(jì)的第一個(gè) 10 年,企業(yè)級(jí)數(shù)據(jù)倉庫(EDW)從萌芽到蓬勃發(fā)展,“IOT”(IBM、Oracle、Teradata)占領(lǐng)了大部分市場,提供數(shù)據(jù)倉庫建設(shè)從硬件、軟件到實(shí)施的整體方案。

這個(gè)時(shí)代的數(shù)據(jù)倉庫實(shí)施不僅需要購買大(中、小)型機(jī),配套商用的關(guān)系型數(shù)據(jù)庫(Oracle、DB2、SQL Server)以及一些 ETL/OLAP 套件,實(shí)施成本相對(duì)高昂,數(shù)據(jù)倉庫建設(shè)主要集中在金融、電信、大型零售與制造等行業(yè)。

數(shù)據(jù)倉庫的應(yīng)用主要通過為企業(yè)提供報(bào)表、分析等數(shù)據(jù),輔助企業(yè)的經(jīng)營決策。

像電信行業(yè)的經(jīng)營分析系統(tǒng)、銀行的風(fēng)控管理等,都是這個(gè)期間比較典型的應(yīng)用。

第二階段

2010-2015 年,大數(shù)據(jù)平臺(tái)階段,移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展帶動(dòng) Bigdata(大數(shù)據(jù))的發(fā)展。

其中 Hadoop 生態(tài)技術(shù)開始逐步在國內(nèi)大范圍使用,企業(yè)只要基于 Hadoop 分布式的計(jì)算框架,使用相對(duì)廉價(jià)的 PC 服務(wù)器就能搭建起大數(shù)據(jù)集群。

數(shù)據(jù)湖的概念也是這個(gè)階段誕生(主要是為降低傳統(tǒng)數(shù)倉較為復(fù)雜的中間建模過程,通過接入業(yè)務(wù)系統(tǒng)的原始數(shù)據(jù),包括結(jié)構(gòu)化、非結(jié)構(gòu)數(shù)據(jù),借助 Hadoop 生態(tài)強(qiáng)大計(jì)算引擎,將數(shù)據(jù)直接服務(wù)于應(yīng)用)。

這個(gè)階段不只是金融、電信這些行業(yè),國內(nèi)主流互聯(lián)網(wǎng)企業(yè)也紛紛搭建起大數(shù)據(jù)平臺(tái)。

大數(shù)據(jù)應(yīng)用更為豐富,不僅限于決策分析,基于 APP/門戶站點(diǎn)的搜索推薦、以及通過 A/B Test 來對(duì)產(chǎn)品進(jìn)行升級(jí)迭代等是這個(gè)階段常規(guī)的應(yīng)用點(diǎn),用戶畫像在這個(gè)階段也得到重視,主要應(yīng)用于企業(yè)的營銷、運(yùn)營等場景。

 

 

 

 

第三階段

就是我們現(xiàn)在所處的階段,數(shù)據(jù)中臺(tái)以及云上大數(shù)據(jù)階段,通過前 10 多年不斷的技術(shù)積累,大數(shù)據(jù)在方法和組織的變革上也有了新的沉淀,主要體現(xiàn)在幾個(gè)方面:

①數(shù)據(jù)統(tǒng)一化

其核心思想是數(shù)據(jù)流轉(zhuǎn)的所有環(huán)節(jié)進(jìn)行統(tǒng)一化,如從采集到存儲(chǔ)到加工等過程,在這些過程中通過建立統(tǒng)一的公共數(shù)據(jù)模型體系、統(tǒng)一的指標(biāo)與標(biāo)簽體系,提高數(shù)據(jù)的標(biāo)準(zhǔn)性、易用性,讓數(shù)據(jù)本身更好地連通,提升使用效率。

②工具組件化

數(shù)據(jù)在采集、計(jì)算、存儲(chǔ)、應(yīng)用過程中涉及多業(yè)務(wù)線條,多場景,將這些場景與工具(采集工具、管道工具、計(jì)算&調(diào)度工具、數(shù)據(jù)服務(wù)工具,數(shù)據(jù)管理工具、可視化工具等)進(jìn)行沉淀,研發(fā)出通用、高效的組件化工具,避免重復(fù)開發(fā),降低研發(fā)成本。

③應(yīng)用服務(wù)化

之前大數(shù)據(jù)應(yīng)用的數(shù)據(jù)調(diào)用比較混雜,有些直接訪問數(shù)倉數(shù)據(jù)表,有些調(diào)用臨時(shí)接口等。

通過數(shù)據(jù)中臺(tái)應(yīng)用服務(wù)化建設(shè),提供標(biāo)準(zhǔn)的應(yīng)用服務(wù),以數(shù)據(jù)可視化產(chǎn)品、數(shù)據(jù) API 工具等服務(wù),支撐應(yīng)用的靈活調(diào)用。

④組織清晰化

數(shù)據(jù)中臺(tái)團(tuán)隊(duì)專注于數(shù)據(jù)內(nèi)容&數(shù)據(jù)平臺(tái)開發(fā),提供各種基于數(shù)據(jù)的能力模塊。

而其他部門人員如業(yè)務(wù)產(chǎn)品、運(yùn)營、分析等角色,只需要借助工具/產(chǎn)品有效地使用數(shù)據(jù),發(fā)揮其價(jià)值,無需關(guān)注數(shù)據(jù)加工的過程,做到各盡其職,充分發(fā)揮各自專長,同樣也能達(dá)到降本提效目的。

大數(shù)據(jù)團(tuán)隊(duì)內(nèi)部本身組織和職責(zé)也傾于清晰化,比如按照職責(zé)分為平臺(tái)(工具)研發(fā)、數(shù)據(jù)研發(fā)、數(shù)據(jù)產(chǎn)品、數(shù)據(jù)分析等不同組織。

當(dāng)前階段

數(shù)據(jù)應(yīng)用到各個(gè)角落,除了之前可以支撐的決策分析以外,大數(shù)據(jù)與線上事務(wù)系統(tǒng)(OLTP)的聯(lián)動(dòng)場景非常多,比如我們?cè)陔娚唐脚_(tái)查詢個(gè)人所有歷史訂單,再比如一些刷單、反作弊的實(shí)時(shí)攔截,以及一些實(shí)時(shí)推薦等。

這些都是通過將數(shù)據(jù)的運(yùn)算交給數(shù)據(jù)中臺(tái)部門處理,前臺(tái)部門直接通過 API 進(jìn)行結(jié)果調(diào)用。

數(shù)據(jù)中臺(tái)的集中化建設(shè)也更好地支撐起創(chuàng)新業(yè)務(wù),比如通過大數(shù)據(jù)+分析建立起商業(yè)化數(shù)據(jù)變現(xiàn)產(chǎn)品,進(jìn)行數(shù)據(jù)售賣,把數(shù)據(jù)變成新的業(yè)務(wù)。

大家知道共享復(fù)用是中臺(tái)建設(shè)中很關(guān)鍵的一個(gè)詞,這也是為什么我們很多數(shù)據(jù)中臺(tái)下面會(huì)包括共享數(shù)據(jù)組,公共數(shù)據(jù)組等。

實(shí)際上共享復(fù)用并不是大數(shù)據(jù)發(fā)展的一個(gè)新詞,在早期數(shù)據(jù)倉庫(建立公共數(shù)據(jù)模型)、大數(shù)據(jù)平臺(tái)(研發(fā)一些組件化工具)的建設(shè)中,也是滿足共享復(fù)用的。

如上提到,數(shù)據(jù)中臺(tái)本身是組織,方法的升級(jí)與變革,更多是利用技術(shù)的進(jìn)步更好地支持這些升級(jí)變革,如果你當(dāng)前的建設(shè)還是數(shù)據(jù)平臺(tái)+數(shù)倉(數(shù)據(jù)湖等)但是已經(jīng)具備這些方法和特性,我個(gè)人認(rèn)為也是合理的。

數(shù)據(jù)中臺(tái)的建設(shè)也需要相應(yīng)的成本與門檻,例如集群搭建、工具建設(shè)等。

云計(jì)算的發(fā)展可以快速提供數(shù)據(jù)中臺(tái)建設(shè)的能力,例如企業(yè)無需自己搭建機(jī)房,使用云計(jì)算的彈性計(jì)算存儲(chǔ)能力以及豐富的工具,可以支撐數(shù)據(jù)中臺(tái)的快速搭建。

關(guān)于數(shù)據(jù)中臺(tái)的合理性也一直頗有爭議,大型(集團(tuán)型)公司有相互獨(dú)立的子公司,數(shù)據(jù)之間不需要太多連接與共享,分別構(gòu)建自己子數(shù)據(jù)中臺(tái)也是合理的架構(gòu)。

集團(tuán)層面可以利用數(shù)據(jù)子中臺(tái)進(jìn)行數(shù)據(jù)上報(bào)解決集團(tuán)層面數(shù)據(jù)大盤、統(tǒng)計(jì)、分析、財(cái)務(wù)等訴求。

再比如一些小型公司是否需要在一開始就按照數(shù)據(jù)中臺(tái)的架構(gòu)進(jìn)行建設(shè),也是存有一些爭議。

數(shù)據(jù)中臺(tái)是 2015 年阿里提出來的雙中臺(tái)的概念其中的一個(gè)重要組成,阿里作為先驅(qū)者,提供了數(shù)據(jù)中臺(tái)架構(gòu)、以及非常多的建設(shè)思路供大家參考。

從目前的建設(shè)效果來看,很多公司在數(shù)據(jù)中臺(tái)建設(shè)中有不錯(cuò)的成效(尤其是大中型公司),數(shù)據(jù)中臺(tái)整體思路得到了驗(yàn)證。

但是數(shù)據(jù)中臺(tái)本身還算一個(gè)新鮮事務(wù),這個(gè)新鮮事務(wù)目前還沒有標(biāo)準(zhǔn)答案,只有參考答案。

數(shù)據(jù)中臺(tái)架構(gòu)與技術(shù)選型

數(shù)據(jù)中臺(tái)架構(gòu)核心組成

我認(rèn)為的數(shù)據(jù)中臺(tái)核心架構(gòu)包括四大組成部分,具體是:

  • 底座是數(shù)據(jù)基礎(chǔ)平臺(tái),包括數(shù)據(jù)采集平臺(tái)&計(jì)算平臺(tái)&存儲(chǔ)平臺(tái),這些可以自建也可以使用云計(jì)算服務(wù)。
  • 中間部分兩大塊是中臺(tái)的公共數(shù)據(jù)區(qū),公共數(shù)據(jù)區(qū)包括數(shù)據(jù)倉庫(數(shù)據(jù)湖) ,主要負(fù)責(zé)公共數(shù)據(jù)模型研發(fā),還包括統(tǒng)一指標(biāo)(標(biāo)簽)平臺(tái),負(fù)責(zé)把模型組織成可以對(duì)外服務(wù)的數(shù)據(jù),例如數(shù)據(jù)指標(biāo)、數(shù)據(jù)標(biāo)簽。
  • 上層是數(shù)據(jù)應(yīng)用服務(wù)層,主要將公共數(shù)據(jù)區(qū)的數(shù)據(jù)對(duì)外包裝并提供服務(wù),包括數(shù)據(jù)接口平臺(tái)、多維查詢平臺(tái),數(shù)據(jù)可視化平臺(tái)、數(shù)據(jù)分析平臺(tái)等。

另外,數(shù)據(jù)研發(fā)平臺(tái)和數(shù)據(jù)管理平臺(tái)貫穿始終,其中:

  • 數(shù)據(jù)開發(fā)平臺(tái)包括數(shù)據(jù)開發(fā)的各類工具組合,例如:數(shù)據(jù)管道工具(比如數(shù)據(jù)接入、數(shù)據(jù)導(dǎo)出)、模型設(shè)計(jì)工具、腳本開發(fā)工具、數(shù)據(jù)調(diào)度工具等。
  • 數(shù)據(jù)管理平臺(tái)包括統(tǒng)一元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)生命周期管理。針對(duì)數(shù)據(jù)全鏈路的數(shù)據(jù)管理,保證數(shù)據(jù)中臺(tái)可以監(jiān)控?cái)?shù)據(jù)鏈路中的數(shù)據(jù)流向、數(shù)據(jù)使用效果、數(shù)據(jù)生命周期,以衡量數(shù)據(jù)的價(jià)值與成本。

以上是數(shù)據(jù)中臺(tái)的核心部分,數(shù)據(jù)中臺(tái)的組成也可以更加豐富,比如包括:數(shù)據(jù)資產(chǎn)平臺(tái)、算法平臺(tái)等等。

 

 

 

 

在數(shù)據(jù)中臺(tái)的建設(shè)中一定不要忽視的是與業(yè)務(wù)的銜接,因?yàn)閿?shù)據(jù)來源于業(yè)務(wù)并最終應(yīng)用于業(yè)務(wù),在數(shù)據(jù)中臺(tái)的建設(shè)中需要有一系列的流程制度明確與業(yè)務(wù)的充分銜接,以保障數(shù)據(jù)源&數(shù)據(jù)產(chǎn)出的質(zhì)量。

數(shù)據(jù)中臺(tái)技術(shù)選型參考

在搭建數(shù)據(jù)中臺(tái)方面,基于開源技術(shù)的選型,尤其是 Hadoop 生態(tài)圈有非常多的選擇,從數(shù)據(jù)整體流向來看各大層級(jí)的選型。

數(shù)據(jù)抽取層:Sqoop 和 Flume 是兩大主流工具,其中 Sqoop 作為結(jié)構(gòu)化數(shù)據(jù)(關(guān)系型數(shù)據(jù)庫)離線抽取,F(xiàn)lume 作為非結(jié)構(gòu)化日志接入。

數(shù)據(jù)存儲(chǔ)層:Hadoop 文件系統(tǒng) HDFS 大家都比較了解,而 Kafka 作為流式數(shù)據(jù)總線應(yīng)用也非常廣泛。

計(jì)算與調(diào)度層,包括:

  • 離線計(jì)算:離線計(jì)算主要是 Hive,Spark,也有部分選用 Tez。
  • 實(shí)時(shí)計(jì)算:前些年 Storm,Spark 比較流行,最近幾年大家紛紛往 Flink 轉(zhuǎn)型。
  • 數(shù)據(jù)調(diào)度:除了像 Airflow Azkaban Oozie 等,易觀開源的 Dolphin-scheduler 也非常活躍。

數(shù)據(jù)引擎層:也就是我們常說的 OLAP 層,我們看到這一層里的選擇非常多,就不一一列舉了(業(yè)務(wù)需求帶動(dòng)技術(shù)進(jìn)步的典型,選擇豐富主要是可以適配不同的數(shù)據(jù)應(yīng)用場景)。

從概念上講分為 ROLAP、MOLAP 以及兩者混搭。MOLAP 提前做一些預(yù)計(jì)算,以生成 Cube 的方式,達(dá)到空間換取查詢效率。

而 ROLAP 是即查即用,效率完全取決于查詢引擎的性能,我個(gè)人認(rèn)為從將來看,ROLAP 的趨勢會(huì)更加明顯,因?yàn)闆]有中間的數(shù)據(jù)鏈路。

但目前看來,沒有一個(gè)統(tǒng)一的引擎足以支撐各類數(shù)據(jù)場景(這或許是將來的機(jī)會(huì)~)。

數(shù)據(jù)可視化層:比較主流的有 Metabase、Superset、Redash,也可以選擇阿里、百度的一些開源控件。

 

 

 

 

在開源技術(shù)的選擇里,我們看到各層里都有越來越多國內(nèi)開源的工具(也充分體現(xiàn)了我們?cè)诖髷?shù)據(jù)技術(shù)領(lǐng)域的進(jìn)步)。

除了以上列舉的這些,整個(gè) Hadoop 生態(tài)圈的技術(shù)選擇非常多,可以結(jié)合自己的實(shí)際場景選擇自己的架構(gòu),在選型層面可以參照的一些原則,比如:

  • 是否有鮮活的成功案例,優(yōu)先找自己類似業(yè)務(wù)場景。
  • 接口的開放性,與其他組件的兼容性。
  • 社區(qū)活躍性度&發(fā)展趨勢。

當(dāng)然,數(shù)據(jù)中臺(tái)的選型不只是開源技術(shù),開源本身也不是完美的,例如維護(hù)開發(fā)成本較高,升級(jí)迭代不好把控,通過開源技術(shù)去建立數(shù)據(jù)中臺(tái)還是有一定研發(fā)門檻。

所以也有很多商業(yè)化的套件、以及基于云的數(shù)據(jù)組件可以選擇,包括數(shù)據(jù)采集、處理、分析、數(shù)據(jù)可視化全過程,國內(nèi)外有很多廠商都提供了豐富的選擇。尤其在大數(shù)據(jù)可視化這塊,國內(nèi)有許多非常專業(yè)的商業(yè)套件。

數(shù)據(jù)研發(fā)實(shí)踐

數(shù)據(jù)處理架構(gòu)

下面是一個(gè)簡單的數(shù)據(jù)處理架構(gòu)演進(jìn)過程:

 

 

 

 

最早數(shù)據(jù)倉庫的計(jì)算只支持批處理,通常是按天定時(shí)處理數(shù)據(jù),在后期逐步進(jìn)化到準(zhǔn)實(shí)時(shí),本質(zhì)上還是批處理,只是處理頻度上得有提升,到小時(shí)級(jí),或者 15 分鐘這種。

隨著技術(shù)不斷進(jìn)步,后期演化出一條新的流處理鏈路,這個(gè)鏈路和之前的批處理分別處理,然后在服務(wù)層面利用大數(shù)據(jù)的計(jì)算能力進(jìn)行合并,向外提供離線+實(shí)時(shí)數(shù)據(jù)服務(wù),這也是著名的 Lambda 架構(gòu)。

最近幾年隨著 Flink 等技術(shù)的發(fā)展,有一個(gè)趨勢是流批一體化,在接入層統(tǒng)一采用流式接入,計(jì)算層采用統(tǒng)一套框架支持實(shí)時(shí)計(jì)算+離線計(jì)算,批處理僅僅作為流處理的一個(gè)特殊場景進(jìn)行支持。

整體上可以做到流處理、批處理的自由切換。流計(jì)算和批處理在需求場景上有一些本質(zhì)區(qū)別,前者主要用于支持線上業(yè)務(wù)場景(比如互聯(lián)網(wǎng)的推薦、搜索、風(fēng)控等),而批處理更多是支持離線統(tǒng)計(jì)分析。

日出而作,日落而息,大家針對(duì)大數(shù)據(jù)的統(tǒng)計(jì)分析習(xí)慣不會(huì)發(fā)生根本性變化,最簡單的 T+1 批處理方式也還是數(shù)據(jù)應(yīng)用必不可少的環(huán)節(jié)。

在使用同一套架構(gòu)上,由于數(shù)據(jù)源變化&維度變化的多樣性,批處理往往面臨一些復(fù)雜場景,這是采用同一套框架上的一些難點(diǎn),充分支持好批處理也是將來流批一體框架的發(fā)展方向。

數(shù)倉分層與主題分類

①數(shù)倉分層

 

 

 

 

與傳統(tǒng) ETL 不同的,我們采用的是 ELT 的數(shù)據(jù)架構(gòu),較為適合在互聯(lián)網(wǎng),總體分為業(yè)務(wù)數(shù)據(jù)層、公共數(shù)據(jù)層、應(yīng)用數(shù)據(jù)層三大層次。

業(yè)務(wù)數(shù)據(jù)層(ODS 層):原始數(shù)據(jù)經(jīng)過緩沖層(STG)的加載,會(huì)進(jìn)入數(shù)倉的業(yè)務(wù)數(shù)據(jù)層,這一層采用范式建模,基本保持與數(shù)據(jù)源完全一致的結(jié)構(gòu),對(duì)于變化的數(shù)據(jù),使用數(shù)據(jù)拉鏈加工與存儲(chǔ)。

這一層選用范式建模,是指保持源系統(tǒng)(例如關(guān)系數(shù)據(jù)庫)的范式結(jié)構(gòu),好處主要是:

  • 一次性接入數(shù)據(jù)源結(jié)構(gòu),針對(duì)需求的變動(dòng)不用頻繁去與數(shù)據(jù)源對(duì)接。
  • 便于業(yè)務(wù)研發(fā)更好地理解數(shù)據(jù),同時(shí)是也是公司的原始數(shù)據(jù)資產(chǎn)。

針對(duì)變化數(shù)據(jù)采用數(shù)據(jù)拉鏈的好處:

  • 保留歷史數(shù)據(jù)的同時(shí),盡可能少占用存儲(chǔ)空間,長期來看,拉鏈存儲(chǔ)比起每天全量保留歷史節(jié)約大概 90% 空間。
  • 快速、高效地獲取歷史任意一天業(yè)務(wù)系統(tǒng)的快照數(shù)據(jù)。

公共數(shù)據(jù)層(包括公共明細(xì)層 DWD,公共匯總層 DWS):公共數(shù)據(jù)層是數(shù)據(jù)倉庫的核心層,是整個(gè)數(shù)倉中使用率最高的,這一層主要采用的維度建模思路進(jìn)行設(shè)計(jì),類型包括事務(wù)事實(shí)、周期快照、累積快照。

同時(shí)為了方便下游對(duì)數(shù)據(jù)的使用,我們會(huì)設(shè)計(jì)一系列的寬表模型,將不同業(yè)務(wù)過程中的事實(shí)進(jìn)行統(tǒng)一整合,包括縱向整合&橫向整合。

對(duì)于商品、用戶主數(shù)據(jù)類可能分散在不同的源系統(tǒng)中采用縱向整合;橫向整合主要包括交易、內(nèi)容等行為數(shù)據(jù)不同業(yè)務(wù)過程的整合。

比如:用戶(用戶信息、注冊(cè)信息)購買(下單、支付、結(jié)算、覆約、完成)商品(商品信息,商家信息,等)。

我們會(huì)把訂單流轉(zhuǎn)業(yè)務(wù)過程整合放到一張明細(xì)表里,同時(shí)會(huì)研發(fā)一些基于用戶、或者商品視角的輕度匯總寬表。

寬表非常便于理解和易用,下游應(yīng)用調(diào)用也方便。我們之前也做過一些統(tǒng)計(jì),在調(diào)用分布來看,寬表的使用占到 70% 以上。

雖然寬表的使用在數(shù)倉建模中非常普遍,但是也有一些缺陷:

  • 數(shù)據(jù)冗余較多,在存儲(chǔ)、計(jì)算、調(diào)用較為占資源,建議盡量還是按場景去使用。
  • 寬表整合的信息較多,數(shù)據(jù)權(quán)限不好控制。建議可以根據(jù)需求,在有限范圍內(nèi)開放整體寬表權(quán)限,或者通過視圖或者子表的方式建立不同權(quán)限的數(shù)據(jù)范圍,適應(yīng)不同組織的需求。
  • 寬表通常依賴比較多,會(huì)影響數(shù)據(jù)的產(chǎn)出的時(shí)效。

應(yīng)用數(shù)據(jù)層(DWA 層):顧名思義,就是偏向應(yīng)用的數(shù)據(jù)加工,也可以叫集市層,這一層的設(shè)計(jì)可以相對(duì)靈活,貼近應(yīng)用即可,總體設(shè)計(jì)思想仍然可以按維度建模思想為主。

主題分類

數(shù)倉架構(gòu)的數(shù)據(jù)分類兩個(gè)視角,包括主題視角與業(yè)務(wù)視角。

①數(shù)據(jù)主題視角

最重要的一個(gè)視角,也就是咱們經(jīng)常提到的數(shù)倉主題,主題是將企業(yè)的業(yè)務(wù)進(jìn)行宏觀數(shù)據(jù)抽象,是數(shù)據(jù)倉庫里數(shù)據(jù)的主要組織形式。

劃分方法如下:

  • 參照波特價(jià)值鏈,分析企業(yè)本身經(jīng)營的業(yè)務(wù)(基本活動(dòng)、支持型活動(dòng)),分別對(duì)應(yīng)哪些數(shù)據(jù)。
  • 參照業(yè)界通用模型,例如像 IBM、TD 等針對(duì)大型行業(yè)(如電信、金融、零售)有一些數(shù)據(jù)主題的通用劃分方法。
  • 對(duì)企業(yè)的內(nèi)部數(shù)據(jù)(線上數(shù)據(jù)模塊、數(shù)據(jù)字典)進(jìn)行摸底,確認(rèn)對(duì)應(yīng)到哪些主題。

劃分結(jié)果會(huì)按照三個(gè)層級(jí):

  • 第一級(jí)是主題域,針對(duì)相對(duì)穩(wěn)定的主題進(jìn)行合并,歸攏到主題域,利于數(shù)據(jù)的理解與建立全局的數(shù)據(jù)資產(chǎn)目錄。
  • 第二級(jí)是主題。
  • 第三級(jí)是子主題,主要針對(duì)有些主題下分類較多,比如供應(yīng)鏈主題下會(huì)包含采購、倉儲(chǔ)、配送等子主題。

數(shù)據(jù)主題劃分建議完全互斥,不建議重復(fù)。

②數(shù)據(jù)業(yè)務(wù)視角

數(shù)據(jù)業(yè)務(wù)域是根據(jù)企業(yè)經(jīng)營的具體業(yè)務(wù),結(jié)合企業(yè)的組織架構(gòu)進(jìn)行劃分,層次和分類可以相對(duì)靈活,子分類可以允許重復(fù),因?yàn)閮蓷l不同的業(yè)務(wù)域可能經(jīng)營相同的業(yè)務(wù),例如電商、內(nèi)容下都有會(huì)員這個(gè)業(yè)務(wù)。

 

 

 

 

上圖是一個(gè)比較典型的內(nèi)容+電商的數(shù)據(jù)主題與業(yè)務(wù)分類。

以上一橫一縱兩個(gè)視角,將數(shù)據(jù)進(jìn)行更好的歸類,在數(shù)據(jù)模型設(shè)計(jì)中會(huì)打上相應(yīng)分類標(biāo)簽,從而讓數(shù)據(jù)研發(fā)&數(shù)據(jù)使用人員統(tǒng)一認(rèn)知。以上兩種分類方式主要應(yīng)用于核心的公共數(shù)據(jù)層。

業(yè)務(wù)數(shù)據(jù)層、應(yīng)用數(shù)據(jù)層并不需要遵循以上分類規(guī)則,比如業(yè)務(wù)數(shù)據(jù)層(ODS層)是按照數(shù)據(jù)源進(jìn)行分類,應(yīng)用數(shù)據(jù)層(DWA)是根據(jù)具體的應(yīng)用進(jìn)行分類。

數(shù)據(jù)研發(fā)流程

除了合理的架構(gòu)之外,數(shù)據(jù)研發(fā)的流程也很重要,總體流程如下:

 

 

 

 

包括需求分析/數(shù)據(jù)調(diào)研、數(shù)據(jù)模型設(shè)計(jì)、數(shù)據(jù)開發(fā)&測試、上線發(fā)布等流程。

在之前數(shù)據(jù)中臺(tái)的核心架構(gòu)提到不閉門造車,數(shù)據(jù)研發(fā)需要與業(yè)務(wù)部門充分銜接,比如在數(shù)據(jù)調(diào)研中要與業(yè)務(wù)研發(fā)同學(xué)進(jìn)行線上數(shù)據(jù)&結(jié)構(gòu)訪談。

在數(shù)據(jù)開發(fā)中,與分析&業(yè)務(wù)同學(xué)共同確認(rèn)標(biāo)準(zhǔn)口徑;在數(shù)據(jù)研發(fā)完成后對(duì)數(shù)據(jù)使用方進(jìn)行數(shù)據(jù)發(fā)布與培訓(xùn)。

以上流程中,除了需求調(diào)研,其他部分我們都進(jìn)行了線上化,包括數(shù)據(jù)的模型設(shè)計(jì)。

早期我們會(huì)手寫 Mapping 文檔,后期我們逐步把 Mapping 文檔進(jìn)行了線上化,整體的數(shù)據(jù)模型設(shè)計(jì)通過模型設(shè)計(jì)工具完成,包括從概念模型、邏輯模型到物理模型的設(shè)計(jì)。

模型設(shè)計(jì)完成后,可以一鍵生成數(shù)據(jù)知識(shí)文檔:

 

 

 

 

數(shù)據(jù)生命周期管理

數(shù)據(jù)研發(fā)完成,還需要關(guān)注數(shù)據(jù)生命周期:

  • 一方面數(shù)據(jù)量的飛速增長不僅僅需要占用大量存儲(chǔ),比如像自建機(jī)房,會(huì)涉及擴(kuò)充機(jī)柜、機(jī)房,往往會(huì)面臨一些瓶頸。
  • 另外一方面,大量的數(shù)據(jù)會(huì)降低數(shù)據(jù)的計(jì)算效率,所以從數(shù)據(jù)的生成開始,我們就需要考慮生命周期,并且結(jié)合數(shù)據(jù)的使用情況制定數(shù)據(jù)歸檔、數(shù)據(jù)銷毀等管理策略。

 

 

 

 

針對(duì)數(shù)據(jù)已經(jīng)占用了大量存儲(chǔ)資源,可以采取一系列措施進(jìn)行成本控制,例如:

  • 降存量:通過數(shù)據(jù)壓縮技術(shù)、降副本等方式,以及在數(shù)據(jù)模型更合理的設(shè)計(jì),將存量數(shù)據(jù)存儲(chǔ)降低。
  • 控增量:根據(jù)數(shù)據(jù)重要性,可恢復(fù)性等考量角度,確認(rèn)數(shù)據(jù)的保留周期,并根據(jù)周期自動(dòng)歸檔或刪除。
  • 攤成本:可以通過一些算法,比如數(shù)據(jù)調(diào)用分布、需求來源等,把成本分?jǐn)偟较鄳?yīng)業(yè)務(wù)部門,讓相關(guān)業(yè)務(wù)部門關(guān)注到成本。

數(shù)據(jù)安全也是數(shù)據(jù)生命周期管理重的一個(gè)重要課題,比如針對(duì)用戶敏感信息,需要在接入時(shí)考慮如何加密。

一種做法是通過一個(gè)獨(dú)立的物理集群對(duì)敏感數(shù)據(jù)進(jìn)行隔離與強(qiáng)管控;數(shù)據(jù)使用中,也需要將數(shù)據(jù)劃分不同的安全或敏感等級(jí)(例如有些財(cái)務(wù)數(shù)據(jù)的非常敏感,需要謹(jǐn)慎對(duì)外開放),根據(jù)不同的等級(jí)設(shè)定不同的訪問審批機(jī)制。

另外,在數(shù)據(jù)歸檔、銷毀也需要制定好配套的安全管理措施,避免安全風(fēng)險(xiǎn)。

數(shù)據(jù)質(zhì)量管理

數(shù)據(jù)質(zhì)量管理主要包括 3 個(gè)角度:準(zhǔn)確性、及時(shí)性、一致性。管理的環(huán)節(jié)包括:事前、事中、事后、以及事故管理。

 

 

 

 

針對(duì)數(shù)據(jù)運(yùn)維的告警發(fā)送,傳統(tǒng)的方式主要是短信、郵件、電話;隨著移動(dòng)辦公工具功能逐步的強(qiáng)大,可以將運(yùn)維告警以數(shù)據(jù)接口的方式與這些工具進(jìn)行對(duì)接,將告警發(fā)送到企業(yè)內(nèi)部的即時(shí)通訊工具。

數(shù)據(jù)應(yīng)用架構(gòu)

數(shù)據(jù)研發(fā)最終還是需要賦能到業(yè)務(wù)&應(yīng)用,一個(gè)合理的數(shù)據(jù)應(yīng)用架構(gòu)是非常關(guān)鍵的。

這張圖是一個(gè)應(yīng)用架構(gòu)的簡圖參考:

 

 

 

 

從數(shù)據(jù)的流向上分:

  • 數(shù)據(jù)倉庫(或者數(shù)據(jù)湖):負(fù)責(zé)原始數(shù)據(jù)的計(jì)算,主要將數(shù)據(jù)落地到 HDFS。
  • 數(shù)據(jù)引擎層:數(shù)據(jù)加工完成之后,會(huì)將數(shù)據(jù)推送到不同的引擎中,這一層之前提到選擇非常多,可以根據(jù)自己的場景選擇一個(gè)混搭組合,比如我們目前選擇的有 Presto,Kylin,Druid,MySQL。
  • 數(shù)據(jù)服務(wù)層:通過統(tǒng)一化的 SQL 調(diào)用服務(wù),屏蔽底層不同的數(shù)據(jù)引擎,為上層統(tǒng)一查詢提供標(biāo)準(zhǔn)接口。
  • 指標(biāo)平臺(tái):指標(biāo)平臺(tái)是一個(gè)非常關(guān)鍵的產(chǎn)品,定位于銜接數(shù)據(jù)研發(fā)與數(shù)據(jù)應(yīng)用,包括指標(biāo)的標(biāo)準(zhǔn)定義、邏輯、計(jì)算方式、分類等各項(xiàng)內(nèi)容。指標(biāo)分類上我們分為標(biāo)準(zhǔn)指標(biāo)(指標(biāo)口徑經(jīng)過審核過)、以及非標(biāo)準(zhǔn)指標(biāo)。
  • 多維查詢:這是我們的一個(gè)即席查詢工具,查詢的數(shù)據(jù)主要來源指標(biāo)平臺(tái),可以選定不同的指標(biāo)維度組合進(jìn)行結(jié)果呈現(xiàn),用戶可以一次性查詢得到結(jié)果,也可以將查詢結(jié)果配置成可視化的報(bào)表進(jìn)行固化。

中間是統(tǒng)一元數(shù)據(jù)管理:對(duì)整個(gè)架構(gòu)中可以對(duì)外提供服務(wù)的元數(shù)據(jù)進(jìn)行統(tǒng)一管理(包括數(shù)倉的元數(shù)據(jù)、查詢引擎的元數(shù)據(jù)、指標(biāo)元數(shù)據(jù)等),以及監(jiān)控這些元數(shù)據(jù)的調(diào)用情況。

最右側(cè)是權(quán)限管理:權(quán)限管理關(guān)乎到數(shù)據(jù)安全,在設(shè)計(jì)上需要考慮周全,比如針對(duì)表級(jí)、指標(biāo)級(jí)、維度級(jí)別都可以進(jìn)行控制;同時(shí)產(chǎn)品層面也需要靈活配置權(quán)限審批級(jí)別與人員。

在面向用戶使用層面,我們主要開放的是多維查詢&可視化,用戶通過多維去查詢各類指標(biāo)&維度數(shù)據(jù),得到數(shù)據(jù)結(jié)果列表,再選擇可視化配置面板,完成各類圖表、表格的自主配置,并發(fā)布到個(gè)人看板或者業(yè)務(wù)大盤目錄里。

也可以將配置的數(shù)據(jù)看板進(jìn)行靈活組合,定制成一個(gè)小型的數(shù)據(jù)產(chǎn)品。

數(shù)據(jù) ROI 評(píng)估

在數(shù)據(jù)研發(fā)中,也要考量數(shù)據(jù)的 ROI,下面是一個(gè)簡單的 ROI 模型:

 

 

 

 

根據(jù)活躍度(調(diào)用次數(shù)等)、覆蓋度(通過血緣關(guān)系找出依賴數(shù)量),以及貢獻(xiàn)度(依賴數(shù)據(jù)的重要等級(jí))來確認(rèn)數(shù)據(jù)的價(jià)值。同時(shí)會(huì)評(píng)估數(shù)據(jù)的成本指數(shù)(例如計(jì)算成本、存儲(chǔ)成本等)。

通過以上兩者相除,綜合得到數(shù)據(jù)的 ROI,針對(duì) ROI 可以將數(shù)據(jù)分為不同等級(jí),并相應(yīng)進(jìn)行數(shù)據(jù)治理。比如針對(duì)價(jià)值低,成本高的數(shù)據(jù),可以考慮下線等。

數(shù)據(jù)研發(fā)趨勢&關(guān)注點(diǎn):

  • 提效:目前借助工具的研發(fā)可以把絕大部分?jǐn)?shù)據(jù)研發(fā)工作線上化,將來借助 AI 等能力,實(shí)現(xiàn)數(shù)據(jù)處理中包括開發(fā)、運(yùn)維的自動(dòng)化,提升處理效率。
  • 靈活:流批一體化,包括流處理與批處理自由切換,之前已經(jīng)提到過,個(gè)人認(rèn)為也是一個(gè)發(fā)展的趨勢。
  • 降本:數(shù)據(jù)研發(fā)鏈路的成本控制,在數(shù)據(jù)建設(shè)的早期通常不太引起關(guān)注,隨著數(shù)據(jù)量不斷的積累,往往存儲(chǔ)、計(jì)算成本成為瓶頸。針對(duì)數(shù)據(jù)建設(shè)成本需提前考慮。
  • 算力:我們看到 Google,IBM 和阿里都在研究量子計(jì)算,將來的數(shù)據(jù)中間層(比如數(shù)倉的公共模型)是否可以考慮虛擬化(比如只保留規(guī)則&數(shù)據(jù)結(jié)構(gòu)),具體數(shù)據(jù)內(nèi)容在應(yīng)用發(fā)起時(shí),即調(diào)即用,更多時(shí)候可以不需要占用存儲(chǔ)資源。算力的不斷提升,有可能會(huì)顛覆一些傳統(tǒng)數(shù)據(jù)建設(shè)的思路。

作者:顏博

簡介:現(xiàn)任馬蜂窩數(shù)據(jù)倉庫團(tuán)隊(duì)負(fù)責(zé)人,曾供職于京東、IBM、亞信等公司。數(shù)據(jù)行業(yè)老兵一名,歷經(jīng)傳統(tǒng)數(shù)據(jù)倉庫、大數(shù)據(jù)平臺(tái)到數(shù)據(jù)中臺(tái)的發(fā)展。

編輯:陶家龍

 

出處:轉(zhuǎn)載自微信公眾號(hào) DBAplus 社群(ID:dbaplus),本文根據(jù)顏博老師在〖Deeplus 直播第 218 期〗線上分享演講內(nèi)容整理而成。

責(zé)任編輯:武曉燕 來源: DBAplus 社群
相關(guān)推薦

2017-08-08 12:50:51

Serverless云端數(shù)據(jù)庫

2013-02-25 09:43:22

LambdasJava8

2010-05-25 13:17:28

MySQL數(shù)據(jù)庫

2009-11-27 14:18:37

Scala

2010-01-29 09:01:40

.NET 4.0

2015-11-03 11:39:18

清華大學(xué)OpenStackEasyStack

2009-05-15 08:59:32

Windows 7微軟操作系統(tǒng)

2018-06-12 11:19:28

2018-08-16 11:30:12

JavaCPU緩存

2009-06-08 16:00:00

ASP.NET 3.5

2015-08-05 10:54:49

2015-07-27 17:48:20

麥迪

2023-04-12 08:14:10

mysql關(guān)聯(lián)字段索引

2009-10-20 09:57:31

Windows 7系統(tǒng)崩潰

2013-09-22 11:29:32

2011-06-04 17:31:24

臺(tái)式機(jī)評(píng)測

2012-10-19 09:27:23

Ruby

2020-10-28 16:44:29

IoT微服務(wù)架構(gòu)

2022-04-11 10:21:35

GNU命令行工具

2011-06-28 10:41:50

DBA
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 偷拍自拍网 | 中文在线亚洲 | 国产欧美日韩综合精品一区二区 | 国产精品99久久久久久久久 | 久久大陆 | 国产福利91精品 | 国产成人精品一区二区三区 | 欧美激情国产日韩精品一区18 | 91一区二区三区在线观看 | 国产精品久久久爽爽爽麻豆色哟哟 | 一区在线观看 | 亚洲成av| 欧美日韩黄色一级片 | 国产精品毛片av一区 | 国产精品久久久久久一区二区三区 | 男女羞羞视频在线观看 | 国产在线一区二区三区 | 人人种亚洲 | 中文字幕日韩欧美一区二区三区 | 中文字幕视频一区 | 国产午夜精品久久久久 | 国产精品久久久久久久久久不蜜臀 | 91av视频在线观看 | 国产激情视频网站 | 999精彩视频| 操操日 | 国产一区二区三区久久 | 久久一二三区 | av在线免费观看网址 | 久久精品亚洲精品国产欧美 | 伊人春色在线观看 | 精精国产xxxx视频在线野外 | 国产ts人妖系列高潮 | 97精品国产97久久久久久免费 | 亚洲一区二区精品视频 | 一级毛片在线播放 | 天堂资源| 九九热视频这里只有精品 | 免费的黄色片子 | 激情欧美一区二区三区 | 亚洲综合色婷婷 |