阿里架構師用3點講透數據中臺,這些都是你沒看過的
數據實際上是一個非常傳統(tǒng)的行業(yè)。
有軟件開始的那一天起,數據這個行業(yè)就存在了。比如說原來最早的時候,有非常多的數據報表數據可視化,然后到后來,有了商業(yè)智能,有了Data Warehouse(就是數據倉庫),然后數據挖掘。
數據這個行業(yè)不僅僅是軟件,它還有管理的部分,也就是說數據治理,即如何讓企業(yè)的數據治理的質量更好。所以數據這個行業(yè)本身是一個非常傳統(tǒng)的行業(yè)。每個大型一點的企業(yè)都有自己的數據分析部門,數據倉庫部門。
那么為什么數據湖也好,數據平臺也好,在過去都沒有像今年數據中臺這么熱門。而且關注數據中臺的還不僅僅是技術部門,很多都是業(yè)務部門,業(yè)務部門以前不是特別關注這些技術的數據平臺和這些技術的概念,為什么呢?

一、平臺化的概念
講到數據中臺,我們就要提到平臺化。我們現在所講的SARS也好,所講的path也好,所講的數據中臺也好,所講的業(yè)務中臺也好,它實際上根本的思想來源是來自于平臺化,就是platform。

舉個例子,我們拿一個飲料廠的產品線來講,那么他可以生產果汁,可以生產飲料,還可以生產其他的產品,它可能是三四條不同的生產線。從原材料加工成飲料,它有很多環(huán)節(jié),雖然品種不一樣,但是它很多環(huán)節(jié)是類似的,比如裝瓶、攪拌。
那么這幾個不同的生產流程、生產線,我們可以把那些公共的部分合并起來,更加專業(yè)化,然后并且讓他們獨立去維護,之后把那些不同的產品面向客戶,使客戶體驗不同的產品,使它獨立出來,這就是平臺化的思路。

中臺里面很重要的兩個中臺,一個是業(yè)務中臺,一個是數據中臺。業(yè)務中臺是提供可復用的業(yè)務,API數據中臺是提供數據洞察和智能的。
不管什么中臺,它實際上都是平臺思想的一個體現,一種具象。
二、數據中臺為什么受歡迎
這里舉個例子,原來的數據平臺也好,數據湖也好,數據倉庫也好,它們的出發(fā)點很多時候有局限性,應該說更是一個支撐性的技術系統(tǒng),即一定要去考慮我先有什么數據,然后我能干什么,這是傳統(tǒng)的數據平臺,數據湖,依賴于現有數據的質量,現有數據的狀況來做的這樣的一個支撐性的技術平臺。
但是數據中臺在我們現在所講的概念里面,它更多的是從業(yè)務出發(fā),比如說我們現在所設計的一套精益數據的方法,它就是從業(yè)務出發(fā),一開始都不用看你系統(tǒng)里面有什么數據,重點的是去解決你的業(yè)務需要什么樣的數據服務?
只要這個服務有價值,那我們就去想辦法去拿到數據,如果沒有能力,我們去建技術能力,去完成數據服務的提供。
所以數據中臺最重要區(qū)別于傳統(tǒng)數據平臺,技術類平臺的區(qū)別在于數據中臺的思維是業(yè)務思維,他從業(yè)務問題出發(fā),這也就是為什么業(yè)務部門對數據中臺會這么歡迎。

我們的目標是哪怕我的數據只有50%的準確性,那么在我提高數據質量同時,我也希望這50%準確的數據也能為我產生業(yè)務價值。
過去那么多年,建設的系統(tǒng)是把業(yè)務數據化,現在我們很多的企業(yè)在后臺系統(tǒng)建設好以后,在做的業(yè)務系統(tǒng)實際上是把數據業(yè)務化,而且有一點也是我們現在行業(yè)里面重點強調的,原來我們講先有業(yè)務,后有數據,先有應用系統(tǒng),后有數據系統(tǒng),這個觀點從今年開始要發(fā)生改變了,在業(yè)務系統(tǒng)還沒有建立起來的時候,我們就要有數據思維,就要把數據集成到業(yè)務系統(tǒng)的架構里面去。
原來我們所講的業(yè)務系統(tǒng)叫OLTP,即在線交易系統(tǒng),然后數據類的系統(tǒng)叫OLAP,即在線分析性系統(tǒng)。
現在可以看到一個趨勢,這個趨勢就是OLTP和OLAP在融合,也就是很多企業(yè)所講的P流一體,即為批處理和實時流數據處理一體化。原來我們的OLTP、OLAP是平行的關系,先要通過OLTP系統(tǒng)產生數據,然后ETL,然后抽取到OLAP里面,再把多個OLTP的系統(tǒng)抽在一起,之后在OLTP、OLAP的系統(tǒng)里面產生洞見,變成數據可視化報表給業(yè)務部門去看,再去改變你的OLTP的做法,這里的OLTP和OLAP是平行的關系。
這樣的話,原來的數據百分之七八十在企業(yè)里的應用都是數據可視化,都是BI,都是data house報表,讓人看,這叫人機接口,這個是人看完數據以后,然后再去提取,之后去做你的決策,改變你的行為,去看數據。

從今年開始,數據中臺更多強調的是機器與機器的接口,就是我的數據分析出來的結果,不僅僅以報表可視化的形式讓人看,而更多的是把這些API這樣的一些數據服務直接地嵌入到交易系統(tǒng)里面產生影響,變成你的價格策略,變成你的推薦引擎,變成你的風險管控。
那么我們所講數據中臺,它不僅僅是一個技術平臺,它還是一個體系。
數據中臺會對應到一個企業(yè)里的一個部門一個組織,也要有數據戰(zhàn)略的支撐,要有數據治理,數據中臺上面生長一個數據服務,數據服務提供給我們業(yè)務系統(tǒng),提供給我們業(yè)務中臺,然后我們所接收到的數據消費者,就都生長在數據中臺之上,數據中臺是一個生態(tài),是一個平臺,是一個數據服務,是生產、加工、交易、度量、運營的平臺,所以我們把數據中臺實際上叫做一個體系。
三、數據中臺對企業(yè)的價值

數據中臺解決的核心問題:
- 解決應用開發(fā)快于數據開發(fā)的效率問題。
- 解決數據開發(fā)與數據產生價值的協(xié)作問題。
- 解決在很多企業(yè),它的開發(fā)人員,技術人員沒有數據能力的問題,這是它從技術層面的核心問題上來解決問題。
1.應用開發(fā)要快于數據開發(fā)的速度
原來我們在做一張報表,或者是在業(yè)務系統(tǒng)里面需要查詢一個數據結果的時候,它的過程是比較麻煩的,而且它的測試往往也是比較復雜的,因為業(yè)務系統(tǒng)是有業(yè)務屬性的,但是數據是跨業(yè)務的,是融合的。
在OLAP領域中,很多這種情況,比如說我的企業(yè),Java開發(fā)工程師很好找,做應用的人很好找,懂data,知道如何做數據建模,如何做算法的人相對來講是比較少的。但是在我們應用開發(fā)過程當中,我們會發(fā)現有太多的數據需求,這種情況下應用開發(fā)的速度是快于數據開發(fā)的速度。
2.加速從數據到價值的服務產生過程
在很多時候我們會發(fā)現不同的應用開發(fā)項目組,他們都會調用同樣的數據模型,同樣的數據服務,但是由于不了解數據,并且他們也不知道底層的數據結構,所以他們不同的項目組可能對同樣的數據處理會用不同的方法,自己做自己的,然后出來的結果不一樣。有的是錯誤的,所以開發(fā)速度慢,并且數據結果不準確,質量低.
但是現在數據中臺就要解決這個問題,數據中臺要把那些復用的數據模型,要把那些數據模型data派對中一些數據復用的能力,變成一個數據的能力平臺,讓那些做數據的人專注在做數據,把數據變成一個樂高積木,數據服務提供給應用開發(fā),然后不同的應用開發(fā)項目組可以共同的去調用唯一的SARS數據服務,去保證它的數據質量和一致性,加速從數據到價值的服務產生過程,打造高響應力且更加智慧的業(yè)務。

如何加快從你的業(yè)務到數據到你的數據產品之間的反饋的速度響應力,也是數據中臺要解決的問題。它要把應用的價值,應用的速度,和你數據產生的速度中間的差異,時間的差異和有時候業(yè)務理解上的差異,通過數據中臺去把它彌補起來。