企業級數據中臺的終局剖析
一、數字化時代企業級數據中臺的終局
從2019年第一篇數據中臺10萬+文章()以來,數據中臺從默默無聞到陡然崛起,現在進入到平穩落地的階段,不少企業都把數據中臺當做了企業的數字化標準配備。
但是,現在市場上還是有很多的企業同學在問,數據中臺和數據倉庫,大數據平臺等概念的區別。經過過去一年的沉淀和實踐,我個人把對于企業級數據中臺的本質進行了深度剖析,整合了多個行業,企業,廠商的數據中臺產品的多種理解和解讀,形成此文,供大家參考。
企業數字化轉型的終局
首先,數據中臺是服務于企業數字化轉型的,所以,我們要從企業數字化的終局來看數據中臺的終局。
企業數字化轉型的終局是傳統業務變成數字化業務,數字化業務的本質就是以數據作為新生產要素進行加工處理,構建以數據作為主要存在形式的產品,產生商業價值的業務模式。
數字化業務的典型代表是:天貓、淘寶、抖音、滴滴這樣的互聯網企業。
- 天貓,淘寶本身是一個數字化平臺,天貓,淘寶本身不生產一件商品,它構建了一個數字化平臺,把商家上傳的數字化商品以數據的形式(天貓店鋪,SKU)提供給消費者,讓消費者在線上用數字化的形式下單,然后拉通線下,獲得物理世界的實體商品,從而從中獲取平臺收益。
- 抖音,連實體產品都沒有,用戶上傳的是原生數據產品(視頻),然后通過信息流,通過推薦算法,推薦給平臺用戶,形成商業收益。
- 滴滴,某種意義上和天貓,淘寶是類似的,將物理世界的運力,運單,地圖以數據形式變成平臺產品,提供給消費者和司機,進行撮合交易,精準匹配,從而賺取價差和增值服務,形成商業收益。
數字化業務和傳統的實體業務比較起來,是具有升維的絕對優勢的。體現在以下幾個方面:
- 分發復制速度快,數字化業務的分發復制速度快,一個抖音的短視頻可以在一秒鐘內觸達幾十億用戶;
- 柔性敏捷高響應,當業務數字化后,面對市場的變化有高速的響應能力,業務本身會變得非常柔性和敏捷,從而能夠做類似于A/B Testing這樣的數字化測試。
- 實時數據洞察準,業務數字化的特點是所有的業務流程,業務動作,交易,都數據化了,業務都實時變成了數據,而通過數字化技術,這些數據可以被實時處理,形成業務的數字化呈現形式,全鏈路,全口徑的呈現出來,所有的業務都能夠被可視化,從而能夠更好地被準確洞察。
- 海量數據精預測,有了全量的數據,包括交易,用戶,行為數據等,就能夠形成對未來的趨勢的預測,從而能夠根據歷史數據,用戶畫像做精準匹配和推薦,這樣能夠產生更多的業務創新和主動性。
數字化企業的終局對企業數據處理能力提出了新的要求,未來的數字化企業就是一個把數據當做生產要素的制造企業,所以,數字化企業的就是一個數據產品和服務的加工工廠,如下圖所示:
每個企業都是獲取數據,采集數據,然后將數據放入數據加工的廠房,生產出不同的數據產品,每個企業都會有基于數據去做創新的實驗室,去研發新的數據產品,比如字節跳動的今日頭條,孵化出抖音,然后沉淀更多的數據生產要素,并且通過對用戶數據的洞察,在創新實驗室發現更多的數據產品需求,生產出更多的數據產品,這樣就形成了源源不斷的閉環數據價值生態。
制造業最重要的是生產力也就是生產設備,產線,管理方法,這些對應到就是數字化企業的數據加工廠。未來數字化企業的所有員工,不論線上線下業務的人,都是在圍繞數據做工作,線下的業務人員,在進行作業的同時,是為了把物理業務數據化,產生數據。線上的分析人員,是將數據做加工,變成有業務價值的數據產品;運營人員,是將數據產品通過數字化渠道匹配給對應的用戶,并且提升用戶的使用滿意度。整個企業從數據的維度來看就是一個數據加工廠。
所以,這個加工廠的效率,性能,柔性,運維,監控,管理的高效性,協同的效率就非常重要,而這就是數字化企業的數據中臺的愿景目標。
當我們把企業看作是一個數據加工廠的時候,我們就可以重新定位企業級數據中臺是什么了。
企業級數據中臺是數字化企業用來加工數據的全鏈路平臺,它的輸入是數據,輸出是各種數據產品和數據服務。如果將企業級數據中臺進行拆解的話,我們可以看到它的六大核心能力。
二、企業級數據中臺的六大核心能力
數據中臺六大能力模型
利用領域建模的思想,企業級數據中臺的核心能力可以分成兩類,一類是核心的業務域,
就是直接存儲,加工,生產數據和數據產品的能力,就像工廠生產線里的主要加工設備。第二類是輔助于生產的管理域,是為了讓生產的過程更加高效,安全,穩定的能力,就像工廠里的傳送帶,實驗室,檢測中心和監控運維中心。
這樣一來我們就清晰的看到了數據中臺所需要的六大核心能力:
業務能力(Business):
(1) B1數據的獲取存儲和處理
從源系統中獲取到數據,并且將數據存儲起來,對它進行適當形式的處理,這是數據加工的第一步。例如,大數據平臺,通過爬蟲、ETL、接口等方式,從多樣化的業務系統獲取數據,將數據進行清洗、轉換,建模存儲到各種不同類型的數據庫中,如結構性,非結構性,圖數據庫等,這也是我們常講的“業務數據化”的最后一公里。
(2) B2 數據價值的探索和挖掘
當數據已經獲取并存儲起來后,人們需要對它進行分析探索和挖掘,從而識別出有價值的業務場景數據,從而將數據業務化,反作用于業務本身。目前這個能力主要是靠人的經驗在線下完成,線上只是補充。比如,現在的報表,就是數據價值的一種呈現形式,領導層希望看到業務的情況,于是通過數據可視化報表的形式來
(3) B3數據產品和服務的構建和發布
發現數據能夠產生價值的場景后,就需要把這個場景開發成數據產品和服務,提供給用戶使用。這是數據加工廠的最后一公里的環節,也是面向用戶價值呈現的環節。這個環節主要的工作是在發現的數據價值場景基礎上用合適的形式(API,報表,APP,數據包)為客戶提供數據產品和服務。
管理能力(Management):
除了核心域的數據生產,價值探索和產品開發能力外,為了更好地協作,提升數據產品的生產效率,還需要有很多管理性的配套工作,這就是數據中臺的管理能力部分,主要分為三類
(1) M1 共享和協作
企業級數據中臺,要具備一站式,全鏈路的數據開發能力,讓所有的數據相關的工作者都能夠在這個平臺上工作,這里就需要兩個主要的子能力。
數據共享:就像Netflix的數據中臺有一個數據門戶一樣,企業的數據要通過一個統一的入口根據不同的權限進行共享,開放給對應的用戶,讓他們能夠方便的訪問數據。
數據協作:數據的生產鏈路是需要多人協作的,比如,源系統提供數據,數據工程師進行數據的抽取和采集,數據分析師對數據進行分析,數據可視化工程師完成數據的可視化設計等。傳統這些工作都是通過文件傳來傳去,而企業級數據中臺則需要一個全鏈路協同的工作環境,讓所有的角色都在這個平臺上對同樣的數據集進行操作。
(2) M2 管理和治理
要把數據當做資產來管理和治理,這里的管理主要指的是以數據資產目錄為核心的相關能力,比如數據資產的規劃,數據資產的分類,數據資產的獲取,數據資產目錄的維護,還包括數據權限分級的能力,從而保證數據在一套標準化的管理體系下進行應用,而避免出現管理缺位,數據安全,數據分散的問題,數據的管理要從源頭就開始,也就是數據中臺要對企業級的數據進行統一的管理,而不僅是數據相關的系統,還要包括源數據。
數據治理就是一個老生常談的話題了,是以數據標準為核心,對企業的數據質量進行管理,數據中臺要有元數據、數據血緣、數據質量、數據版本等全方位的功能,并且企業級數據中臺的數據治理模塊不能是一個獨立運行的模塊,它應該嵌入到整個數據生產鏈路的每一個環節,從而在數據的全鏈路中發揮作用。
(3) M3 運營和運維
要把數據當做一個核心生產要素來進行運營,所以,數據中臺也是需要運營的,這里的運營就包括對數據中臺的用戶行為數據進行分析,從而發現哪些數據集是高價值的,哪些是被調用比較少的,要把數據產品和服務當做一個互聯網產品一樣來進行用戶運營,只有這樣,才能夠讓數據中臺被更多的用戶所接受,不斷地迭代新的功能,才能夠有更強的生命力。
未來數字化企業中,數據中臺是一個企業級生產系統,就像淘寶,天貓一樣,是不可能接受宕機的,所以數據中臺的運維就顯得至關重要,SLA要得到必須的保證,這樣的話,就需要一套自動化的運維體系。
當我們把這兩大類,六個數據中臺的核心能力進行組合后,我們就會得到下圖的十二個能力子域:
每一個企業根據自己的情況,這十二個能力子域的建設優先級,功能都會有差異。一般來說,從業務價值的產生速度來講,一定是先完成數據產品的構建和應用是最高優先級的,畢竟這是最快能帶來價值的,而管理域的功能則是大型數字化企業必須具備的能力。
數據倉庫、數據湖和大數據平臺與數據倉庫的區別
當我們把這六個能力分析清楚后,就能夠更加清晰的看出數據倉庫,大數據平臺,數據湖和數據中臺的區別:
如下圖所示:
大數據平臺,是偏數據存儲和加工的系統,帶有部分數據探索的能力,生產的數據產品以數據集為主,不全面。
數據倉庫則比較均衡,包括結構化數據的存儲加工,可以用自分析報表(Query)的方式實現數據的探索和挖掘,最終數據產品以報表和數據可視化為主。
數據湖則偏重于數據存儲和提供,有一部分的數據管理,共享和運維的能力。
數據中臺是需要這六大能力都全面具備的。
數據中臺一定不僅是一個單體的軟件能夠形成的,它是一個體系化的企業級數據加工廠,所以數據中臺的建設也是需要頂層規劃,分步建設的。
【本文為51CTO專欄作者“凱哥”的原創稿件,轉載請通過作者微信公眾號shikai590獲取授權】