數據管理的四大支柱:揭秘數據中臺、數據倉庫、數據治理和主數據
數據中臺、數據倉庫、數據治理和主數據這些概念對于很多人來說仍顯得抽象。用一些通俗的語言和生活中的比喻,深入解析這些關鍵概念。
一、數據中臺:數據的“中央廚房”
圖片
想象一下,你是一家大型餐廳的廚師長,每天需要處理從不同供應商那里采購的多種食材。為了確保食材的新鮮、衛生與高效利用,建立一個中央廚房就顯得尤為重要。這個中央廚房的角色就是數據中臺在企業中扮演的角色。
數據中臺整合來自不同業務部門、系統和渠道的數據,對其進行清洗、加工和標準化處理,然后再將處理后的數據提供給業務部門使用。就像中央廚房確保食材的質量和一致性,數據中臺則確保數據的質量、一致性和可用性,從而更好地支持企業的決策和運營。
二、數據倉庫:數據的“圖書館”
圖片
假設你是一位圖書館管理員,每天的職責是管理和維護圖書館中的成千上萬本書。你必須確保每本書按照類別、作者、出版日期整齊有序地擺放,以方便讀者查找和借閱。數據倉庫在企業中的作用就像這個圖書館。它存儲了大量歷史數據和結構化數據,并按照一定的規則和格式進行組織。與數據中臺不同,數據倉庫更注重數據的長期保存和查詢分析,提供強大的數據查詢和分析能力,幫助企業深入了解市場、客戶和業務流程,從而發現潛在的機會和風險。
三、數據治理:數據的“交警”
圖片
城市交通中,交警的職責是維護交通秩序,確保車輛和行人遵循交通規則,防止交通擁堵和事故發生。在數據世界中,數據治理就好比這樣的交警。數據治理是對數據進行全面管理和規范的過程,確保數據的準確性、一致性、安全性和可用性,同時防止數據濫用和泄露。數據治理還負責制定數據管理的規章制度,監督數據的采集、存儲、處理和使用過程,確保數據在整個生命周期中都得到妥善管理。
四、主數據:數據的“身份證”
圖片
最后,我們來談談主數據。每個人都有自己的身份證,它是個人身份的證明。在數據世界中,主數據就像是數據的“身份證”。主數據是企業內部最關鍵、最核心的數據,描述了企業的核心業務實體,如客戶、產品、供應商等。主數據具有唯一性和權威性,是企業內部各部門和系統之間共享和交換數據的基礎。通過管理和維護好主數據,企業可以確保數據的一致性和準確性,從而提高業務處理效率和決策質量。
因此:
對于大數據平臺來說,主數據是非常重要的一類數據,幾乎出現在所有的數據處理和分析中,具體到批處理和實時處理又有所不同。
- 對于批處理來說:
主數據可以同步自主數據管理系統的數據庫,在數倉(數據倉庫)體系下,幾乎所有的主數據都是維度數據,需要建立相應的維度表以支撐業務查詢和分析;
- 對于實時處理來說:
在各種流式計算的過程中也需要獲取主數據進行關聯處理,而實時處理要求主數據的獲取也必須是實時的,這對系統的架構設計提出了挑戰。如果原始的主數據管理系統對外提供了獲取主數據的 API,對于普通的應用系統這是很有利的條件,它們可直接通過API 實時獲得主數據。但是對于大數據系統來說,情況就不那么樂觀了,因為大數據處理過程中的巨大吞吐量和流計算處理中對主數據的使用頻率都遠遠超過一般的應用系統。如果大數據平臺通過主數據管理系統的API 獲取主數據,無論是從并發壓力還是從響應的及時性上都可能無法滿足要求,還有可能給主數據管理系統帶來過大的負載,導致其響應緩慢甚至宥機。
為滿足實時計算對主數據的需求,有兩種可選的技術方案。
(1)方案一:
如果主數據體量不大,變更也不頻繁,可以考慮將這些數據通過 API 讀取到大數據工作節點的內存中,在數據處理過程中直接使用,然后周期性地從主數據管理系統同步最新狀態的主數據。
(2)方案二:
改造主數據管理系統,引入內存數據庫,如Redis, 針對所有主數據,除常規 持久化的業務數據庫外,再配備一個內存數據庫的副本,將這個內存數據庫開放給大數據平臺使用。
方案一的優點是架構簡單,易于實現,但是對主數據有預設條件,不能成為一種廣泛使用的方案。方案二是一套很完備的技術方案,可以滿足各種主數據獲取需求,代價是架構比較復雜,如果企業正在構建的是一整套大數據平臺,方案二是值得一試的, 從技術上講,主數據管理系統是一個相對傳統的Web 應用,負責維護主數據的增刪查改,同時對外提供獲取主數據的 API, 對于大數據平臺,最好提供以內存數據庫為依托的數據讀取服務。綜合這些因素,企業在建設大數據平臺時應該結合現狀靈活地選擇方案。
五、定位與差異:協同作戰的團隊成員
通過以上的比喻,我們可以更好地理解這些概念的定位和差異。數據中臺作為數據的“中央廚房”,負責數據的整合和加工;數據倉庫作為數據的“圖書館”,負責數據的存儲和查詢分析;數據治理作為數據的“交警”,確保數據的規范和安全;而主數據作為數據的“身份證”,確保數據的權威性和一致性。這些概念在企業中相互協作,共同構成完整的數據管理體系。就像一支協同作戰的團隊,數據中臺負責調度和整合數據資源,數據倉庫提供數據存儲和查詢支持,數據治理確保數據的安全和規范,而主數據確保數據的準確性和一致性。這個團隊共同為企業提供了強大的數據支持,幫助企業更好地應對市場挑戰和抓住機遇。