數據中臺建設之路
原創作者 | 涂承燁
1、什么是數據中臺
隨著企業數字化轉型的加速,數據中臺的概念逐已為大家所熟知,政企對數據中臺的建設需求逐漸加大。
數據中臺是對既有/新建信息化系統業務與數據的沉淀,是實現數據賦能新業務、新應用的中間、支撐性平臺。
數據中臺是在政企數字化轉型過程中,對各業務單元業務與數據的沉淀,構建包括數據技術、數據治理、數據運營等數據建設、管理、使用體系,實現數據賦能。數據中臺,是新型信息化應用框架體系中的核心。
然而,對于很多人來說,數據中臺仍然是一個模糊的概念。
Gartner:數據中臺的建設方向應該處于企業數字化平臺的核心,即Gartner定義的數據和分析平臺,幫助企業的數字化平臺(客戶體驗平臺,生態系統平臺,物聯網平臺和內部信息系統)的業務用戶做出更好的決策,并在各個數字化平臺的合作孵化下形成可復用的數據分析能力。數據分析能力應該在業務端無處不在且高度自助,最終助力數字化平臺實現Gartner定義的封裝的業務能力 (Packaged Business Capability)。
Alibaba:通過OneModel、OneID、OneService,實現數據的統一,即OneData。其中OneModel統一數據構建及管理,完全消除數據二意性,實現分鐘級代碼自生成;OneID是將核心商業要素資產化,實現數據的全域連接、標簽萃取、立體像;OneService則統一數據服務,以主題式服務輸出,簡化了數據查詢。
星環科技:數據中臺讓企業高效數據驅動,適配企業主營、創新、孵化業務快速變化,支撐企業數字化轉型。通過統一底層架構,統一數據治理,統一數據服務,以及個性化數據應用,最終實現整個企業數據資產化、資產價值化、價值個性化。
因此,不同的廠商,甚至同廠商不同的團隊/人對于數據中臺的定義/主推方案都難以統一。中臺的本質:大數據?數倉?數據湖?數據治理?數據服務?云平臺?......
2、數字化轉型時代下的數字化管理需求
《“十四五”數字經濟發展規劃》要求以數據為關鍵要素,以數字技術與實體經濟深度融合為主線,加強數字基礎設施建設,完善數字經濟治理體系,協同推進數字產業化和產業數字化,賦能傳統產業轉型升級,培育新產業新業態新模式,不斷做強做優做大我國數字經濟,為構建數字中國提供有力支撐。
而企業的數字化轉型需要一個“數字大腦”的提升,包括存算能力、治理能力、服務能力、個性應用。
這意味著:
- 需要統一的數據底座
開源大數據混合架構在處理解決不同類型的業務時,需要將數據存放入不同的數據庫中,大量數據冗余。煙囪式的開發方式導致了需要通過不同的查詢方式獲取到對應的數據后再進行處理,開發復雜并且處理效率低下。
- 需要統一的數據治理
數據治理有4個問題需要解決:有什么數據,數據在哪里,數據從哪來,數據誰在用。缺乏統一的數據治理會導致數據質量低,不具備可用性、一致性、完整性、合規性和安全性。
- 需要統一的數據服務
每當有一個新的業務需求或者數據使用需求時,開發人員都需要從底層基礎數據開始加工,逐層開發,直到最后完成數據服務,整個開發周期長,并且煙囪式的開發方式導致了數據服務無法直接復用。
- 需要敏捷靈活的個性應用建設能力
新的業務系統建設需要有獨立的環境并且獲取需要的數據來進行測試與上線,整個環境準備、數據準備、應用開發的建設流程繁復,負責統建的科技部門通常成為資源瓶頸,缺乏統一的應用管理導致應用不具備可復用性。
3、數據中臺轉型之痛
但是,數據中臺如果未經過系統規劃,以業務為導向,不同業務選型不同的技術組件和工具,會導致數據中臺建設混亂。大部分業務只使用了貼源層,在貼源層上煙囪式建設,造成數據煙囪、工具煙囪、服務煙囪,從而導致開發團隊疲于應付各種技術組件的運維,和具體業務的數據模型請求,沒有精力做更有價值的工作,如技術提升、共性數據模型抽象、數據服務梳理、應用開發等。
4、數據中臺的演進
因此,數據中臺的建設一般會歷經3個版本的演進之路,從而實現“釋放數據生產力,改善數據生產關系”的目標。
數據中臺1.0:混合底層架構 + 統一工具層
這是大多數企業,特別是中小型企業下意識、喜歡采用的方式。但這個方式帶來的建設成效一般,正如徐志勝所說“年輕人總要走一些彎路,才能到達彼岸!”。
數據中臺2.0:統一底層架構,全域數據集成,統一數據底座
在貫穿整個企業的價值鏈活動中,統一底層架構提升存算效能,統一數據治理構建數據資產,統一數據服務激活數據價值,最終讓企業高效數據驅動,支撐企業數字化轉型。
數據中臺3.0:敏捷應用開發模式,貫穿價值鏈路,高效數據驅動
基于2.0已經存在的數據底座,建設統一的數據治理構建數據資產,統一數據服務激活數據價值,最終讓企業高效數據驅動,適配企業個性化主營、創新、孵化業務等數據應用的快速變化,支撐企業數字化轉型。
5、數據中臺的建設思路
5.1建設目標
那么,數據中臺應該以什么個思路推進建設呢?
建設“統一接入、統一存儲、統一治理、統一開發、統一服務”的大數據中臺,以實現多源數據的統一歸集,業務數據的統一治理,內部和生態應用的統一支撐,同時降低使用門檻,具有服務自助、數據自治、平臺自理的能力,實現三個一(一個智能化的分析運營生態、一套常態化的精益治理體系、一個集約化的數據平臺底座)為建設目標。
數據中臺應集成企業數據治理和管理、數據資產開發和運營并串聯和驅動數據共享與服務、數據開發與運維的理念和最佳實踐方法,整體功能框架應與企業數據治理體系框架一致,建成后能夠對整個數字化管理工作起到良好的技術支撐作用。
5.2建設內容
在數據中臺建設內容上,一般包括如下幾部分:
大數據基礎平臺,為整個大數據中臺提供分析計算和存儲的引擎和工具,是大數據中臺的底層功能支撐。提供分布式數據倉庫、分布式NoSQL數據庫、實時計算、數據檢索、數據挖掘等組件。
數據開發治理工具(平臺),提供數據接入、數據開發、數據治理、數據服務、數據管理等組件為大數據中臺的開發進行支撐。從而,從數據采集、數據交換、數據存儲、數據治理到數據共享與服務,為大數據中臺建立起整個數據開發共享體系。
5.2.1大數據基礎平臺
基于多模型統一技術架構,提供統一的接口層、統一的計算引擎層、統一的分布式存儲管理層和統一的資源調度層,在保障不同數據模型高性能、高可靠、高可用的同時,實現了資源配置更靈活、操作運維更簡潔易用的目標。
大數據基礎平臺能夠為整個數據中臺提供分析計算和存儲的引擎和工具,是大數據中臺的底層功能支撐。它需要為數據倉庫的構建提供高性能、高穩定、高可用的數據庫軟件,并通過提供離線處理、流處理、全文檢索、數據挖掘等組件。
根據平臺底層存儲設計和平臺業務特性分析,建議采用Hadoop生態體系進行大數據基礎平臺的方案設計。所建設的大數據基礎平臺需能夠以產品組件、引擎或工具的形式滿足包括但不限于以下海量數據的大規模處理與分析場景:離線批處理、實時流處理分析、數據并發查詢、全文檢索、數據挖掘、BI分析、交互式分析等;所建設的大數據基礎平臺需既能夠處理結構化的數據,也能夠處理非結構化、半結構化數據,滿足配置、日志、網頁、音視頻、IoT、網絡爬蟲等多源異構數據的加載和存儲;平臺需提供完整的多租戶功能,對于計算資源與存儲資源以及數據訪問資源進行統一控制管理,對于計算資源進行高效的調度管理與使用控制,對于存儲資源進行配額管理,對于數據訪問進行嚴格的權限管理;平臺需提供統一的可視化運維監控界面,對安裝、配置、監控、告警方面進行運維管理。
5.2.2數據開發治理工具
數據開發治理平臺技術架構是以Docker+Kubernetes為基礎,并且采用微服務開發框架,實現數據整合、數據開發、任務調度、數據治理、數據服務、數據商城等可視化操作工具。
5.2.3建設步驟
以星環的數據中臺產品為例,可采用如下建設步驟:
1.中臺規劃
建設統一的數據底座(統一資源管理、統一存儲管理、統一計算引擎、統一查詢語言),構建數據集市、數據倉庫、數據湖;建設統一的數據治理,構建數據資產;建設統一的數據服務,激活數據價值,最終讓企業高效數據驅動,適配企業個性化主營、創新、孵化業務等數據應用的快速變化,支撐企業數字化轉型。
2.平臺部署
通過云原生操作系統及數據管理平臺,統一納管異構處理器(X86、ARM)、GPU和異構的操作系統(UOS、中標麒麟、銀河麒麟),支持信創、國產化的要求。
通過屏蔽底層技術架構,提供統一的資源層給云產品,只暴露資源的CPU架構,為數據中臺的系統提供良好的部署環境。
3.數據接入與運營
通過企業級的數據開發與管控能力和多模態的大數據處理能力,提升企業構建數據湖、數據中臺、數據倉庫等系統的效率,更高效的實現數據的資產化和數據業務化。
4.應用支持
由業務用戶需求出發賦能業務用戶,自主敏捷建設個性應用。
5.運維管理
通過設計流程,規范資產申請流程、數據入湖流程、數據入倉流程,提供監控告警、數據安全防護功能,實現對平臺的全方位運維。
6、結尾
風正潮平,自當揚帆破浪;任重道遠,更須奮鞭策馬。
隨著數字化轉型的深入推進,數據中臺作為企業數據管理的重要基礎設施,其未來發展前景廣闊。
數據中臺的未來發展將更加注重實時化、智能化、云原生化、泛在化和安全合規等方面。企業需要緊跟技術發展趨勢,不斷升級和完善數據中臺的建設和應用,以更好地支撐企業的數字化轉型和發展。
作者介紹
涂承燁,51CTO社區編輯,省政府采購專家、省綜合性評標專家、公 E 采招標采購專家,獲得信息系統項目管理師、信息系統監理師、PMP,CSPM-2等認證,擁有15年以上的開發、項目管理、咨詢設計等經驗。對項目管理、前后端開發、微服務、架構設計、物聯網、大數據、咨詢設計等較為關注。