數字化轉型中數據建模的問題分析與應對策略
數字化轉型是企業利用先進技術優化現有業務模型,或創建新的業務模型,以用戶為中心,以數據為驅動,打破傳統的組織效能邊界和行業邊界,提升企業競爭力,為企業創造新價值的過程。數據作為新型生產要素,在數字化轉型中的作用不可忽視。
說到數字化,就要提到信息化。信息化是通過各種信息系統實現業務流程從線下到線上的遷移,從而提升生產效率和業務效率、降低成本、提高可靠性。數字化是基于信息化系統的運行數據,通過人工智能等技術,對企業的運營作出決策支撐。從數據的角度來看,數據是信息化過程的“副產品”,卻是數字化過程中支撐決策不可或缺的“原材料”,是數字化轉型的基礎。因此,數據質量的高低,在一定程度上決定著數字化轉型的成敗。
數據建模是對現實世界各類數據的抽象組織,確定數據庫需管轄的范圍、數據的組織形式等,直至轉化成現實的數據庫。數據模型是源端系統的數據結構,也是提升數據質量的關鍵。數據建模的目標是創建一個準確、一致和可理解的數據模型,以便支持數據管理、數據分析、系統設計和業務決策等活動。通過數據建模,可以幫助組織更好地理解和利用數據,提高數據質量和數據價值,支持數字化轉型和業務創新。
企業數據建模的現狀
信息系統建設處在“一應用一系統”狀態
在信息化建設階段,信息系統往往由業務部門各自牽頭建設,導致一項應用建設一個系統,系統之間彼此互不相關。
如圖1所示,某企業有3個獨立的業務系統A、B、C,都是為滿足不同的業務需求而獨立開發的,擁有獨立的業務數據和客戶數據。從企業視角出發,各個系統中的客戶數據屬于公共數據,應可供各個業務系統共享,但由于各個系統獨立設計,很容易出現冗余、不一致,甚至沖突的情況。
圖1 企業信息化建設中的“一應用一系統”架構
如圖2所示,3個業務系統的客戶表分別為A客戶表、B客戶表和C客戶表,由于業務需要和獨立設計的原因,A客戶表的主鍵是自定義的ID,B客戶表的主鍵是統一信用代碼,C客戶表的主鍵是銀行賬戶。每個數據表中的地址信息也不相同,A客戶表保存的是注冊地址,B客戶表保存的是省、市、街道拆分開的地址格式,而C客戶表保存的是通信地址。從整體看,雖然每個系統本身運行穩定,但是系統間的集成和數據共享非常難。
圖2 3個業務系統客戶表截圖
這種情況不僅造成資源浪費和運維成本大幅提升,還很容易形成數據“孤島”。每個應用系統通常有自己的數據存儲和管理機制,導致數據在不同系統之間存在孤立、難以共享和集成的問題,難以保證數據的一致性和準確性,也限制了企業對數據的綜合分析和利用。在這種情況下,如果需要實現不同系統之間的數據共享和業務流程集成,勢必面臨較高的技術復雜性和難度,需要耗費大量的時間、資源。
缺乏規范數據建模的數據標準
數據標準是保障各業務系統對數據統一理解、統一使用、統一交換的一致性、準確性、完整性的規范性約束,其中包括對業務、技術和管理等數據屬性的統一定義。數據標準主要解決數據在共享、融合、匯集應用中因格式不一致造成的數據處理困難。缺乏數據標準的數據建模將導致數據不一致、數據重復和冗余、數據集成困難、數據可理解性與可維護性差等問題。
在圖2所示的場景中,由于缺乏基于數據標準的統一管理,3個業務系統客戶數據的屬性、約束關系和命名規則等都存在不同程度的差異。隨著業務的發展,企業決定研發合同管理系統,對所有的客戶數據進行統一管理(如圖3所示),需要集成那些在各自系統中維護良好的客戶數據,卻發現要進行繁重的數據清洗工作,其中有些數據甚至無法使用。
圖3企業合同管理系統與業務系統關系
數據建模過度依賴平臺能力
在數字化轉型的過程中,很多企業已經逐漸意識到“一應用一系統”模式的弊端,開始逐步采用統一的平臺(例如致遠互聯的COP平臺以及用友的BIP平臺),利用低代碼或者無代碼的開發模式打通應用系統,降低集成成本。這些平臺都通過表單、主表、明細表等概念來提供數據建模,因此只能進行邏輯建模,而不能進行物理建模,實體間的約束關系只能通過應用來限制。當一項應用需要使用另一項應用中的實體表時,經常會因為不了解其約束關系而導致數據混亂,直接影響統計分析的準確性。
忽視概念模型建模
數據建模分為3個階段:概念模型建模、邏輯模型建模和物理模型建模。在實際生產中,由于業務人員對信息化技術了解不多、領域專家介入不深,概念模型建模往往被忽略,導致數據建模從概要設計階段的邏輯模型建模開始。這必然產生業務人員和技術人員之間對業務實體、屬性和關系的描述不一致,以及技術人員對業務的了解不全面甚至是理解錯誤的現象,最終導致數據缺失、冗余或不一致等問題。
應對措施
數據建模過程中有很多技術細節需要注意,而以下三點尤為重要。
先有數據標準再進行數據建模
在進行數據建模之前,首先需要制定數據標準,用來指導和約束數據建模。數據標準包括數據命名規范、數據類型、數據格式、數據約束等方面的規定。即便是分批建設的彼此獨立的業務系統,也可以使用統一的數據標準以確保不同業務系統間數據的一致性和可集成性。
同時,數據建模也可以促進數據標準的優化和改進。隨著數字化進程的深入,產業各方可能發現有更多的數據項需要被納入數據標準范疇,進而推動數據標準體系的完善。
在圖3的場景中,如果企業建立了數據標準,即便3個獨立的業務系統存在數據冗余,但由于數據具有統一的屬性、約束條件,僅需要簡單的數據治理就可以抽取3個業務系統的數據為新的業務系統提供服務,如圖4所示。
圖4 執行統一數據標準后的數據建模
基于數據底座進行數據建模
雖然數據標準可以解決數據一致性問題,但是不能消除系統間的數據冗余。因此,在圖4所示的業務場景中,合同管理系統在使用系統A、B、C產生的客戶數據前,仍然需要進行數據整理,以去掉冗余數據。
如果在整個架構中存在多個與合同管理系統類似的數據消費者系統,那么類似的數據治理操作就要重復多次。另外,當有新的數據生產者系統加入時,所有的數據消費者系統都要修改對應的集成接口,這就增加了集成的工作量。為此,很多企業引入了數據底座,用于集中管理企業數據資產,打通數據通道,在數據標準的統一約束下確保企業內部數據的一致性和完整性。
數據底座在數字化轉型中起著至關重要的作用。通過在數據底座基礎上進行數據建模,可以獲得企業統一的數據視圖,整合不同數據源的數據,為業務分析和決策提供一致的數據基礎。圖1業務場景在引入數據底座后的架構如圖5所示。
數據生產者系統A、B、C的數據按照集成規則存儲到數據底座,通過對數據底座中的整體數據進行數據建模,可以明確數據間的關系、屬性和約束,幫助企業更好地理解和管理數據。消費者系統根據需要通過數據底座提供的服務使用數據,消費者系統不用關心數據的來源和數據源發生的變化。當有新的數據生產者系統加入時,只要做好與數據底座的對接,就不會影響數據消費者系統。
圖5引入數據底座后的企業各系統架構
可以看出,上述整個數據流程都依賴于數據標準。
循序漸進地進行數據建模
數據建模金字塔如圖6所示,三個階段是從簡單到復雜、從抽象到具體、從需求描述到最終實現的循序漸進的過程,缺一不可。
圖6數據建模金字塔
概念設計是數據建模的第一步,是需求分析中后期要由業務人員和領域專家完成的任務。通過描述業務中實體、屬性和它們之間的關系,確定業務規則和數據實體之間的關聯,以加深對需求的理解,也為后續階段的工作奠定基礎。
邏輯模型是數據庫設計人員對概念模型的進一步細化,定義數據實體、屬性、關系和約束,確保數據的一致性、準確性和安全性。概念模型和邏輯模型主要是針對業務需求進行抽象和設計,不依賴于具體的平臺和數據庫選型。
物理模型是由數據庫管理員和開發人員將邏輯模型轉化為數據庫實現的具體方案,定義數據庫表、字段和索引等細節信息,同時還要考慮數據庫的性能優化、存儲規劃、備份與恢復方案、安全策略,為開發人員提供數據庫編碼和實現的依據。
高質量的數據建模是企業數字化轉型成功的關鍵一步,它可以統一并整合企業數據,為企業決策提供高質量的數據支撐。在此基礎上,結合人工智能技術,幫助企業實現從業務決策到數據決策的數據驅動的數字化轉型。