關于數據建模之建模方法思考
本文嘗試對相關數據建模方法進行解讀和全面梳理。
百度中關于數據建模的定義是“數據建模是一種用于定義和分析數據的要求和其需要的相應支持的信息系統的過程。數據建模指的是對現實世界各類數據的抽象組織,確定數據庫需管轄的范圍、數據的組織形式等直至轉化成現實的數據庫。將經過系統分析后抽象出來的概念模型轉化為物理模型后,在visio或erwin等工具建立數據庫實體以及各實體之間關系的過程。”
說起數據建模,不能不提數據架構,數據建模是數據架構的核心,數據架構又是企業架構的一部分。企業數據架構整合整個企業的數據并標準化,是企業架構的一部分,企業數據架構是一套規范和文檔的集合,主要包括企業數據模型:企業數據架構的核心;信息的價值鏈分析:使數據與業務流程及其他企業架構組件相一致;相關數據交付架構:包括數據庫架構、數據整合架構、數據倉庫/商務智能架構、文檔和內容架構,以及元數據架構。
關于企業架構比較著名的是Zachman框架,它旨為信息技術企業提供一種可以理解的信息表述。它可以對企業信息按照要求分類和從不同角度進行表示。也被稱為企業架構和企業信息系統結構架構。Zachman框架提煉和吸收了傳統方法中的一些精髓,它是一款獨立于信息企業所使用的工具的平臺。它可以根據抽象規則定義企業信息的一個方面.一個框架采用了一種六行,每行中包含36個子單元的格式,這六行包括了范圍,商業模式,系統模式,技術模式,組件和工作系統)其中有六列分別為誰,什么,什么時間,什么地點,為什么和如何做。
數據架構是用于定義數據,指導對數據資產的整合和控制、使數據投資與業務戰略相匹配的一套整體構建規范,包括正式的數據命名、全面的數據定義、有效的數據結構、精確的數據完整性規則,以及健全的數據文檔。--以上來自《DAMA數據管理知識體系指南中文版》
數據模型是定義業務實體以及運營和指導業務所需的那些事實。數據模型是一種分析和設計方法,用于定義和分析數據需求,設計滿足以上需求的邏輯和物理數據結構。企業數據模型是反映數據需求和設計的一系列規范和相關圖表,企業數據模型是企業范圍內的整合的、面向主題的數據模型,用來定義關鍵的數據生產者和消費者。這里的整合是組織中所有數據和規則都只被描述一次并無縫地相互配合。這里的面向主題是模型分解為跨多個業務流程和應用系統的有共識的主題域。主題域關注最至關重要的業務實體。這里的關鍵是數據對組織高效運作和決策制定至關重要。--以上來自《DAMA數據管理知識體系指南中文版》。注意這里的提到的整合和面向主題和數據倉庫中有所不同。
在DAMA中關于企業數據模型是分層次的,核心是主題域,其下是概念視圖和邏輯視圖,并且企業數據模型是自上而下構建的。
主題域模型,是一系列主要主題域的列表,共同表達企業最關鍵領域。企業數據模型通過主題域來組織其余的模型層次;主題域是數據管理制度和數據治理的重要工具,定義了基于主題域的數據管理制度團隊的責任范圍。
主題(Subject)是在較高層次上將企業信息系統中的數據進行綜合、歸類和分析利用的一個抽象概念,每一個主題基本對應一個宏觀的分析領域。在邏輯意義上,它是對應企業中某一宏觀分析領域所涉及的分析對象。例如“銷售分析”就是一個分析領域,因此這個數據倉庫應用的主題就是“銷售分析”。
面向主題的數據組織方式,就是在較高層次上對分析對象數據的一個完整并且一致的描述,能刻畫各個分析對象所涉及的企業各項數據,以及數據之間的聯系。
電商主題域
電信運營商主題域
電網主題域
上圖均為從網絡上收集的主題域,可以看出企業主題的構建是個極其復雜的系統工程,企業主題是分層,比如國網將企業主題分為12個主題域,在其下又包含65個二級主題域;再則,主題域構建的來源在哪里呢?首先是企業內部需求驅動,但如果在短期內構建呢?企業內部需求顯然是來不及的,這時候要考慮引入國際標準和行業標準,當然財務的有財務標準,GIS的有GIS標準,設備的有設備的標準,整合起來還是有很大困難的,但至少也比從頭到尾全部構建來的快,另外一個捷徑是借鑒其他同類企業的標準了。
企業概念數據模型,企業數據模型的下一個層級是一系列針對每個主題域的概念數據模型圖表。是定義業務實體及這些業務實體之間的關系,業務實體是主要組成部分,是企業熟悉并感興趣的那些事物、人員、地點的概念和類別。業務實體的一個例子是實例。概念數據模型圖一般不描述業務實體的數據屬性,概念數據模型可能會包括實體之間多對多的業務關系,可以促進人們對業務的理解,以及有利于語義上的一致性,可以作為框架指導開發整合的信息系統,既包括交易處理系統,也包括商務智能分析系統。
總體概念模型
客戶概念模型
企業邏輯數據模型是在概念模型之下,增加了更多細節來反映每個實體的關鍵數據屬性,企業邏輯模型識別每個業務實體實例所需的數據,關鍵數據屬性代表了通用的數據需求以及那些被廣泛共享的數據屬性的標準定義,關鍵的數據屬性是指如果缺失則導致企業無法正常運作的屬性。企業邏輯模型視圖反映企業視角,是中立的且不依賴于任何特定的需求用途和應用背景,企業邏輯數據模型只應該包括所有業務定義的詞匯表,和其他相關聯業務實體機器數據屬性的元數據。
在概念模型基礎上,再進行企業級邏輯數據模型的建設,但企業級邏輯數據模型一般都包含幾千上萬的個業務實體及其復雜的關系,這對于從概念模型到邏輯模型的構建是個巨大的挑戰。
后文再探討一下物理模型,范式模型和維度建模以及數倉建模的相關方法。
本文轉載自微信公眾號「 追夢IT人」,可以通過以下二維碼關注。轉載本文請聯系 追夢IT人公眾號。