新數據倉庫模式設計有利于企業用戶
業務分析師的目標之一是用數據講述完整的故事,提供有關業務如何進行或如何改進的見解。這是通過商業智能儀表板來實現,該儀表板從數據倉庫提取數據。
當嘗試關聯數據倉庫中不同儀表板的信息時,企業用戶開始面臨挑戰。這通常需要求助于數據工程師,數據工程師需要在數據倉庫中創建數據集市–由多個星形圖組成,而這可能導致數據丟失或數據重復。
這種復雜性促使Francesco Puppini探索可更好地支持最終用戶的數據倉庫模式設計。他在與Bill Inmon合著的《The Unified Star Schema: An Agile and Resilient Approach to Data Warehouse and Analytics Design》一書中探討了這一問題,該書由Technics Publications出版。
什么是星型圖和雪花圖?
在討論Unified Star Schema之前,讓我們看一下星型模式本身。
星型模式是最簡單的尺寸建模形式。該模式由事實和維度組成。事實以事件為中心,而維度則引用與事實有關的信息。維度以類似于星型的方式與事實相關。
此外,雪花模式將維度與其他維度相關聯并繼續分支。Puppini認為,當數據沒有問題時,雪花模式最適合。
他說:“但數據總是有問題。“
Unified Star Schema的好處
Puppini說:“當你將數據寫入數據庫時,它是按某種方式組織。但是當你閱讀它,最好以一種不同的方式組織它。”
對于最終用戶而言,星型和雪花模式的主要挑戰是,企業用戶在尋找見解方面缺乏獨立性。為了使用此類數據倉庫模式設計對數據執行復雜查詢,最終用戶需要數據工程師手動關聯數據表。Puppini說,這就像每次需要一杯水時都叫水管工一樣。此外,當關聯不兼容表時,整合將事實表與聯接通常會導致重復數據。
他說,數據重復的核心問題是扇形陷阱。當兩個或多個一對多聯接鏈接時,就會發生扇形陷阱。這會與數據產生沖突,從而導致數據重復。從歷史上看,這是通過手動重復數據刪除或這些臨時連接解決。
Unified Star Schema的關鍵是連接事實表的橋接。在書中,Puppini將橋接與電話總機進行比較。在Unified Star Schema中,橋接處于中心位置,所有事實表和維度表圍繞它,每個表都連接到該橋接。然后,這限制了對數據的轉換次數。
Puppini說:“現在的數據倉庫問題是它們不堪重負,正在過度轉換。”
通過使用橋接并執行聯合而不是聯接,這使用戶可以訪問數據而無需進行轉換。
他說:“你轉換數據越多,你就越會陷入混亂。我只是采取最少步驟以將信息整合在一起。”
請點擊此處查看由Technics Publications出版的Bill Inmon和Francesco Puppini撰寫的《The Unified Star Schema》的摘錄,以了解有關Unified Star Schema的部署和用例的更多信息。