從數據倉庫到數據結構:數據架構的演變之路
譯文譯者 | 布加迪
審校 | 重樓
在上個世紀,從電子商務巨頭到醫療服務機構和政府部門,數據已成為每家組織的生命線。有效地收集和管理這些數據可以為組織提供寶貴的洞察力,以幫助決策,然而這是一項艱巨的任務。
盡管數據很重要,但CIOinsight聲稱,只有10%的組織認為自己擅長數據分析管理。組織認識到數據利用方面的這一重大缺口后,積極采用現代數據架構來縮小缺口。
數據架構是結構化的框架和系統,它們定義了如何在組織內組織、集成和訪問數據。架構為數據及其在數據存儲系統中的流動明確了藍圖,并確立了指導原則。
本文討論了數據架構的演變、基本原則以及采用現代數據架構有效管理組織數據的優點。
數據架構的演變
多年來,數據架構不斷發展,以適應不斷增長的業務需求。下面討論的一個值得注意的轉變是數據架構由邏輯倉庫向數據結構(Data Fabrics)轉變。
1. 邏輯倉庫
邏輯倉庫又叫數據倉庫,幾十年來一直是數據管理的基礎。這些數據倉庫是中央存儲庫,旨在存儲來自不同來源(比如事務系統、應用程序日志文件或關系數據庫等)的數據,從而提供信息的統一視圖。
通常,邏輯倉庫使用提取、轉換和加載(ETL)流程從源系統提取數據,對其進行轉換以確保一致性,并加載到倉庫中。邏輯倉庫僅用于執行查詢和分析,常常含有大量的歷史數據。
邏輯倉庫面臨的挑戰
雖然邏輯倉庫發揮了其作用,但隨著數據量增加,它們面臨幾個挑戰。一些主要的限制包括如下:
- 數據孤島:邏輯倉庫通常會導致數據孤島,即不同的部門或團隊會維護各自孤立的數據集,從而導致不一致和重復。
- 性能:由于數據必須經過多個流程和階段才能用于分析,這大大影響了數據倉庫的性能。
- 可擴展性:由于硬件限制,實施數據倉庫既復雜又昂貴。它還需要數據建模、ETL流程和數據庫管理方面的專業知識,因而更難處理急劇增加的數據。
2. 數據湖
為了應對數據倉庫的挑戰,數據湖架構在2010年被引入。雖然數據湖架構與數據倉庫非常相似,但兩者的不同之處在于數據湖還適用于半結構化數據和非結構化數據。
數據湖以自然或原始格式存儲大量數據的功能幫助我們:
- 使用來自多個數據源的數據,不用考慮數據類型(非結構化、半結構化、結構化);
- 創建數據的重點部分,以滿足特定用例的需求;
- 利用先進的分析和機器學習技術發現新的洞察力,而不受預定義模式的限制。
數據湖面臨的挑戰
數據湖的這種開放格式特性使其比數據倉庫更受歡迎。然而,數據湖帶來了挑戰,因為沒有嚴格標準化而攝取的數據導致數據庫中出現不一致。此外,存儲在數據湖中的數據需要大量的轉換和集成工作,然后才能用于復雜又耗時的分析。
3. 數據網格
數據網格架構是一種新興的方法,它為中央數據湖架構提供了另一種選擇。數據網格是由Zhamak Dehghani在2019年創造的,這種分散的數據架構按特定的業務領域組織數據。
通過引入面向領域的數據所有權,負責各領域的團隊對其數據和產品負責,從而提高數據質量和治理。
傳統的數據湖在處理大量數據時常常遇到可擴展性和性能方面的挑戰。然而,數據網格架構通過其分散的自助式數據基礎設施解決了這些可擴展性問題。
由于每個領域都可以自主地選擇最適合其需求的技術和工具,數據網格允許團隊獨立地擴展其數據存儲和處理系統。
4. 數據結構
數據結構是一種自適應、靈活又安全的集成式數據架構。它是一種架構方法和技術框架,通過提供跨各種數據源的統一集成數據視圖來解決數據湖挑戰。
通過應對數據集成、轉換和移動中涉及的技術復雜性,數據結構允許更快速、更有效地訪問數據,以便任何人都可以使用它。
現代數據架構原則
據Dataversity聲稱,數據架構原則指一系列策略,以監管用于收集、集成和管理數據資產的企業數據框架和操作規則。這些原則幫助我們創建一致、可靠又高效的數據架構,使其與組織的目標和目的保持一致。
為了有效地利用數據作為一種有競爭力的資產,以下是需要遵循的幾個常見現代數據架構原則:
- 數據質量(DQ):數據質量對于任何數據架構都必不可少;建立數據質量標準和流程可確保數據的準確性、完整性和可靠性。數據質量原則指導我們實施數據分析、清理和驗證技術,以立即識別和糾正數據問題,從而避免低劣的數據質量。有效管理和可靠的數據對于開發準確模型和可靠模式以提取寶貴的洞察力至關重要。
- 數據治理(DG):Experian數據質量報告表明,全球78%的組織受到數據治理不善的困擾,這導致人們對數據和從數據獲得的洞察力產生不信任。數據治理告訴我們,在數據生命周期的任何時候,數據消費者都應該知道數據的位置、格式、使用關系以及與數據相關的任何其他相關信息,以避免數據債務。數據治理與數據質量密切相關,使數據架構能夠確保數據完整性,并提高數據質量。
- 爭取確保一致性:這條數據原則強調面對整個組織的所有數據結構、格式和流程,確保一致性。使用標準術語和詞匯表可以確保數據在不同系統之間定義一致,從而使開發人員和非開發人員更容易就同一項目進行協作。跨組織數據表示的一致性為團隊提供了“事實的單一版本”,從而使數據和數據分析易于被公司內的廣泛用戶理解。
- 使數據成為可共享的資產:使數據成為可共享的資產強調我們將數據視為一種有價值的資源,可以在不同的系統之間共享和訪問。該原則旨在消除數據孤島,并鼓勵設計有助于高效共享數據的數據架構。這么做確保所有利益相關者全面了解公司及數據,以便于合作和明智的決策。
- 數據安全和隱私:現代數據架構必須確保數據的機密性和完整性,同時保護敏感信息免遭未經授權的訪問、破壞或濫用。
現代數據架構的特點
下面討論現代數據架構的一些特點:
- 自動化:現代數據架構使用自動化的流程、工具和技術,以優化與數據相關的任務和操作。與傳統系統不同,現代數據架構可以使用基于云的工具在數小時或數天內構建好復雜的流程。
- 適應性:現代數據架構必須靈活,以響應不斷變化的業務需求。它必須支持多種類型的用戶、查詢操作和部署、數據處理引擎以及管道等。
- 可擴展性:可擴展性是現代數據架構的一個關鍵特點,它允許我們在業務需求發生變化時快速且經濟地擴展或縮小規模。
- 具有成本效益:利用可擴展基礎設施的現代數據架構使我們得以輕松地適應未來不斷增長的需求,無需一開始過度購買硬件。此外,現代數據架構有時采用“按需付費模式”的云計算平臺,這樣我們只需為實際使用的資源付費。
現代數據架構的好處
在討論了現代數據架構及其特點之后,下面討論現代數據架構給企業和組織帶來的好處。
- 提供全面的公司視圖:由于數據集成可以實現來自組織內各種數據源和系統的數據無縫集成,因而可以一致地收集和存儲數據。這種集成確保了任何時候的數據都能提供公司的全面視圖,即“事實的單一來源”。
- 減少冗余:通過收集和協調不同的數據和數據源,數據集成減少了組織中數據字段的重疊。
- 改進的數據質量:現代數據架構包含數據清理和驗證、數據標準化、數據質量監控和修復等技術,以確保數據可靠性。
結論
數據在組織中越來越重要,這推動了數據架構的發展。從傳統的數據倉庫到現代的數據網格和數據結構方法,這些架構解決了特定的挑戰,帶來了新的機遇。
通過采用現代數據架構,組織可以得益于改進的數據質量和全面的數據洞察力,從而全面釋放數據的潛力,并在當今世界保持競爭力。
原文標題:From data warehouse to data fabric: the evolution of data architecture