簡述數據倉庫,數據集市,數據湖泊、和運營數據存儲
數據倉庫
互聯網和大規模技術開發使得當今世界中數據的爆炸性增長。企業決策者希望研究數據之間的關系,點擊數據的隱藏功能并分析和探索更深層次的數據。
但在企業的不同數據庫之間,數據共享是不可能的,由于同一企業中的多個數據庫,數據庫之間的集成具有大量挑戰,特別是在巨大數據的合并和存儲方面
操作數據庫可以分散在Microsoft SQL Server數據庫或Oracle數據庫周圍,數據倉庫目標是提取多個數據庫并累積從數百個千兆字節的數據進行處理,以便根據所需格式,進程進入必要的轉換,清潔,清潔,最后將數據加載到倉庫中。
根據IBM研究人員(Barry devlin和Paul Murphy)“數據倉庫是一個主題導向的,集成,相對穩定的數據收集,反映了歷史變化,用于支持管理決策”
- By Nature,數據倉庫用于補充管理的決策,它被用作業務數據操作的分析,但它與企業的運營數據庫不同。
- 數據倉庫是將多個異構數據源的有效集成和管理到一個存儲庫中,它是在歷史數據方面組織的,并且在數據倉庫中,不需要對數據的交易修改。
在數據倉庫出現后,企業的信息需求已經遠離關系數據庫到決策支持系統。該決策支持系統實際上是我們稱為商業智能(BI)。
數據庫
與數據倉庫數據集合的比較可以被理解為“小數據倉庫”,它不是根據異構數據庫,而是僅在單個操作數據庫實例上,數據范圍不夠寬。
數據集市專門針對數據集市的特定業務運營(銷售,生產)用戶快速找到所需的數據,在數據集市中,您只需要設計和構建數據庫表,填充數據庫表與相關數據,決定誰可以訪問數據集。
數據集市可分為兩種類型:
- 第一個是獨立數據集市,ETL架構和數據庫的來源屬于一個實體。
- 第二個是依賴數據集市,在這種類型的數據集市中,進入數據主要來自其他來源,主要來自數據倉庫。Datamart可以簡單地為用戶提供數據倉庫的信息子集。
數據湖
它與自然狀態的流動水有多像流動的水,數據流從多個源系統到這個湖,用戶可以獲得他們想要的特定數據,驗證,彌補和其他雙務任務將在數據湖外執行。
數據湖可以以以下功能實現的方式開發:
- 它將導入來自源系統的所有數據,源系統沒有數據丟失。
- 數據存儲在其原始狀態下,而不會轉換原始數據。
- Data Lake Schema準確符合數據分析要求。
- 數據湖有鎖,控制和治理
操作數據存儲
操作數據存儲(ODS)是用于交易處理數據的數據庫,ODS中的數據主要是原始數據,來自ODS的數據總是向數據倉庫或數據集市移出以進行進一步處理。在ODS中,您可以查詢數據,只能訪問業務運營中的最新開發
原文鏈接:
https://medium.com/dataprophet/data-warehouse-data-mart-data-lake-and-operational-data-storage-3a69f8701466