數據湖和中央數據倉庫的設計
設計數據湖或中央數據倉庫是許多大型組織的主要職能,這些組織每天處理數百萬筆交易,并對這些交易進行進一步的報告、預測或機器學習項目分析。
為了將所有來自源系統(我們稱之為“上游”)到其他業務應用(所謂“下游”)的數據點整合在一起,已經成為數據智能或商業智能團隊的一個不同的工程奇跡。在完成所有這些練習和從上游到下游的緊密依賴后,管理數據變得越來越難以通過所有數據管道進行檢查。
在大多數組織中,我們可以看到以下數據流程是從如下所示開始的:
1*9TnwkgYimy_TGGaXp8-B3A.png
新應用程序或多或少是按領域驅動設計,這些應用程序與更特定于應用程序的數據非常緊密,這給數據庫工程團隊帶來了新的挑戰,要為滿足所有方面的目的提供有組織的解決方案,如下所示:
1*qgjpz13zZYocxeFfx4QJDw.png
數據網格(Data Mesh)具有相同的功能集,以滿足領域驅動的分散化的目的。為了設計數據網格,強調遵循4個原則,并針對組織中不同團隊提供了不同的責任。
1*0kH8QBl-Y9SnTE6g-Azl_w.png
領域數據的所有權
由于我們采用了領域驅動的分散化方法,因此在數據網格中,數據圍繞著特定的業務領域進行拆分,就像我們在微服務中所做的那樣。在數據領域中也是如此,將存在一個負責跟蹤活動性的數據領域團隊。數據領域團隊可以使用數據創建數據產品,其他數據領域團隊可以使用這些數據產品。
數據作為產品
在數據網格中,數據被視為可以由一個數據領域團隊發布并可以被另一個數據領域團隊消費的產品。數據領域團隊必須以產品思維來考慮數據,他們對數據質量、表示和內聚性負完全責任。此外,數據領域團隊必須與數據網格啟用團隊合作,以獲取數據產品的資格。
自主驅動的數據平臺
數據網格中的所有數據都可以在公司內部任何地方使用。因此,可以在短時間內創建新的報告或數據產品,并傳播到隨后的數據產品。這帶來了治理問題,因為數據的控制可以通過治理政策進行。
聯合治理
治理通過不同的數據政策和安全政策進行處理,由數據領域團隊根據數據發布和數據消費受到的不同合同來執行。然而,如果政策未正確定義,治理可能是數據的一個問題點。
數據網格架構
數據網格具有多種架構,可以使用不同的語言和它們的框架進行定義。這完全取決于團隊特定的實現,這些實現用于實現數據產品。
1*0G9TQLHLCSs6jLX_z20CPQ.png
數據網格的路線圖可以由不同團隊共同設計和實施。每個團隊都有維護數據網格的責任。
數據網格啟用團隊
啟用團隊是數據網格架構的主要團隊,用于與數據領域團隊進行連接。他們為數據產品創建原型和文檔。他們指導數據領域團隊遵循定義的數據產品規則,并幫助他們為數據網格授予數據產品。
(1) 數據平臺團隊
平臺團隊主要維護基礎設施,以維護數據對數據網格的可用性。他們用于維護所有數據產品的數據目錄。數據目錄可以是其他數據領域團隊查找數據網格并設計他們的數據產品的元數據。數據平臺團隊還擁有數據存儲、監控和訪問數據網格的矩陣。
(2) 數據領域團隊
數據領域團隊可以是創建應用程序或數據產品的工程或開發團隊。數據產品是操作數據、分析功能和來自其他數據產品的數據的組合。其他數據產品也可以使用類似的方式。
(3) 行業團隊
行業團隊擁有數據治理政策,并負責創建數據、安全和其他合規政策。定義政策有助于定義數據網格中數據產品的可訪問性。
數據網格是新的現代化數據架構模式,可以在不久的將來在企業級別實施。數據網格架構中有很多值得探索的地方。