數據湖治理:優勢、挑戰和入門
成功的數據治理計劃會利用政策、標準和流程來創建高質量數據,并確保在整個組織中正確利用這些數據。數據治理最初側重于關系數據庫和傳統數據倉庫中的結構化數據,但后來情況發生變化。如果你的企業擁有數據湖環境,并希望從中獲得準確的分析結果,那么你還需要部署適當的數據湖治理,作為整體治理計劃的一部分。
但數據湖對企業數據管理的所有領域(包括數據治理)帶來各種挑戰。下面我們將探討一些主要的治理挑戰,以及有效治理數據湖的好處。不過,首先讓我們定義什么是數據湖:這是指一個擁有大量原始數據的數據平臺,通常包括各種結構化、非結構化和半結構化數據類型。它通常建立在Hadoop、Spark和其他大數據技術之上。
雖然大多數數據倉庫將數據存儲在關系表中,但數據湖使用扁平架構。每個數據元素都被分配一個唯一標識符,并用一組元數據標簽進行標記。因此,數據湖不像數據倉庫那么結構化。數據通常以其原始格式保留,并根據特定分析用途的需要進行分類、整理和過濾,而不是在將其加載到數據湖中時。
數據湖與數據沼澤
如果數據湖沒有得到很好的管理和治理,它可能會變成沼澤而不是湖泊。數據在沒有適當監督和記錄的情況下被轉儲到平臺中,使數據管理和治理團隊難以跟蹤數據湖中的內容。這可能會導致數據質量、一致性、可靠性和可訪問性方面出現問題。
因此,數據科學家、數據工程師和其他最終用戶可能無法為分析應用程序找到相關數據。更糟糕的是,數據沼澤可能會導致分析錯誤,并最終導致糟糕的業務決策。數據安全和隱私保護可能無法正確應用,從而使企業的數據資產及其商業聲譽面臨風險。為了避免這種沼澤地情況,企業必須管理數據湖環境。
數據湖治理的好處
有效的數據治理使企業能夠提高數據質量,并最大限度地利用數據進行業務決策,這可以帶來運營改進、更強大的業務戰略和更好的財務績效。這個道理同樣適用于治理數據湖,就像它與其他類型的系統一樣。數據湖治理提供的具體好處包括:
- 增加對相關數據的訪問以進行高級分析。在管理良好的數據湖中,數據科學家和分析團隊的其他成員更容易找到機器學習、預測分析和其他數據科學應用所需的數據。
- 為分析用途準備數據所花費的時間更少。雖然數據湖中的數據通常以原始形式保留,知道特定應用程序需要它,但在受監管的環境中可以縮短數據準備過程。例如,前期數據清理減少以后修復數據錯誤和其他問題的時間。
- 降低IT和數據管理成本。通過防止數據湖失控,可以減少所需的數據處理和存儲資源。通過提高數據準確性、整齊度和一致性,還可以降低總體數據管理需求。
- 提高敏感數據的安全性和監管合規下。數據湖的常見用例是幫助營銷和銷售。因此,他們通常包含有關客戶的敏感信心。數據湖的強大治理有助于幫助此類數據得到適當保護,并且不會被濫用。
數據湖治理挑戰
數據治理的配套數據管理學科包括數據質量、元數據管理和數據安全,所有這些因素都會影響數據湖治理及其挑戰。以下是數據湖部署中遇到的五個常見數據治理挑戰。
(1) 識別和維護正確的數據源。在很多數據湖實施中,源元數據沒有被捕獲或根本不可用,這使得數據湖內容的有效性值得懷疑。例如,記錄系統或數據集的業務所有者沒有被列出,或者明顯冗余數據可能會給數據分析師帶來問題。至少,應記錄數據湖中所有數據的源元數據,并提供給用戶以深入了解其來源。
(2) 元數據管理問題。元數據為數據集的內容提供背景信息,使數據在應用程序中易于理解和使用,元數據是重要組成部分。但是很多數據湖部署沒有將正確的數據定義應用于收集的數據。此外,由于原始數據通常加載到數據湖中,很多企業沒有部署步驟來驗證數據或應用組織數據標準。由于缺乏適當的元數據管理,數據湖中的數據對分析沒什么用處。
(3) 數據治理和數據質量缺乏協調。不協調數據湖治理和數據質量工作可能會導致低質量數據進入數據湖。當數據用于分析和推動業務決策時,這可能會導致結果不準確,從而導致對數據湖的信心喪失以及整個組織對數據的普遍不信任。有效的數據湖實施需要數據質量分析師和工程師與數據治理團隊和業務數據管理員密切合作,以應用數據質量策略、分析數據并采取必要措施來提高其質量。
(4) 數據治理和數據安全缺乏協調。在這種情況下,未在治理過程中正確應用的數據安全標準和策略,可能會導致訪問受隱私法規保護的個人數據和其他類型的敏感數據時出現問題。盡管數據湖旨在成為相當開放的數據源,但仍需要安全和訪問控制措施,并且數據治理和數據安全團隊應共同努力處理數據湖設計和加載過程以及持續的數據治理工作。
(5) 使用相同數據湖的業務部門之間的沖突。不同部門可能對相似數據有不同的業務規則,這可能導致無法協調數據差異以進行準確分析。擁有一個強大的數據治理計劃,具有數據策略、標準、程序和定義的企業視圖,包括企業業務術語表,可以減少多個業務部門使用一個數據湖時出現的問題。如果企業有多個數據湖,則每個數據湖都應包含在數據湖治理流程中,并為其分配業務數據管理員。
如何開始管理數據湖
與其他類型系統中的數據治理一樣,數據湖治理的常見初始步驟包括:
- 記錄管理數據湖的業務案例,包括數據質量指標和其他衡量管理工作收益的方法。
- 尋找高管或業務發起人,以幫助為治理工作獲得批準和資金支持。
- 如果你還沒有適當的數據治理架構,請創建一個架構,其中包括治理團隊、數據管理嚴以及數據治理委員會-由業務主管和其他相關數據所有者組成。
- 與治理委員會合作,為數據湖環境制定數據標準和治理政策。
另一個好的初始步驟是構建數據目錄,以幫助最終用戶定位和理解存儲在數據湖中的數據。或者,如果你已經擁有其他數據資產的目錄,則可以將其擴展為包括數據湖。數據目錄捕獲元數據并創建可用數據的清單,用戶可以搜索以找到他們需要的數據。你還可以在目錄中嵌入有關你組織的數據治理策略的信息,以及強制執行規則和限制的機制。
總之,通過在設計、加載和維護數據環境中涵蓋強大的數據治理以及元數據管理、數據質量和數據安全流程,可以顯著提高數據湖的價值。經驗豐富的專業人員在所有這些領域的積極參與也至關重要。否則,你的數據湖可能確實會變成更多的數據沼澤。