如何選擇最適合你的數據目錄
數據目錄已成為企業數據管理策略的重要組成部分,但選擇合適的數據目錄并不是簡單的事情。在做決定前,必須了解市場上的各種選項以及應優先考慮端事項。
數據目錄是元數據管理工具,可幫助企業查找和管理大量數據。數據目錄背后的想法是將元數據集中在一個位置,并提供整個數據庫中數據的完整視圖。它還包含有關每個特定數據點位置的信息。
在選擇供應商之前,企業需要了解這個市場以及他們的需求和期望。本文可幫助你選擇最適合你企業數據的數據目錄。
為什么數據目錄很重要
Gartner公司高級研究主管Joe Maguire認為,企業對數據目錄工具的需求主要源自三個方面。
企業使用數據目錄的第一推動因素是元數據管理變得越來越困難。數據架構更加復雜,并且數據量太大,以至于無法手動收集和描述元數據。
Maguire說:“即使是旨在簡化架構的技術(例如數據湖提供單個架構組件用于存儲各種數據)也可能使元數據管理變得復雜。”
面對數據量不斷增長,有些企業并沒有擴大其元數據管理。
Maguire說:“正是由于忽略數據湖中的元數據,人們不得不創造出‘數據沼澤’的術語,以描述數據混亂而無人可清理的數據湖。”
第二個因素是,隨著企業追求自助服務分析和數據科學,對數據治理的需求也在增加。這也導致對數據目錄的更高需求。元數據是數據治理的基礎,數據目錄使訪問元數據更加容易。
第三個因素是這個市場已經證明自己的價值。供應商的產品已經變得越來越多樣化,并可真正幫助需要數據治理和元數據管理的企業。自動元數據發現、數據沿襲和對數據管理活動的支持等功能,使數據目錄對企業具有吸引力。
數據目錄類別
根據Maguire的說法,在討論數據目錄時,最重要的區別是了解企業數據目錄和嵌入式數據目錄之間的差異。
Maguire說:“企業數據目錄旨在整合來自各種元數據孤島的元數據,而嵌入式數據目錄是其他產品中提供的元數據管理功能集。”
企業數據目錄選項可以是DBMS、數據倉庫或BI平臺。嵌入式數據目錄則形成元數據孤島–企業數據目錄試圖整合的元數據孤島。
下面是最常見數據目錄:
獨立數據目錄。這些數據目錄具有通用性、獨立性和面向業務的特點,可廣泛用于數據管理、分析和數據治理。此選項適用于必須對多個用例進行數據分類的企業。目前提供獨立數據目錄的供應商包括Alation、Collibra、Informatica和Data.World。
提供目錄功能的元數據管理工具。現代數據目錄主要針對數據管理員和數據分析師,他們可自動執行元數據管理任務。Gartner在有關增強數據目錄的最新報告中警告說,有些供應商將其元數據管理工具重新命名為數據目錄。你應該自己做研究以確保你選擇正確的工具。
具有數據目錄功能的Data Lake支持工具。隨著企業繼續構建數據湖,他們需要可搜索且可重復使用的數據。這導致供應商在其產品中增加數據目錄方面。Zaloni和Cloudera Navigator都屬于此類。那些因采用數據湖而感到畏縮的企業可考慮這些供應商。
當你的企業確定選擇企業數據目錄或嵌入式數據目錄后,你就可以繼續尋找功能。好的數據目錄應該提供很多功能。
好的數據目錄應該提供什么?
作為企業,應該由你自己的團隊來確定哪種產品與你的數據最相關。供應商的數據目錄具有某些共同特征,必須首先對其質量進行評估。
數據目錄的重要功能在于其搜索功能。如果沒有靈活的搜索和過濾器選項,用戶將無法找到用于數據工程和分析目的數據集。數據目錄還必須從大量關聯數據資產收集元數據。它還必須提供自動化和數據智能,以處理與數據目錄相關的手動任務。人工智能和機器學習可通過推薦來增強數據。
數據目錄還應該可連接到企業內數據架構的各個組件。Maguire說,企業數據目錄可以被視為元數據的數據倉庫。數據目錄從元數據孤島整合元數據,類似于數據倉庫從數據倉孤島中整合數據。
數據目錄另一個重要功能是提供連接器,以從各種組件(例如DBMS、BI工具和數據倉庫)獲取元數據。數據目錄支持以下四種類型的元數據:
- 技術元數據,描述數據模型、存儲模式、文件布局和API。
- 操作元數據,描述數據沿襲、性能和對數據各種操作所產生的日志文件輸出。
- 業務元數據分為兩類。一種是描述業務的元數據,例如業務數據詞匯表的內容。另一個是描述業務角色如何與數據資產交互,例如數據管理員、數據保管者、自助服務分析師,其中數據管理員負責特定數據資產。
- 社交元數據構成知識,例如對某些數據資產的證明或認可,或其他用戶對數據目錄中條目生成的注釋。
常見供應商
市面上有很多企業和嵌入式數據目錄,這些選項通常具有相似功能和重疊功能。下面是對數據目錄選項的簡短比較。
- Alation數據目錄。Alation是獨立的數據目錄工具,使用AI來捕獲企業內數據的背景信息。它被認為是所有員工都可易于使用的選項。
- Qlik目錄。Qlik的數據目錄還具有自動化的數據準備和元數據工具,以協助原始數據的轉換。它還具有數據市場,允許用戶搜索和發布數據集。
- Cloudera數據目錄。Cloudera的數據目錄使用戶可以發現、記錄和監視其數據。同時,此產品允許用戶審核訪問并保護敏感信息,以避免未經授權訪問。
- Collibra目錄。該選項是另一個獨立的數據目錄,它是基于業務最終用戶而構建。它是可搜索的存儲庫,使查找和理解數據更加容易。它還允許管理員記錄角色和職責。
- IBM Watson知識目錄。這是用于人工智能模型治理以及數據的開放智能數據目錄。此選項為用戶提供實時數據虛擬化支持、動態數據屏蔽和自動元數據生成。
- Oracle云基礎架構。Oracle產品提供了搜索和探索選項,使用戶可以通過多方面的搜索和過濾器從各種不同的來源中查找數據,并收集有關數據資產的技術元數據。