終于有人把元數據講明白了
元數據管理工具是企業數據治理的重要抓手,它可以幫助企業解決數據查找難、理解難等問題,促進數據的集成和共享。
一、系統架構
從應用角度看,元數據管理平臺可分為數據源層、元數據采集層、元數據管理層、元數據應用層四層架構,如圖1所示。
1. 數據源層
企業的元數據來自多個方面:
業務系統中的元數據,例如ERP、CRM、SCM、OA等;
數據管理平臺中的元數據,例如數據倉庫、ODS、數據湖等;
數據處理工具中的元數據,例如ETL工具的腳本元數據;
數據分析工具中的元數據,例如Cognos、Power BI中的元數據;
各種半結構化數據源,例如Word、PDF、Excel等各種格式化電子文件。
2. 元數據采集層
元數據管理工具是否強大部分體現在其對各類數據源的采集能力上,支持的各類數據源類型越多,說明元數據采集能力越強大。
圖1 元數據管理平臺
元數據采集層主要通過對各類數據源的適配,實現元數據的統一采集,并將其存儲于符合CWM標準的中央元數據倉庫中。
3. 元數據管理層
元數據管理層提供了對元數據的管理、維護、查詢功能,包括元數據查詢、元數據管理、元數據版本管理、元數據變更管理、元數據適配器管理等。
4. 元數據應用層
元數據應用層提供了元數據的瀏覽和分析功能,包括企業數據地圖、元數據血統分析、元數據影響分析、元數據冷熱度分析、元數據全鏈分析、元數據模型查詢等功能。元數據管理工具可以指導企業數據資產管理的建設,支持數據質量的探查,促進企業數據標準的落地。
二、元數據采集
通過元數據管理平臺可以將分散、異構的信息資源進行統一采集、描述、定位、檢索、評估、分析,實現數據的結構化,為機器處理創造可能,從而大大降低數據治理的人工成本。
1. 采集內容
元數據采集內容主要包括業務元數據、技術元數據和操作元數據,詳細說明見表1。
表1 元數據采集內容說明
2. 采集方式
元數據采集方式主要有兩種:自動化采集和人工采集。
(1)自動化采集
自動化采集主要是通過元數據管理工具提供的各類適配器進行元數據采集。元數據適配器是基于不同數據源的元數據橋接器,不同數據源內部的元數據橋是不同的,因此沒有一個萬能適配器可以用于所有類型數據源的元數據采集。
當前MySQL、Oracle、PostgreSQL等關系型數據庫的元數據采集方式大都是通過JDBC連接各種數據源的元數據所在庫,然后通過SQL的方式查詢各數據源的元數據庫表,提取出元數據信息。JDBC就是關系型數據庫的一個橋接器。
而對于一些半結構化、非結構化元數據,則需要用到圖像識別、自然語言處理等人工智能技術,構建專業的元數據采集適配器,進行元數據的識別和采集。
在元數據采集過程中,元數據采集適配器十分重要,元數據采集既要適配各種DB、各類ETL、各類數據倉庫和報表產品,還要適配各類結構化或半結構化數據源。元數據采集適配器可以通過自動化的方式對企業各類數據源的元數據進行統一采集、統一管理。
(2)人工采集
在元數據管理實踐中,最難采集的往往不是技術元數據或操作元數據,而是業務元數據。由于企業缺乏統一的數據標準,業務系統豎井化建設,系統建設過程中沒有對業務元數據進行統一定義,所以即使通過元數據適配器將業務系統的技術元數據采集到元數據倉庫中,也很難識別這些表、視圖、存儲過程、數據結構的業務含義。這就需要采用人工的方式對現有數據的業務元數據進行補齊,以實現元數據的統一管理。
三、元數據管理
1. 元數據管理功能
市場上主流的元數據管理產品基本都包括元數據查詢、元模型管理、元數據維護、元數據變更管理、元數據版本管理、采集適配器管理、元數據接口等功能。
元數據查詢:支持按關鍵字的全文搜索,通過元數據查詢功能可以準確定位元數據。
元模型管理:基于元數據管理工具構建符合CWM規范的元數據倉庫,實現元模型統一、集中化管理,支持元模型導入與導出,支持新增、修改、權限設置等功能。
元數據維護:提供對信息對象的基本信息、屬性、被依賴關系、依賴關系、組合關系等元數據的新增、修改、刪除、查詢、發布等功能,以管理企業的數據標準。
元數據變更管理:元數據的變更需要經過審核才能發布,元數據管理工具提供元數據審核、元數據版本等功能,以支撐元數據的變更管理。
元數據版本管理:提供元數據的版本管理功能,對于元數據新增、修改、刪除、發布和狀態變更都有相應的流程,同時支持元數據版本的查詢、對比、回滾。
采集適配器管理:提供元數據采集適配器的新增、修改、刪除、配置等功能。
元數據接口:元數據管理工具提供統一的元數據訪問接口服務,一般支持REST或Web Service等接口協議。通過元數據訪問服務,支持企業元數據的共享。
2. 元數據分析功能
元數據分析功能包括數據資源地圖、血緣分析、影響分析、冷熱度分析、關聯度分析、對比分析等。
數據資源地圖:基于企業元數據生成并以拓撲圖的形式展示企業數據資源的全景地圖,方便用戶清晰直觀地查找和瀏覽企業數據資源。
血緣分析:也叫血統分析,采用向上追溯的方式查找數據來源于哪里,經過了哪些加工和處理。常用于在發現數據問題時,快速定位和找到數據問題的原因。
影響分析:功能與血緣分析類似,只是血緣分析是向上追溯,而影響分析是向下追蹤,用來查詢和定位數據去了哪里。常用于當元數據發生變更時,分析和評估變更對下游業務的影響。
冷熱度分析:也叫活躍度分析,用于評估哪些數據是常用的,哪是數據是“沉睡”的。
關聯度分析:分析不同數據實體之間的關聯關系,從而判斷數據的重要程度。
對比分析:對于選定的多個元數據或者一個元數據的多個版本進行比較,找出差異,再根據差異分析對業務的影響。
四、元數據應用
元數據是描述數據的數據,它可以幫助描述、理解、定位、查找企業的數據,支持數據的管理和使用。元數據不僅是數據治理的基礎,而且在應用系統開發、數據倉庫建設過程中也發揮著重要作用。
1. 元數據在數據治理中的應用
元數據管理是數據治理的基礎,它用于定義和描述數據、數據之間的關系,以及數據如何管理、如何使用。元數據在數據治理中的主要應用如下:
- 定義和描述業務域、業務主題和數據實體;
- 描述數據結構和數據關系;
- 描述源系統、目標系統、表、視圖、存儲過程和字段屬性;
- 定義和描述數據資產目錄;
- 定義和描述主數據模型的屬性;
- 管理數據標準;
- 描述數據質量規則和數據質量檢核結果;
- 識別和定義數據集中的敏感數據、敏感屬性;
- 血緣分析和影響分析;
- 描述數據流向,數據來自哪里、流向哪里;
- 描述數據管理,誰負責管理數據、在哪里管理;
- 描述數據的使用,誰有權使用數據、在哪里使用。
2. 元數據在應用系統開發過程中的應用
應用系統的開發一般需要3個環境:開發環境、測試環境和生產環境。在應用系統開發上線的過程中,經常會遇到在開發環境測試沒有問題的應用系統,集成到測試環境中或遷移到生產環境中就會出現問題,例如SQL腳本執行不了,缺少數據表或視圖,依賴的非空字段數據缺失,或者主外鍵關系、索引不正確等。
針對以上問題,元數據管理工具提供了一個行之有效的破解之法,如圖2所示。
圖2 元數據在應用開發過程中的應用
1)通過元數據管理工具對應用系統所涉及的數據模型、庫表結構進行規劃設計,落地系統級邏輯模型。
2)基于反向工程將元數據管理工具中的數據模型導入應用系統的開發、測試、生產等環境中,應用系統的開發可以在元數據管理工具提供的數據模型基礎之上構建物理庫表。
3)通過元數據管理工具自動化采集開發、測試、生產三個環境的庫結構、表結構、字段結構、視圖與存儲過程結構等元數據。
4)在應用系統開發過程中,從開發到測試部署之前,通過元數據管理工具的對比分析功能,迅速找到開發和測試環境中不一致的地方,支持在測試環境快速部署應用系統,并確保數據環境的一致性。
同理,應用系統在生產環境中的部署和運行也可以采用第4)步,以確保生產環境與開發、測試環境一致,支持應用系統的快速上線。
3. 元數據在數據倉庫中的應用
數據倉庫是用于數據分析、支持管理決策的系統。一個數據分析圖表的誕生并不是一帆風順的,需要經過多次的數據抽取、清洗、轉換、匯總,才能將數據的結構、數據依賴關系、數據層次關系等理清晰,統一數據口徑,將復雜的問題簡單化,讓設計者和使用者明確感知到數據的整個生命周期,以支持數據分析。
數據倉庫是一個典型的分層設計的數據架構,其分層設計反映了數據在數據倉庫中的加工處理過程。元數據作為數據倉庫的核心組成部分,主要用于記錄和管理數據在數據倉庫中的整個流轉過程,實現對數據倉庫各層級數據進行統一管理,如圖3所示。
圖3 元數據在數據倉庫中的應用
元數據在數據倉庫中的應用如下:
- 描述數據源的庫表結構、數據關系以及每個數據項的定義;
- 描述數據源中每個數據項的值域范圍和更新頻率;
- 描述數據源與數據倉庫之間的數據映射關系;
- 描述數據倉庫中有哪些數據以及它們來自哪里;
- 描述數據在數據倉庫各層中的加工處理過程;
- 元數據管理工具為數據管理者和使用者提供了理解和查詢數據的一致語言;
- 利用元數據管理工具的元數據變更和版本管理功能,管理數據倉庫的數據模型,支持將元數據恢復到某一版本;
- 利用元數據管理工具的血緣分析、影響分析等功能,對數據倉庫中的數據問題快速定位、快速查找;
- 利用元數據管理工具的開放式元數據交換標準,實現數據倉庫中數據的交換和共享。
五、總結
元數據管理工具提供了可靠、便捷的工具,能夠對企業分散的元數據進行統一、集中化管理,幫助企業繪制數據地圖、統一數據口徑、標明數據方位、控制模型變更。利用元數據管理工具可以更好地獲取、共享、理解和應用企業的數據信息,降低數據集成和管理成本,提高數據資產的透明度。
關于作者:
羅小江,用友集團助理總裁、平臺和數據智能事業部總經理、北京軟件和信息服務業協會云計算專委會副會長、中國企業財務管理協會企業風險管控專業委員會副主任委員。
石秀峰,用友集團數據治理專家、中國電子商會數據資源服務創新專業委員會受聘專家、數據質量管理智庫(DQPro)受聘專家。
本文摘編于《一本書講透數據治理:戰略、方法、工具與實踐》,經出版方授權發布。(ISBN:9787111694489)轉載請保留文章出處。