一文讀懂數據標準中的屬性定義與元數據的區別
最近在做項目過程中發現一個問題:有些同事經常把指標數據標準中的業務屬性、技術屬性、管理屬性當做業務元數據、技術元數據、管理元數據或者在數據指標標準定義的時候直接分為業務元數據、技術元數據和管理元數據。這就導致無論是信息管理的技術部門還是經營管理的業務部門總是一頭霧水,難以厘清。下面我們談談指標數據標準中的屬性和元數據類別的聯系和區別。
一、元數據的定義及分類
參照國際數據管理協會《DMBOK數據管理知識指南》的說法,我們看看元數據及分類。
元數據最常見的定義是“關于數據的數據”。元數據通常分為三種類型:業務元數據、技術元數據和操作元數據。
在信息技術之外的領域,如在圖書館或信息科學中,元數據被描述為不同的類別:
1)描述元數據(Descriptive Metadata)。描述資源并支持識別和檢索,如標題、作者和主題等。
2)結構元數據(Structural Metadata)。描述資源及其組成組件之間的關系,如頁數、章節等。
3)管理元數據(Administrative Metadata)。用于描述管理生命周期的元數據,如版本號、存檔日期等。
這些類別有助于了解定義元數據需求的過程。
(1)業務元數據
業務元數據(Business Metadata)主要關注數據的內容和條件,另包括與數據治理相關的詳細信息。業務元數據包括主題域、概念、實體、屬性的非技術名稱和定義、屬性的數據類型和其他特征,如范圍描述、計算公式、算法和業務規則、有效的域值及其定義。業務元數據的
示例包括:
1)數據集、表和字段的定義和描述。
2)業務規則、轉換規則、計算公式和推導公式。
3)數據模型。
4)數據質量規則和檢核結果。
5)數據的更新計劃。
6)數據溯源和數據血緣。
7)數據標準。
8)特定的數據元素記錄系統。
9)有效值約束。
10)利益相關方聯系信息(如數據所有者、數據管理專員)。
11)數據的安全/隱私級別。
12)已知的數據問題。
13)數據使用說明。
(2)技術元數據
技術元數據(Technical Metadata)提供有關數據的技術細節、存儲數據的系統以及在系統內和系統之間數據流轉過程的信息。技術元數據示例包括:
1)物理數據庫表名和字段名。
2)字段屬性。
3)數據庫對象的屬性
4)訪問權限。
5)數據CRUD(增、刪、改、查)規則。
6)物理數據模型,包括數據表名、鍵和索引。
7)記錄數據模型與實物資產之間的關系。
8)ETL作業詳細信息。
9)文件格式模式定義。
10)源到目標的映射文檔。
11)數據血緣文檔,包括上游和下游變更影響的信息。
12)程序和應用的名稱和描述。
13)周期作業(內容更新)的調度計劃和依賴。
14)恢復和備份規則。
15)數據訪問的權限、組、角色。
(3)操作元數據
操作元數據(Operational Metadata)描述了處理和訪問數據的細節,例如:
1)批處理程序的作業執行日志。
2)抽取歷史和結果。
3)調度異常處理。
4)審計、平衡、控制度量的結果。
5)錯誤日志。
6)報表和查詢的訪問模式、頻率和執行時間。
7)補丁和版本的維護計劃和執行情況,以及當前的補丁級別。
8)備份、保留、創建日期、災備恢復預案。
9)服務水平協議(SLA)要求和規定。
10)容量和使用模式。
11)數據歸檔、保留規則和相關歸檔文件。
12)清洗標準。
13)數據共享規則和協議
14)技術人員的角色、職責和聯系信息。
二、指標數據定義及屬性分類
參照《數據標準化:數據治理的基石》一書,數據指標是說明總體數量特征的概念,反映了企業的日常經營管理過程。一般從業務屬性、管理屬性、技術屬性等角度制定指標標準。指標的標準化是加強數據治理和管控中最基礎的工作,通過指標標準化,我們可以得到數據的業務價值,技術價值與管理價值。
一般來說,指標分為基礎指標、復合指標和派生指標三類。
基礎指標是表達業務實體原子量化屬性的概念集合,是可以直接對單一變量的明細數據進行簡單計算得到的不可進一步拆解的指標。如“收入” 。
基礎指標具有如下特征:
①指標計算規則中僅包含一個變量。
②其穩定性高,業務定義、計算公式和統計口徑不易隨業務管理視角頻繁變化。
復合指標是建立在基礎指標之上,由若干個基礎指標通過一定運算規則計算形成,在業務角度無法拆解,如“簽約率”、“利潤率”。
復合指標具有如下幾種類型:
①由基礎指標計算得到。
②由基礎指標和復合指標計算得到。
③由復合指標再度計算得到。
維度是報表分割顯示統計數值的角度,主要用來描述在業務活動中會從哪些角度對標準項進行使用和分析,體現為報表的一行或者表頭中的一列。一般來說,維度具有離散化取值的特性,即取值可以枚舉。維度作為觀察事物的視角,并不孤立存在,而是通過與指標結合使用,可以對指標的不同方面進行對比與分析。常用維度包括時間、空間、組織機構、業務類別等。
指標數據標準規定了指標數據標準的業務屬性、技術屬性和管理屬性標準,可應用在企業報表編制、數據資產管理等相關領域。
根據數據管控需求和業務運營情況,同時考慮標準的編制參與人員、分期制定過程、標準應用場景等諸多因素設置屬性梳理優先級,其中由業務人員提供或確認的屬性稱為基礎屬性,需要結合技術人員、管理人員后續進行補充的屬性稱為擴展屬性,如下圖虛線框所示。
業務屬性:是指標數據在業務層面的定義,描述數據和企業業務相關聯的特性,是數據業務含義的統一解釋及要求。
業務屬性包括:一級主題、二級主題、三級主題、指標名稱、業務定義、處理邏輯、維度、基礎計量單位、參考標準、上報頻度、統計時間、映射類型等。
技術屬性:是指標數據在技術層面的定義,描述了數據與信息技術實現相關聯的特性,是數據在信息系統項目實現時統一的技術方面定義。
技術屬性包括數據類型、數據格式、數據源系統、數據源表名、數據源字段名等。
管理屬性:是指標數據在管理層面的定義,描述了數據與數據管理相關聯的特性,是數據管理在數據標準管理領域的統一要求。
管理屬性包括:指標編碼、數據主責部門、標準管理部門、頒布日期、廢止日期等。
三、指標數據標準中的屬性分類和元數據的分類的關系
從背景和功能上說元數據是描述和解釋數據的,它有自己的功能和作用。而指標數據標準中的屬性分類是為了便于技術、業務和所有者對指標數據屬性的管理而劃分的。兩者的背景和作用是不同的。
從以上的描述我們也可以看出,在數據指標標準中定義的管理屬性不宜用管理元數據替代,比如主責部門、標準管理部門是業務元數據的范疇。而管理元數據往往用在圖書館類似的場景下。所以,為了避免引起歧義和沖突的情況,建議指標數據標準中對于屬性的分類還是用業務屬性、技術屬性和管理屬性。
對于專門從事數據管理的人員來說更應從基本概念和本質厘清不同術語,比如主數據、元數據、數據元、數據倉庫、數據中臺、大數據、數據湖、湖倉一體、數據網格、數據編織等,這樣才能更好的引導業務一起開展數據管理工作。數據管理不是IT人員唱獨角戲的舞臺,而是需要業務和技術更好協助,理念一致、方法一致、行動一致,才能把數據管理工作做好,更大發揮數據的價值。