詳解數據治理相關的七個術語和名詞
一、數據元
1. 名詞解釋
國標[GB/T 18391.1—2002]對數據元的定義為:“用一組屬性描述定義、標識、表示和允許值的數據單元。”
數據元由三部分組成:對象、特性和表示。數據元是組成實體數據的最小單元,或稱原子數據。例如個人信息中,手機號為數據元,“135********”為數據元的值;性別為數據元,“男”和“女”為數據元的值。
2. 主要作用
作為最小顆粒度的數據,數據元是對數據進行標準化定義的基礎,也是構建統一、集成、穩定的行業數據模型的基礎。
在企業數據治理中,數據元是需要標準化的對象,一個數據元對象有且只有一個數據特性,每個數據特性對應一個數據表示。例如:人員的性別中的“男”是一個數據元對象,用數字“1”來表示。
3. 應用舉例
數據元早期在金融、醫療等領域應用非常廣泛,國家相關單位發布了關于數據元管理的一系列技術標準和行業標準,如《CFDAB/T 0301.3—2014食品藥品監管信息基礎數據元 第3部分:藥品》。圖1-1所示為食品藥品監管信息基礎數據元標準。
▲圖1-1 食品藥品監管信息基礎數據元標準
二、元數據
1. 名詞解釋
元數據是描述數據的數據或關于數據的結構化數據。
你是不是看了這個定義依然一頭霧水?那我們來舉個例子。一本書的封面和目錄向我們展示了這樣的元數據信息:圖書名稱、作者姓名、出版商和版權細節、圖書的提綱、標題、頁碼等。
2. 主要作用
在數據治理中,元數據是對數據的描述,存儲著數據的描述信息。我們可以通過元數據管理和檢索我們想要的“書”。可見元數據是用來描述數據的數據,讓數據更容易理解、查找、管理和使用。
3. 應用舉例
元數據是業界公認的數據治理中的核心要素,做好元數據管理,能夠更容易地對數據進行檢索、定位、管理和評估。用哲學的思維理解元數據的話,元數據其實解決的是我是誰、我在哪里、我從哪里來、我要到哪里去的問題。
元數據是建設數據倉庫的基礎,是構建企業數據資源全景視圖的基礎,清晰的血緣分析、影響分析、差異分析、關聯分析、指標一致性分析等是數據資產管理的重要一環。
如果說數據是物料,那么元數據就是倉庫里的物料卡片;如果說數據是文件夾,那么元數據就是夾子的標簽;如果說數據是書,那么元數據就是圖書館中的圖書卡。
三、主數據
1. 名詞解釋
主數據是企業內需要在多個部門、多個信息系統之間共享的數據,如客戶、供應商、組織、人員、項目、物料等。與記錄業務活動、波動較大的交易數據相比,主數據(也稱“基準數據”)變化較慢。主數據是企業開展業務的基礎,只有得到正確維護,才能保證業務系統的參照完整性。
主數據具有3大特性、4個超越。
3大特性:高價值性、高共享性、相對穩定性。
4個超越:超越業務,超越部門,超越系統,超越技術。
2. 主要作用
在數據治理中,主數據用來解決企業異構系統之間核心數據不一致、不正確、不完整等問題。主數據是信息系統建設和大數據分析的基礎,被認為是企業數字化轉型的基石。
3. 應用舉例
不同行業、不同領域的主數據的內容不同。例如:在制造型企業中,核心主數據有物料、BOM、設備、客戶、供應商、人員等;在金融行業中,客戶、客戶關系是主數據管理的核心;在政府各部門,人口、法人、證照等是主要的主數據。
四、業務數據
1. 名詞解釋
業務數據是業務活動過程或系統自動產生的既定事實的數據,也稱交易數據。業務數據來自三個方面。
第一,業務交易過程中產生的數據,例如計劃單、銷售單、生產單、采購單等,這類數據多數是手動生成的。
第二,系統產生的數據,包括硬件運行狀況、軟件運行狀況、資源消耗狀況、應用使用狀況、接口調用狀況、服務健康狀況等。
第三,自動化設備所產生的數據,如各類物聯網設備的運行數據、生產采集數據等。
不論源自何處,業務數據的共同特點是:時效性強,數據量大。
2. 主要作用
業務數據主要面向應用,為業務應用提供服務,例如生產、銷售、采購、設備管理、系統管理等。
3. 應用舉例
表1-1是某企業的產品銷售記錄,這是一種非常重要的業務數據。
▼表1-1 某企業的產品銷售記錄
五、主題數據
1. 名詞解釋
主題數據是根據數據分析的需要,按照業務主題對數據所做的一種組織和管理方式,其本質是為了進行面向主題的分析或加速主題應用的數據。
主題數據是分析型數據,是按照一定的業務主題域組織的,服務于人們在決策時所關心的重點方面。一個主題數據可以由多個主數據和交易數據組成。主題數據一般是匯總的、不可更新的、用于讀的數據。
2. 主要作用
主題數據是按照一定的業務主題域組織的,服務于各種數據分析或應用開發。
3. 應用舉例
主題數據與行業或領域有較大的關系,不同行業關注的主題是不一樣的。即使是同一行業,不同企業也有不同的主題數據定義。
例如,某生產制造企業定義了12大主題數據,包括綜合服務、人力資源、財務管理、質量管理、生產管理、工藝管理、庫存管理、銷售管理、采購管理、設備管理、能源管理和安全環保。
六、數據倉庫
1. 名詞解釋
數據倉庫(Data Warehouse,DW)是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策。數據倉庫是數據庫的一種概念上的升級,可以說是為滿足新需求而設計的一種新數據庫,需要容納更加龐大的數據集。本質上,數據倉庫與數據庫并沒有什么區別。
2. 主要作用
數據倉庫是為企業所有級別的決策制定過程提供所有類型數據支撐的戰略集合,有以下三個主要作用。
數據倉庫是對企業數據的匯聚和集成,數據倉庫內的數據來源于不同的業務處理系統,包含主數據和業務數據。數據倉庫的作用就是幫助我們利用這些寶貴的數據做出最明智的商業決策。
數據倉庫支持多維分析。多維分析通過把一個實體的屬性定義成維度,使用戶能方便地從多個維度匯總、計算數據,增強了用戶的數據分析處理能力,而通過對不同維度數據的比較和分析,用戶的數據處理能力得到進一步增強。
數據倉庫是數據挖掘技術的關鍵和基礎。數據挖掘技術是在已有數據的基礎上,幫助用戶理解現有的信息,并對未來的企業狀況做出預測。在數據倉庫的基礎上進行數據挖掘,可以對整個企業的發展狀況和未來前景做出較為完整、合理、準確的分析和預測。
3. 應用舉例
數據倉庫是數據分析和數據可視化的基礎,通過將來自不同業務系統的數據匯集到一起,并按照一定的主題進行編號、歸類、分組,方便用戶快速定位數據源,為數據分析提供支撐。
為了提升數據倉庫的數據質量,確保數據分析的準確性,數據倉庫的建設需要實施數據治理的策略。很多企業的數據治理項目實施的動因都是解決數據倉庫中的數據質量問題,以便獲得更準確的分析決策。
七、數據湖
1. 名詞解釋
根據維基百科的定義,數據湖是一個以原始格式存儲數據的存儲庫或系統。它按原樣存儲數據,而無須事先對數據進行結構化處理。數據湖可以存儲結構化數據(如關系型數據庫中的表)、半結構化數據(如CSV、日志、XML、JSON)、非結構化數據(如電子郵件、文檔、PDF)和二進制數據(如圖形、音頻、視頻)。
數據湖可以更方便、以更低的成本解決不同數據結構的統一存儲問題,同時還能夠為機器學習提供全局數據。我們可以將數據湖理解為一個融合了大數據集成、存儲、處理、機器學習、數據挖掘的解決方案。
2. 主要作用
關于數據湖的作用,AWS將它與數據倉庫進行了類比,如表1-2所示。
▼表1-2 來自AWS的數據湖與數據倉庫的對比
3. 應用舉例
數據湖不是一個產品或工具,它是融合了數據采集、數據處理、數據存儲、機器學習、數據挖掘等技術和工具的解決方案。數據湖支持處理不同類型的數據和分析方法,以獲得更深層次的洞見所必需的擴展性、敏捷性和靈活性。亞馬遜AWS、Informatica、阿里云、華為云、用友等都推出了數據湖解決方案。
數據湖的出現給數據治理帶來了一定的挑戰。數據湖將數據全部集中存儲,那數據治理是在“湖中”治理還是在“湖外”治理,這是個需要企業研究和探索的問題。
關于作者:羅小江,用友集團助理總裁、平臺和數據智能事業部總經理、北京軟件和信息服務業協會云計算專委會副會長、中國企業財務管理協會企業風險管控專業委員會副主任委員。專注于企業數字化平臺技術應用研究,具有企業管理、IT等復合知識,并且有豐富的實施交付經驗,主導過多個千萬級項目的規劃及設計工作。
石秀峰,用友集團數據治理專家、中國電子商會數據資源服務創新專業委員會受聘專家、數據質量管理智庫(DQPro)受聘專家。深耕數據領域十余年,曾主導過多家大型集團的數據治理、數據集成等項目的咨詢和落地。
本文摘編自《一本書講透數據治理:戰略、方法、工具與實踐》,經出版方授權發布。(ISBN:9787111694489)