談談數據質量管理中的五個關鍵要素
數據質量管理被定義為:實施一個系統的框架,持續描述數據源,驗證數據質量,并執行一系列過程來消除數據質量問題,努力使數據更準確、正確、有效、完整、可靠。由于每個組織對數據質量的要求和特點不同,因此企業之間的數據質量管理也不同。管理數據質量所需的人員類型、衡量數據質量所需的指標、需要實施的數據質量流程——一切都取決于多種因素,例如公司規模、數據集大小、涉及的來源等。下面就談談數據質量管理的五大要素:人員、度量、流程、框架和技術。
01.人員:誰參與數據質量管理
人們普遍認為,在管理整個組織的數據質量時,必須獲得決策者的批準和支持。但事實是,需要任命不同資歷級別的數據專業人員,以確保對數據質量計劃的投資得到回報。
以下是一些負責、批準、咨詢或了解組織中數據質量控制的角色:
a)首席數據官(CDO):首席數據官是一個行政級別的職位,全權負責設計戰略,以實現整個企業的數據利用、數據質量監控和數據治理。
b)數據管理員:數據管理員是公司處理與數據相關的所有事務的首選人員。他們全身心體驗組織如何捕獲數據、將數據存儲在何處、數據對不同部門意味著什么,以及如何在整個生命周期內保持數據質量。
c)數據保管人:數據保管人負責數據字段的結構——包括數據庫結構和模型。
d)數據分析師:數據分析師是能夠獲取原始數據并將其轉化為有意義的見解的人,尤其是在特定領域。數據分析師的主要工作之一是準備、清理和過濾所需的數據。
e)其他團隊:這些角色被認為是數據消費者,這意味著他們使用數據,無論是原始形式還是轉化為可操作的見解時,例如銷售團隊、產品團隊、業務團隊、管理團隊等。
02.度量:數據質量如何衡量
數據質量管理的第二個最重要的方面是它的測量。這些是數據特征和關鍵績效指標,用于驗證組織數據集中數據質量的存在。根據不同公司使用數據的方式,這些KPI可能會有所不同。我列出了最重要的數據質量維度及其代表的質量指標:
- 準確性:數據值描述現實或正確性的程度如何
- 沿襲:數據值的原始來源有多可信
- 語義:數據值是否符合其含義
- 結構:數據值是否以正確的模式和/或格式存在
- 完整性:的數據是否如所需要的那樣全面
- 一致性:不同的數據存儲是否對相同的記錄具有相同的數據值
- 可用性:數據是最新可用的嗎
- 及時性:請求的數據多快可用
- 合理性:數據值是否具有正確的數據類型和大小
- 可識別性:是否每條記錄都代表一個唯一的身份并且不是重復的
03.流程:數據質量管理流程
由于數據在過去幾十年里大量增長,它已經變得多變量并在多個維度上進行測量。要獲取、修復和改進數據質量問題,必須實施各種數據質量流程——其中每個流程都有不同的價值和目的。讓我們來看看公司用來提高數據質量的最常見的數據質量流程。
a)數據剖析
這是通過揭示有關數據結構和內容的隱藏細節來了解數據當前狀態的過程。數據分析算法分析數據集列并計算各種維度的統計數據,例如完整性、唯一性、頻率、特征和模式分析等。
b)數據清理和標準化
它是消除數據集中存在的不正確和無效信息以實現跨所有數據源的一致和可用視圖的過程。包括刪除和替換不正確的值、解析更長的列、轉換字母大小寫和模式以及合并列等。
c)數據匹配
也稱為記錄鏈接和實體解析,它是比較兩個或多個記錄并確定它們是否屬于同一實體的過程。它涉及映射相同的列、選擇要匹配的列、執行匹配算法、分析匹配分數以及調整匹配算法以獲得準確的結果。
d)重復數據刪除
這是消除屬于同一實體的多個記錄并為每個實體僅保留一個記錄的過程。這包括分析組中的重復記錄、標記重復記錄,然后將其從數據集中刪除。
e)數據合并和生存
它是通過條件選擇和覆蓋將重復記錄合并在一起的構建規則的過程。這有助于防止數據丟失并保留最多的重復信息。它涉及為主記錄選擇和覆蓋定義規則、執行規則并調整它們以獲得準確的結果。
f)數據治理
數據治理通常是指角色、策略、工作流、標準和指標的集合,可確保高效的數據使用和安全性,并使公司能夠實現其業務目標。它涉及創建數據角色和分配權限、設計工作流以驗證信息更新、確保數據安全免受安全風險等。
g)地址驗證
它是根據權威數據庫(例如國家的省市標準)運行地址并驗證該地址在國內是否可郵寄、準確且有效的郵寄地址的過程。
04.框架:數據質量管理框架
除了數據質量流程之外,在設計數據質量策略時要考慮的另一個重要方面是數據質量框架。這些過程代表用于消除數據集中數據質量問題的獨立技術。數據質量框架是一個系統的過程,它持續監控數據質量,實施各種數據質量過程(按定義的順序),并確保它不會惡化到定義的閾值以下。它提供了有關數據質量管理流程的更多詳細信息。
一個簡單的數據質量框架包括四個階段:
a)評估:這是框架的第一步,需要評估兩個主要組成部分:數據質量對的業務的意義以及當前數據如何對其進行評分。
b)設計:數據質量框架的下一步是設計所需的業務規則,通過選擇需要的數據質量流程并將它們調整到的數據,以及決定數據質量功能的架構設計。
c)執行:第三階段是執行發生的地方。已經在前兩個步驟中準備好了階段,現在是時候看看系統的實際性能如何了。
d)監控:這是監控結果的框架的最后階段。可以使用高級數據分析技術來生成詳細的性能報告。
05.技術:數據質量管理工具
盡管數據質量問題的性質相當復雜,但許多企業仍然手動驗證數據質量。針對此問題采用技術解決方案是確保團隊生產力和數據質量框架順利實施的最佳方式。有許多供應商將數據質量功能打包在不同的產品中,例如:
a)獨立、自助式數據質量軟件:
這種類型的數據質量管理軟件允許對數據運行各種數據質量流程。它們通常帶有自動數據質量管理或批處理功能,可以在一天中的特定時間清理、匹配和合并大量數據。這是合并數據記錄的最快和最安全的方法之一,不會丟失任何重要信息,因為所有過程都在數據副本上執行,并且最終數據視圖可以傳輸到目標源。
b)數據質量API或SDK:
一些供應商通過API或SDK公開必要的數據質量功能。這有助于在現有應用程序中實時或運行時集成所有數據質量管理功能。
c)嵌入數據管理工具的數據質量
一些供應商將數據質量功能嵌入到集中式數據管理平臺中,以便在同一個數據管道中處理所有事情。設計具有嵌入式數據質量功能的端到端數據管理系統需要進行詳細的規劃和分析,并讓關鍵利益相關者參與流程的每個步驟。此類系統通常被打包為主數據管理解決方案。
數據質量管理與主數據管理有何不同?
“主數據管理”一詞指的是數據管理最佳實踐的集合——涉及數據集成、數據質量和數據治理。這意味著數據質量和主數據管理不是彼此對立的;相反,它們是互補的。MDM解決方案除了數據質量管理功能外還包含一些額外的功能。這無疑使MDM成為實施起來更加復雜和資源密集型解決方案——在兩種方法之間進行選擇時需要考慮的因素。
d)定制內部解決方案
盡管市場上存在各種數據質量和主數據管理解決方案,但許多企業投資開發內部解決方案以滿足其自定義數據需求。盡管這聽起來很有希望,但企業往往最終會在此過程中浪費大量資源——時間和費用。開發這樣的解決方案可能更容易實施,但隨著時間的推移幾乎不可能維護。