在數字時代的今天,企業對于高質量、值得信賴的數據的需求越來越高。
目前,已經有很多企業將數據質量視為技術問題而非業務問題,這也是獲取高質量數據的最大限制因素。只有查找技術缺陷,例如重復數據、缺失值、亂序序列,以及與歷史數據預期模式的偏差無疑是至關重要的,但這也僅是第一步。一個更加苛刻和關鍵的步驟,便是衡量業務質量,檢查數據是否上下文正確。
讓我們看看提高現代數據質量的四大有效方式:
1)自上而下的業務如果數據質量——這個詞從未被創造出來,而“業務質量”是目標,也許 IT 團隊更加會受益。在那種情況下,確保數據正確的主要理由本來是為了確保業務成果得到滿足。在這種情況下,需要重點從數據的基礎設施轉移到它的上下文。
但“上下文”到底是什么?
它是業務當中對數據的應用。例如,不同業務部門對“客戶”的定義可能不同。對于銷售來說,是買家;對于營銷來說,是影響者;對于財務來說,是買單者。因此,上下文的變化取決于誰在處理數據。為此,數據質量需要與上下文保持同步。
在另一個例子中,國家代碼 1 和地區美國與加拿大可能看起來類似,但事實并非如此。不同的團隊可以出于截然不同的目的使用一個表格中的相同列。因此,數據質量的定義各不相同。為此,就需要在業務上下文級別應用數據質量。
2)產品思維——數據網格原則上引發的概念非常引人注目,他們改變了我們的思維方式,使那些在實踐中可能行不通的舊方法在今天也能奏效。最大的變化是我們對數據的看法:作為一種產品,必須在管理時考慮到用戶及其期望的結果。
任何企業正在應用產品管理實踐來使他們的數據資產可用。 “數據產品”的目標是通過讓不同的消費者群體更容易地消費和分析,以此來鼓勵“可信數據”的更高利用率。反過來,又提高了企業以極低的方式從其數據資產中快速提取情報和見解的能力。
同樣,數據質量也應該采用相同的產品管理原則來處理。數據生產者應發布一份“數據合同”,列出向消費者承諾的數據質量水平。通過將數據質量視為最重要的資產,生產者應該了解數據的使用方式及其質量的影響。數據產品的數據質量SLA旨在確保消費者了解數據新鮮度等參數。
3)數據可觀察性——通常,數據消費者是第一個發現異常的人,例如 CFO 在儀表板上發現錯誤。如果這種情況發生,那么IT 團隊將進入了一種被動的救火模式,試圖檢測復雜架構中錯誤出現的位置。
數據可觀察性通過持續監控數據管道并使用先進的 ML 技術快速識別異常,甚至主動預測異常來填補空白,以便在問題到達下游系統之前對其進行補救。
數據質量問題可能發生在管道中的任何地方。但是,如果越早發現問題,修復成本就會越低。因此,采用“左移”的理念。數據可觀察性產品通過以下方式提高數據質量:
·數據發現從數據源和數據管道的所有組件(例如轉換引擎和報告或儀表板)中提取元數據。
·監控和分析——針對動態和靜態數據,使用中的數據如何?
·預測性異常檢測 - 使用內置。
·警報和通知
數據質量是數據可觀察性的基礎部分,下圖顯示了數據可觀察性的總體范圍。
4)整體數據治理——數據質量子系統與整體元數據管理密不可分。
一方面,數據目錄存儲定義或推斷的規則;另一方面,DataOps 實踐生成進一步細化數據質量規則的元數據。數據質量和 DataOps 確保數據管道以自動方式使用正確的規則和上下文進行持續測試,并在推斷出異常時發出警報。
事實上,數據質量和 DataOps 只是元數據眾多用例中的兩個?,F代數據質量與這些其他用例集成在一起,如下圖所示。
將數據質量合并到數據治理的其他方面的綜合元數據平臺可改善業務用戶(例如數據使用者與數據產品的生產者和維護者)之間的協作。它們共享相同的上下文和指標。
這種緊密集成有助于采用左移方法來提高數據質量。持續測試、編排和自動化有助于降低錯誤率并加快數據產品的交付。需要這種方法來提高對數據團隊的信任和信心。
可以說,這種集成是企業采用數據產品、數據網格和數據共享選項(如交易所和市場)的現代數據交付方法的墊腳石。
原文標題:4 pillars of modern data quality
原文作者:Vanitha