數據治理,一起要從“源頭”開始!
數據治理,一直是數字化轉型工作中非常重要的話題,幾乎承載了數字化轉型戰略中最為重要的任務。
數據治理與數據管理不同,具有更強的有關數據價值開發的目的性!
1. 大型企業數據治理之困境
數據治理,涉及的工作很多,比如數據溯源,數據異常識別,數據整改,數據質量驗證,數據對齊,元數據補全,數據回收等等。歸根結底,數據治理的目的就是一件事——提高數據的可用性。
通過治理,把數據的“混亂度”降低,使不可用的數據變為可用,使不好用的數據變得好用,使沒意義的數據變得有價值。
數據治理說起來重要,但是在具體實操中,往往也是讓諸多企業最為“犯難”,尤其是大型集團型企業,由于業務規模龐大,同時歷史包袱很重,經常遇到“老業務治不完,新業務跟不上”,或是“前治后亂”的困窘。
數據治理對于資源的消耗非常大,很多企業的數據治理成效并不明顯,因此數據治理活動也是最容易受到“詬病”的數字化工作之一。
2. 數據治理的源端管控
狹義的數據治理,往往是指對存量數據問題進行整改處理,由于企業的數據不斷積累,如果數據治理的技術手段、管理手段不夠先進,很容易收效甚微。
因此,數據治理必須要控制住數據的“源頭”,在數據產生、數據錄入的環節就做好嚴格的管控。
如果數據是系統自動產生的,那么就要結合新的數據標準和規范,對源端系統進行改造和升級。
如果數據是人為手工錄入的,那么就要加強對數據責任人的管理,一是在職責上明確每個基層人員的數據管理責任,并與考核掛鉤;二是加強對人員錄入信息的數字化交叉驗證。
還有一些數據,是通過系統運算生成的,即計算類、報表類的數據,這些數據屬于二次加工數據,這些數據的問題可能在源頭就已經被污染了,也可能是計算環節出了問題 —— 這就要求對數據鏈路進行監控分析。
一是要保證數據鏈路貫通,數據同步與融合的相關操作穩定,二是要核實數據計算邏輯是否正確,是否與最新的業務口徑保持一致。
3. 提升治理技術尤為重要
除了在源頭控制以外,傳統的事后檢查的治理方式仍然很重要,尤其是針對一些短期內無法解決的黑盒系統數據進行治理的任務來說。
數據治理的基本對象是數據質量,數據質量的“六性”包括:完整性、及時性、準確性、一致性、唯一性、有效性。針對這些原則,可以提前制定一定的數據質量驗證模型,判斷是否滿足這些質量約束條件。
通過定期將數據質量驗證模型的代碼腳本運行于業務數據庫中,可以自動發現數據質量缺陷,動態生成“待處理”的問題數據任務工單。
因此,提升數據治理技術本質上就是驗證模型的開發,驗證模型有些可以基于經驗進行總結,也有些可以構建具有概率推斷能力的機器學習模型,或是專門針對治理任務的“專家系統”(Expert System)。
有些數據治理任務,在發現問題數據時,需要驗證跨系統、跨表單之間的數據關系,為了降低腳本重復運行和數據比對的工作量,相關的RPA機器人的設計和開發也是未來重要的數據治理支撐技術之一。