0到1落地企業級數據治理寶典,快放收藏夾吃灰吧!
?數據治理是企業數據建設必不可少的一個環節。
好的數據治理體系可以盤活整條數據鏈路,最大化保障企業數據的采集、存儲、計算和使用過程的可控和可追溯。
如何構建企業數據治理體系?企業數據治理過程需要注意哪些問題?總體而言,不能一口一個胖子,路要一步一步地走。
下面我將結合企業級數據治理經驗,詳細介紹從0到1搭建數據治理體系全流程,幫你梳理數據治理的主要內容以及過程中會遇到的坑。
一、數據治理到底是在做什么
?1、一個小故事
在正文之前,我先介紹一個小故事。
年底了,企業財務管理員小張需要統計公司的金融財務情況。忙碌了一年,公司老板亟需知道公司目前的運營狀況。
小張需要考慮哪幾個點:
公司目前有哪些財產?
這些財產從哪里來?用到了哪些地方?
是否所有財產的使用均符合規范和制度?
幸好小張年初已經制定了一套管理標準。每筆財產的出入都有記錄且嚴格把控使用情況,過程可追溯可審查。
最后,小張得到了領導們的一致好評。
?2、數據治理做的事情
故事中的小張監管著公司所有金融財產活動,確保財產使用的有序高效,這也是數據治理角色的類似功能。
數據治理的核心工作:在企業的數據建設進程中,保障企業的數據資產得到正確有效地管理。
一般來說,數據從外部或者內部產生后,經過大數據手段處理,流轉到不同的業務端,為企業的上層應用提供數據賦能。
整個過程如圖所示。
- 我們先做一些類似數據同步的工作將數據放入到大數據系統中
- 數據進來后需要管理和存儲,即參考建模理論和實際場景建設數倉
- 經過主題規劃、維度確定、標簽計算輸出等步驟處理
- 數據輸出到報表、應用端使用
整體流程數據治理體系將全程監管。要確認進出系統的數據質量怎么樣?是否可轉化數據資產?數據血緣是否可追溯、數據安全等問題。
臟亂差的數據是無法使用的,甚至嚴重埋雷。
二、為什么要做數據治理
有一些企業對這個問題的概念很模糊,認為目前的數據規模很小,人為可控,暫時不需要做數據治理。
但是在實際使用中還是會遇到很多問題:
- 數據監管力度不夠,出現臟數據
- 數據體系逐漸規模變大,管理混亂
- 數據的血緣丟失,無法回溯舊、老的數據
無論企業的數據規模如何,我認為還是提前做好數據治理的規劃。考慮到成本的問題,可以分階段進行。
為什么要進行數據治理:
- 你的數據是否真的可用,缺失和異常值怎么辦?
- 數據從哪里來到哪里去,血緣信息是否丟失
- 數據訪問是否安全,明文標識還是加密?
- 新的數據加工參考什么規范,維度和標簽管理是否存在標準?
有劍在手不用和無劍可用是兩回事。提前做好數據治理規劃,會節省后續的改造成本,避免過程冗余重構或者推倒重來等情況的發生。
數據治理可以有效保障數據建設過程在一個合理高效的監管體系下進行,最終提供高質量、安全、流程可追溯的業務數據。
三、數據治理體系
企業數據治理體系包括數據質量管理、元數據管理、主數據管理、數據資產管理、數據安全及數據標準等內容。
?1、數據質量
一般采用業內常用的標準來衡量數據質量的好壞:完整性、準確性、一致性和及時性。
- 完整性:數據的記錄和信息是否完整,是否存在缺失情況
- 準確性:數據匯總記錄的信息和數據是否準確,是否存在異常或者錯誤
- 一致性:多個業務數倉間的公共數據,必須在各個數據倉庫中保持一致
- 及時性:數據能及時產出和預警
?2、元數據管理
元數據是關于數據的組織、數據域及其關系的信息,通俗理解,元數據就是描述數據的數據。
元數據包含技術元數據和業務元數據。可以幫助數據分析人員清楚了解企業擁有什么數據,它們存儲在哪里,如何抽取、清理、維護z這類數據,也即數據血緣。
- 幫助構建業務知識體系,確立數據業務含義可解釋性
- 提升數據整合和溯源能力,血緣關系可維護
- 建立數據質量稽核體系,分類管理監控
?3、主數據管理
企業主數據指企業內一致并共享的業務主體,大白話理解就是各專業公司和業務系統間共享的數據。
常見的主數據比如公司的員工、客戶數據、機構信息、供應商信息等。這些數據具有權威性和全局性,可歸約至公司的企業資產。
一般主數據管理需要遵循如下幾點:
- 管理和監管各組織機構、子公司、部門對主數據的訪問,制定訪問規范和管理原則
- 定期進行主數據評估,判斷既定目標的完善程度
- 組織相關人員和機構,統一完善主數據建設
- 提供技術和業務流程支持,全集團集中統籌
?4、數據資產管理
一般企業在數字化轉型時都會考慮數據資產梳理。你的數據有沒有被合理利用?如何產生最大價值?這是數據資產管理關心的核心工作。
在構建企業資產時一般會考慮不同角度,即業務角度和技術角度,最后進行合并,輸出統一的數據資產分析,并向外提供統一的數據資產查詢服務。
如何盤活數據,形成數據資產,提供完整的數據資產全景視圖,可方便運營者全局、宏觀地掌控企業資產動態。
?5、數據安全
數據安全是企業數據建設必不可少的一環,我們的數據都存儲在大大小小的磁盤中,對外提供不同程度的查詢和計算服務。
需要定時對數據進行核查、敏感字段加密、訪問權限控制,確保數據能夠被安全地使用。
?6、數據標準
大白話理解,我們需要在組織內定義一套關于數據的規范,好讓我們都能理解這些數據的含義。
今天張三說這個客戶號是辦理銀行卡的客戶,明天李四又說是借貸過的客戶。對比一看,兩者的字段類型和長度一致,到底要采納哪個意見呢?
數據標準是保障數據的內外部使用和交換的一致性和準確性的規范性約束,通過統一規范,消除二義性。
四、企業數據治理的實施過程
?1、數據治理實施框架
數據治理體系是為了規范業務數據規范、數據標準、數據質量和數據安全中的各類管理任務活動而建立的組織、流程與工具。
通過一個常態化的數據治理組織,建立數據集中管理長效機制,規范數據管控流程,提升數據質量,促進數據標準一致,保障數據共享與使用安全,從而提高企業運營效率和管理水平。
?2、數據治理組織架構
企業數據治理體系除了在技術方面的實施架構,還需要管理方面的組織架構支撐。
一般在數據治理建設初期,集團會先成立數據治理管理委員會。從上至下由決策層、管理層、執行層構成。決策層決策、管理層制定方案、執行層實施。層級管理、統一協調。
1)組織架構
①決策層
提供數據標準管理的決策職能,通俗理解即拍板定方案。
②管理層
- 審議數據標準管理相關制度
- 對跨部門難的數據標準管理爭議事項進行討論并決策
- 管理重大數據標準事項,提交信息科技管理委員會審議
③執行層
- 業務部門:負責業務線數據標準的制定、修改、復審,推廣落實數據標準等
- 科技開發:承擔治理平臺、數據標準、數據質量等實施工作;系統設計和開發工作中遵循數據標準
- 科技運營:負責技術標準的制定和技術推廣
2)管理層職責
①項目經理
- 確定項目目標、范圍和計劃
- 制定項目里程碑
- 管理跨項目協同
②專家評審組
評審項目方案,確定方案的合理性
③PMO
- 確保項目按計劃執行
- 管理項目重大風險
- 執行跨項目協同、溝通
- 組織項目關鍵評審
④數據治理專項組
執行各項目的落地實施和運營推廣,推動執行層的實施數據治理技術落地和項目進展。
3)執行層職責
數據架構師、數據治理專家和業務專員形成數據治理"鐵三角",緊密協作,推進數據治理與數據架構落地。
①業務專員
業務專員作為業務部門數據治理的接口人,在標準、質量、應用等領域組織業務人員開展工作
- 定義數據規則
- 保障數據質量
- 提出數據需求
②數據治理專家
數據治理專家作為數據治理組成員,負責設計數據架構,運營數據資產;牽頭組織業務、IT達成數據治理目標。
- 構建數據邏輯模型
- 監控數據質量
- 運營數據資產
③數據架構師
數據架構師作為IT開發部門的專家,承擔數據標準落地、模型落地的重任,協助解決數據質量問題。
- 數據標準落地
- 邏輯模型落地
- 物理模型落地
?3、數據治理平臺
在確定了技術實施方案和組織管理架構,下面需要進行數據治理體系的落地實施。
在大型企業中一般會開發一個完整的數據治理平臺,囊括所有數據治理功能,對外提供平臺服務。
1)核心功能
數據治理平臺作為數據治理的產品體系,旨在保障數據平臺的數據是安全、可靠的、標準的、有價值的。
- 數據資產管理:提供面向用戶的場景化搜索,提供全景數據資產地圖,方便快速查找資產和資產分析
- 數據標準管理:統一定制數據標準,提高包括字段、碼值、數據字典管理,保障業務數據和中臺數據的統一標準
- 數據質量監控:提供事前、事中、事后的數據質量體系,支持數據質量監控規則配置、告警管理等功能
- 數據安全:提供數據安全脫敏、安全分級和監控
- 數據建模中心:統一建模,提供業務系統建模和模型管理
2)元數據管理
元數據管理系統作為數據治理平臺的前端展示門戶,幫助實現對數據資產的快速檢索能力,提高數據使用有效性和效率。
通過建立完整且一致的元數據管理策略,提供集中、統一、規范的元數據信息訪問、查詢和調用功能。
3)數據質量
- 數據質量監控:支持所有用戶進行數據質量監控規則配置
- 規則阻斷:配置數據質量監控阻斷規則,數據質量出現差異可實時阻斷下游作業運行,屏蔽錯誤結果鏈路擴散
- 告警:數據質量出現預設偏差,及時發出預警通知及時修復
4)數據標準
支持定制統一的數據標準平臺,包括字段標準管理,碼值標準管理以及字典管理,業務源數據和中臺數據統一標準。
5)數據安全
基于集團數據資產實現數據安全分級管理,自動識別安全信息;提供數據訪問安全行為監測,及時識別訪問風險。
?4、數據治理評估
數據治理平臺開發完成并運行,需要對整體數據治理體系的效果進行驗證和評估。
- 數據是否可以消除"臟、亂、差"的現象
- 數據資產是否最大價值化
- 所有數據的血緣是否完整可追溯
1)數據資產
通過構建數據資產管理體系,實現資產全覆蓋,并支持全局搜索和精準定位目標資產。
- 實現全局搜索,面向用戶提供場景化檢索服務
- 支持標簽、數據地圖、表名和字段名等多種檢索維度
- 支持進行數據地圖,源業務數據字典的結果篩選
- 比如支持PV/UV用戶搜索和資產展示,明確服務目標
2)數據標準
新舊數據標準沉淀,打通了數據建模工具、數據標準庫和詞根標準庫,落地數據標準和詞根。
- 實現數據標準庫100%拉通
- 智能識別數據標準和引用
- 客戶端同步更新數據標準、詞根
3)數據安全?
保持事前制度建設、事中技術管控、事后監控審計的原則建立全流程數據安全管控體系。
基于以上數據安全管控體系,支持數據安全定級,構建靈活的數據安全共享流程。
4)數據質量?
通過數據質量雷達圖,定期進行數據和任務質量打分,綜合考察數據質量效果。
- 數據完整性:查看數據項信息是否全面、完整無缺失
- 告警響應程度:日常管理、應急響應、降低影響;避免數據損毀和丟失
- 監控覆蓋程度:確保數據遵循統一的數據標準和規范要求
- 作業穩定性:監控作業穩定性,是否存在作業異常等問題
- 作業時效性:檢查任務對應的數據項信息獲取是否滿足預期要求
五、數據治理的誤區
?1、數據治理是否要做得大而全
這是一個經典問題,一般對于不同階段和規模的企業,數據治理的實施程度會有所不同。一般建議先根據自身的數據狀況分階段進行,避免盲目鋪開規模,過程中可調整。
?2、數據治理只是技術考慮的事情
正如文中所說,數據治理不僅僅是技術團隊的事情,而是整個集團一起協作完成。其中就包括各業務線以及其他管理組織,沒有一個好的實施方案和協作機制,往往事倍功半。
?3、數據治理可以短期見效
數據治理是個長期過程,會跟隨著企業數據的規模和數倉規劃的變更同步調整,部分功能可能會在短期內卓有成效,完整體系搭建短期很難實現。
?4、必須得有工具平臺,才能開展數據治理
俗話說工欲善其事必先利其器,有好的工具當然是更好,前提是已經有了成熟的數據治理體系規劃和策略。工具和技術手段目前市面上很成熟,先把理論給鋪墊好。
?5、數據治理感覺很模糊?不知道最后的落地結果
數據治理是一個長期工作,需要相關從業者根據企業的數據現狀和管理模式去構建和調整,建議邊做實踐邊總結歸納,小步慢跑是一個很好的方式。?