隨著我國數字經濟的蓬勃發展,大數據已經成為推動社會發展和企業競爭的重要資源,數據要素也被提升到了前所未有的高度。然而,面對海量的數據資源,如何高效管理和有效利用,成為眾多企業亟待解決的一道難題。
一、數據治理“三字經”概要
2020年,筆者曾對所負責的集團級數據治理工作進行了全面的梳理和總結,并結合個人近十年的數據治理經驗,匯編成《數據治理“三字經”》第一版。
今年,筆者又對數據治理進一步總結優化,擴展并豐富了數據治理方法論和實踐內容,形成了更具系統性和全面性的《數據治理“三字經”》第二版,期望能給數據治理領域工作的同仁們帶來一些思考和啟示。
數據治理“三字經”解讀
《數據治理“三字經”》這首短詩雖然精煉,但卻包含了大量的信息,每一句都猶如一篇獨立的文章,描繪了一個個既充滿挑戰又充滿喜悅的治理歷程。因此,在考慮到篇幅有限的情況下,筆者將主要分享和解讀其中的概要思想。
制定數據治理戰略目標,統籌頂層藍圖規劃
? 數之初,量本小
在數據發展的初期,各個行業的數據量相對較小,數據類型也相對較為簡單。
? 猛增長,遇瓶頸
由于數字化技術的飛速發展、互聯網的普及、移動設備的廣泛應用,以及社交媒體、物聯網和傳感器等新興技術的推動,全球數據量呈指數級增長。許多企業的數據規模劇增,這些海量數據在帶來巨大價值的同時,也給數據管理和利用帶來了新的挑戰。
? 缺管理,實難控
當企業數據發展到一定規模時,由于缺乏有效的數據管理手段,往往會引發一系列問題,例如數據獲取困難、數據理解不準確、數據標準不一致、數據管理效率低下以及數據管理成本高昂等。這些問題不僅增加了企業的運營壓力,也可能導致企業的數據價值難以充分釋放。
? 若不治,隨可崩
如果未能及時進行數據治理,大數據平臺和數據業務可能會面臨隨時崩潰的風險。例如,質量不高的數據會誤導企業管理者作出錯誤的經營決策,過多的數據資源會導致大數據平臺集群的算力和存儲資源占用率過高,從而在瞬間引發資源耗盡的問題,使平臺和業務陷入癱瘓。
? 若廣治,懼其繁
隨著各種數據問題接踵而至,企業感到困擾和頭疼。然而,試圖一次性解決所有問題是不現實的。
? 治之道,貴以專
進行數據治理需要專業的知識和方法,而且最好能夠盡早實施。為了確保數據管理活動始終處于規范、有序和可控的狀態,需要制定全面而清晰的數據治理體系,包括戰略規劃、機制構建、措施實施和工具建設等各個方面。此外,專業的團隊也是成功進行數據治理的重要因素之一。
? 高層挺,強執行
數據治理是一項一把手工程,旨在從企業高層直接引領并推動數據管理和應用工作。它的實施與公司高層的認可和支持密不可分,因為只有在高層領導的大力支持下,數據治理項目才能獲得所需的資源和預算,進而協調并推動其他部門和團隊積極參與和配合數據治理工作。因此,公司高層的支持是數據治理項目成功的關鍵保障。
? 定戰略,樹文化
應當將企業的數據治理實踐與行業標準及業界最佳實踐進行對標,以找出自身的不足和差距,為制定數據治理戰略目標提供明確的方向。同時,數據治理團隊應當致力于在整個公司范圍內營造數據治理的文化和氛圍,以確保所有員工都能積極參與并遵循數據治理規范。
? 立制度,建流程
必須建立一套完整的數據治理制度,以確保數據治理工作能夠具體落實到責任人,從而更加有效地推動數據治理的實施。
? 善組織,齊協作
數據治理并非僅靠一個數據治理團隊就能完成,而是需要與全公司所有與數據相關的業務部門和技術部門協同推進。因此,成立數據治理委員會勢在必行。在企業數據治理委員會的指導下,設立數據治理辦公室以及相關的協同組織部門,以推動數據治理工作的全面落地實施。
? 權責利,當清晰
在數據治理過程中,數據資產所有者及其團隊的權利、責任和利益應當明確且清晰,確保各方在協作中能夠充分發揮自己的優勢和特長,有利于治理活動的推進和各方的協作配合。
? 凡標準,共遵循
通過制定明確的數據治理標準規范和流程,包括數據治理總冊和各專項治理分冊等,可以幫助企業的數據開發和管理團隊做到有章可循、有據可依,進而提高數據治理的整體水平。
構建數據治理運營機制,提升數據治理效能
? 察現狀,診問題
對于數據開發和管理環節,需進行全面的現狀調研和分析,以發現潛在問題和瓶頸,為后續數據治理工作提供有力依據。
? 能識別,準定位
通過數據問題的識別規則,可快速準確地定位數據問題及產生的原因,從而提高數據治理效率和準確性。
? 能優化,可評估
在識別和定位數據問題后,需提出優化方案并評估治理效果。通過科學評估方法,全面客觀評估治理效果,為后續優化提供參考和改進依據。
? 能審計,可回溯
在數據治理活動中,應記錄用戶操作日志,以便后續審計和回溯。如果出現任何數據問題或爭議,可以從系統日志中回溯相關操作,進行審計和檢查,以便找出問題的根源并采取相應的處理措施。同時,系統日志也有助于對數據治理活動進行有效的監控和評估,以及提高數據治理工作的透明度和可信度。
? 須考核,納監督
數據資產健康度評估是數據治理績效的關鍵反饋,通過多維評估分數,不僅有助于發現數據治理薄弱環節,也是衡量數據治理成果的直接途徑。以數據健康評分作為持續抓手,落實到具體責任人和團隊,每個人都有績效分,從而促進“要我治理”向“我要治理”的良性可持續發展。
? 有獎懲,必晾曬
根據各團隊的數據治理成果進行獎懲,每周、每月定期進行紅黑榜晾曬。對于黑榜或連續績效表現較差的團隊,采取相應的權益限制,例如降低任務優先級、限制集群資源申請等。
落實數據治理重要措施,開展專項治理行動
? 采存融,管治用
大數據每個環節都緊密相連,需要統一納入數據治理的范疇。
? 全鏈路,環相扣
大數據生產加工鏈路中的各階段相互依賴,形成緊密的上下游關系。每個環節都很重要,出現問題會導致連鎖反應,影響大數據生產加工的順利進行。因此,必須高度重視每個環節的質量控制和風險管理,確保整個鏈路的穩定性和可靠性。
? 元數據,乃基石
元數據作為數據治理的基石,對數據治理項目的成功與否起著至關重要的作用。有的企業甚至建設了統一的元數據倉庫,并構建了強大的主動元數據管理能力。
? 設規則,控質量
許多企業面臨著數據質量問題的困擾,缺乏有效的數據質量稽核無法確保數據質量,而過多的數據質量稽核則會導致算力和成本的過度消耗,甚至影響正常的數據處理流程。因此,企業需要精準地把握數據質量管理的尺度,并非所有數據都需要高質量的管理。在實踐中,應優先針對涉及重要業務的數據、經常出現問題的數據以及被多次引用的數據進行稽核。
? 厘血緣,識脈絡
采用機器學習模型算法對SQL語句、程序日志和模型命名規則進行深度解析,自動生成涵蓋庫級、表級、字段級和任務級等多層級的血緣關系。然而系統自動解析并不能覆蓋所有的血緣關系,因此還需要人工維護的方式進行補充。
? 快追蹤,知影響
當數據出現問題時,可以通過血緣關系快速定位到上游數據資產,還可以評估出該問題對下游數據資產的影響,防止了問題的擴大和連鎖反應的產生。
? 數地圖,為核心
數據地圖是一種可視化工具,用于展示和呈現數據資產相關的信息。它通過圖形化方式呈現數據資產的全景視圖、流動視圖和價值視圖等,使用戶能夠更加直觀和輕松地掌握數據資產。
? 呈全景,知分布
數據資產全景視圖通過實時監控數據模型、指標、標簽等資產的變化,對其進行分類,并全面展示數據資產的總量、分布和變化趨勢等信息。
? 顯流動,明趨勢
數據資產流動視圖在數據全生命周期中設置多個監控點,實時展示數據采集、處理、共享和開放過程,為數據運維者提供有力支持,有助于及時發現問題并優化運維流程。
? 攤成本,指方向
大數據成本包括基礎設施、開發實施和軟件資源成本,可根據這些成本數據計算每個數據資源的成本,分攤至項目、部門和子公司,形成企業級的大數據成本信息。高成本的組織需結合產出評估ROI,以指導治理方向。
? 自目錄,至明細
數據目錄是企業對數據進行盤點后形成的數據清單,它可以通過系統、分層、主題、標簽等維度進行分類和展示。有的企業還會將數據目錄進一步細分為數據資源目錄、數據資產目錄和數據開放目錄。
? 易檢索,助分析
通過利用元數據知識圖譜和智能推薦引擎,我們實現了“人找數”和“數找人”的交互方式,極大地提升了用戶查找和使用數據的便利性。這種創新方式,就像在電商平臺上購物一樣簡單便捷,從而加速了數據的實際使用、開發和分析過程。
? 保安全,促開放
數據開放是一把雙刃劍,既能夠促進數據的融合和價值提升,又存在數據泄漏的風險。因此,通過深入分析數據加工鏈路上涉及的多個環境和技術形態,明確安全管理流程,嚴格控制數據的申請、分發和使用流程,才能確保數據全生命周期的安全可控。
? 若合規,應共享
在企業內部,數據并不僅僅是某個部門的獨有資產,而是應該被全公司所共享和利用。這種開放共享的數據管理方式,可以促進企業內部數據的流通和利用,提高企業的生產效率和創新能力。
? 分等級,分類型
為了加強數據安全管理,需要對數據進行分級和分類管理。根據數據的重要性和敏感程度,將其劃分為不同級別,并考慮數據的時效性、就高不就低原則和關聯效應。通過分級分類,可以更好地了解數據資產,制定不同級別的安全策略和措施,加密重要數據,嚴格控制訪問,定期備份,從而提高數據安全性。
? 嚴授權,護隱私
在數據采集、處理、存儲、使用和共享階段,都應嚴格控制授權以保護數據隱私。同時,采用動態脫敏技術實現數據的安全精細控制,降低泄露風險,確保數據的可用性和共享效率。
? 建服務,少跑數
數據服務是共享開放的基本形式,也是推動數據高效訪問和業務創新的重要手段。通過可視化、低代碼方式一鍵生成數據服務,提供友好的開放體驗,包括API、數據交換和文件下載等多種方式。
? 棄保姆,來自助
實現完善的數據一鍵入湖、數據共享開放機制以及提供豐富的數據服務,底層數據開發者無需提供“保姆式”數據支持,上層數據應用開發者可以在數據目錄中選擇合適的數據資源及數據服務進行自助開發,提高數據應用的開發效率。
? 始源頭,控增量
事后的數據治理只能帶來一時的保障,更應該從問題源頭、數據源頭進行治理。
? 理價值,降存量
應對數據資源、數據報表、標簽等進行價值層面的梳理,對于沒有價值或低價值的數據應該及時清除,避免資源的浪費。
? 設周期,常清理
綜合考慮數據訪問速度、存儲容量以及存儲成本的平衡,在成本可控的情況下,使大數據發揮出更大的價值。通過生命周期管理矩陣設定數據生命周期的時長,對過期數據進行清除。此外,通過對數據的熱度進行分析,將冷溫數據存儲在中低配置的存儲介質上,以提高存儲空間的利用率和降低存儲成本。
? 需壓縮,宜存檔
通過采用數據壓縮和存檔的方式,可以大大降低存儲資源的消耗。
? 視場景,擇引擎
選擇合適的計算引擎對于大數據處理至關重要。例如,將相同的數據任務從HiveSQL遷移到SparkSQL后,運行時間、計算資源和內存資源大約可以節省40%。不同的計算引擎具有各自的優勢和適用場景,因此在實際應用中需要根據任務的具體需求和數據特點來選擇最合適的計算引擎,以實現更高效、更穩定和更節約資源的計算處理。
? 去冗余,平峰谷
企業的數據資源使用高峰期往往出現在凌晨0點至8點,導致全天資源峰谷相差太大,使得高峰期資源緊缺,因此需要評估高峰期的數據任務是不是有必要在該時間段運行。合理安排數據任務的時間,可以更好地均衡利用資源。
打磨數據治理智能工具,助力高效治理實施
? 治理急,線下先
當遇到緊急數據問題時,應首先采取線下溝通的方式,迅速召集相關人員討論并尋求解決方案,以最快速度解決這些問題。
? 累經驗,建工具
對于非緊急的、手工治理成本大且需要常態化治理的,使用線上工具治理更加合適。通過自動化工具可以大大降低人力成本,提高治理效率,并且可以實現全天候的實時監控和預警,為企業提供更加穩定、高效的數據治理服務。
? 體系化,智能化
數據治理需要體系化推進,不能“頭痛醫頭,腳痛醫腳”應對式片面治理,而要采取“步步為營”的科學式全面治理模式。
? 一站式,閉環式
提供一站式的治理工具和服務,遵循PDCA循環的科學理念,制定數據治理運營實施策略,并確保該策略“有計劃、能實施、可評估、促改進”。
? 工具易,運營難
數據治理是七分治理運營加三分工具建設的綜合體現。如果說治理工具是硬實力,那么治理運營則是軟實力。
? 若有方,皆可成
盡管數據治理工作充滿挑戰,但只要找到正確的方法并愿意投入精力,就一定能夠有效地管理企業的數據資產,進而加速推動企業的數字化轉型。
后記
數據治理“三字經”,伴君摘得“滿天星”。
筆者期望通過自己的創作分享,幫助企業在大數據領域中更好地摘取“滿天星”,推動數據資源向數據資產、數據資本轉變。
而數據資本,正是那漫天的繁星,引人注目,光彩照人。
作者介紹
韋真,長期致力于數據治理領域的研究與實踐,曾擔任世界500強企業數據治理負責人,在數據治理領域有著豐富的產品規劃、產品建設和運營實踐經驗。
附:《數據治理“三字經”》全文
數據治理“三字經” 韋 真 數之初,量本小。猛增長,遇瓶頸。 缺管理,實難控。若不治,隨可崩。 若廣治,懼其繁。治之道,貴以專。 高層挺,強執行。定戰略,樹文化。 建制度,設流程。善組織,齊協作。 權責利,當清晰。凡標準,共遵循。 察現狀,診問題。能識別,準定位。 能優化,可評估。能審計,可回溯。 須考核,納監督。有獎懲,必晾曬。 采存融,管治用。全鏈路,環相扣。 元數據,乃基石。設規則,保質量。 厘血緣,識脈絡。快追蹤,知影響。 數地圖,為核心。呈全景,知分布。 顯流動,明趨勢。攤成本,指方向。 自目錄,至明細。易檢索,助分析。 保安全,促開放。若合規,應共享。 分等級,分類型。嚴授權,護隱私。 建服務,少跑數。棄保姆,來自助。 始源頭,控增量。理價值,降存量。 設周期,常清理。需壓縮,宜存檔。 視場景,擇引擎。去冗余,平峰谷。 治理急,線下先。累經驗,建工具。 體系化,智能化。一站式,閉環式。 工具易,運營難。若有方,皆可成。 |