數據資產管理:企業的數據資產怎么盤?
對企業來講,資產盤點不是一個新鮮的事。
所有企業都會定期或不定期地對公司的資產、存貨進行全部或部分的清點,以確實掌握該期末的企業存貨數量、價值,并因此加以改善,加強管理。通過資產盤點查明各項資產的庫存和使用情況,以便合理安排生產經營活動,充分利用各項財產物資,加速資金周轉,提高資產使用效率。這里的“資產”,是指企業的固定資產。
而數據作為企業一種“特殊資產”,被列入企業的資產負債表,是遲早的事情。數據資產當然也需要盤點,只有對數據資源進行統籌規劃,全面梳理,“摸清家底”,才能讓數據更好地服務于企業的業務應用。
一. 為什么需要數據資產盤點?
“數字化”在當今社會,已成為最熱門的話題之一,而數據是實現“數字化”的基礎。企業推進數字化的進程中,遇到的首要問題是“無數據可用和無可用數據”。
無數據可用,并不是企業真的沒有任何數據,恰恰相反的是,對于一些大型企業已經建設了幾十個、甚至上百個應用系統,這些系統實際上都沉淀了大量的數據,但由于缺乏對這些數據資源的統籌規劃和全面梳理,導致企業并不清楚自己有哪些數據,有多少數據,數據都在哪里,進而導致企業“無數據可用”
無可用數據,是由于數據都分散在各個應用系統中,缺乏統一的數據標準,系統彼此之間無法很好地通信,從而形成了一個個信息孤島,并且每個系統的數據質量層次不齊、標準不一,敏感數據未進行有效處理等等。這些問題的存在,導致企業數字化過程中,無可用的數據。
數據資產盤點解決以上問題的主要手段之一,通過對企業擁有的數據進行清點將幫助企業弄清楚以下問題:
- 企業有哪些數據?關注數據的分類;
- 企業有多少數據?關注數據的存量、增量;
- 企業的數據存儲在什么地方?關注數據的存儲和取用方式;
- 企業的數據是由誰在管理?關注數據的歸屬部門和責任人;
- 識別哪些是重要數據,哪些是敏感數據?關注數據的分級、共享條件和范圍。
二. 數據資產盤點從哪里開始?
企業的數據散落在各個異構系統、甚至業務人員電腦中,數據結構、數據類型、存儲形式、敏感級別、重要程度各不相同,整體看起來就像是一團亂麻的線,想要理出頭緒其實并不容易。
- 剪不斷,理還亂
- 不是離愁
- 是企業那些不一致、不準確、不完整,無序、分散、糾纏不清的數據
- ……
企業數據資產的盤點從定義一個合理盤點計劃開始!
1. 明確數據盤點范圍
數據盤點的范圍一般從三個角度定義:
- 組織范圍,即盤點要覆蓋哪些組織和部門,例如:集團本部、集團+分子公司等。
- 業務范圍,即要盤點哪些業務的數據,例如:采購業務、營銷業務、人力資源業務等;
- 系統范圍,即要盤點哪些應用系統的數據,例如:SCM系統、CRM系統、HR系統等。
2. 明確數據盤點人員
數據盤點誰負責牽頭,誰負責配合、誰負責審核?需要投入多少人力資源,需要投入多長時間,是兼職參與還是全職參與?這些問題需要在盤點計劃中進行明確定義,并與相關人員達成共識。
3. 明確數據盤點內容
數據盤點要根據業務的需要,確定哪些內容需要理清楚,諸如:
- 數據的分類:采購、營銷、生產、財務、人事等
- 數據的結構:結構化數據、半結構化數據、非結構化數據等
- 數據的類型:基礎數據、交易數據、統計數據、時序數據等
- 數據的存儲:SQL數據庫、文件存儲、流式數據等;
- 數據的敏感等級:核心、重要、一般等
- 數據的共享類型:不共享、有條件共享、無條件共享等
- 數據的開放類型:不予開放、有條件開放、無條件開放等
- 數據的存量:多少條目、多大容量等;
4. 明確盤點的計劃表
數據盤點應該有計劃的一步步推進,例如什么時間開始、什么時間結束、什么時間發布都需要定義清楚。
在明確了以上四個問題之后,你的數據盤點之旅就可以開啟了!
三. 數據資產應該由誰來盤點?
大家知道,企業固定資產的盤點一般是由財務部門牽頭,固定資產的管理部門和使用部門共同配合進行清點核對,以保證賬實相符。
而數據作為一種特殊的資產,確權難、虛擬性、可復制是其主要特征,這也為數據資產盤點造成了一定的困難。數據資產盤點,到底是應該誰負責牽頭,誰負責配合、誰負責審核,這個問題理不清楚,數據盤點工作的將很難推進!
數據資產盤點的原則是“誰生產,誰負責”,“誰使用,誰負責”,“誰管理,誰負責”,一般來說,業務部門既是數據的生產部門,也是數據的主要使用部門,而IT部門往往負責數據的管理。
理想情況下,數據的盤點應該由業務部門牽頭,因為他們更熟悉自己的數據,很多教材和課本上都是這么說的。但在實際項目中,我們看到數據盤點還是以IT部門牽頭的居多。
“業務離數據更近,更熟悉數據,這沒錯”,但是業務部門往往只熟悉自己負責的那一部分,缺乏全局思維和整體視角。所以,由業務部門牽頭的數據資產盤點,容易造成“盲人摸象”,過程中會遇到諸多問題而使盤點變得低效。
因此筆者認為,企業數據資產的盤點需要找到一個具有全局思維的人來進行統籌,規劃出數據盤點的相關原則、框架和藍圖,定義出數據盤點的內容,制定出數據盤點的模板,再由生產或使用數據的業務部門執行梳理,完成數據盤點工作。這個統籌的人可以是IT部門、數據管理部門,或是外部聘請的數據專家。
四. 數據資產盤點的基本方法
數據資產盤點有兩個基本方法:自上而下梳理和自下而上盤點可以幫助我們梳理出企業的數據資產清單或稱數據資產目錄。這兩個方法是配合使用,構成了數據資產盤點的兩個方面。
1. 自上而下梳理
自上而下梳理是一種以業務視角進行數據梳理的方式,通過對企業的相關制度文件、職能體系、業務流程、業務單據等進行全面分析,逐層分解,梳理數據資產的三級目錄、業務屬性和相關管理屬性。
三級目錄,即數據資產的分類,是按照業務視角對企業數據資產的梳理和分解,例如:數據域-數據主題-數據子主題-數據對象,(注:三級目錄不限于三級,但一般建議控制在五級之內為宜)。
業務屬性,即用來描述數據資產的業務元數據。如上圖所示,常見業務屬性包括:所屬數據域、數據主題等分類屬性,數據對象、業務定義、業務規則、敏感等級等。
管理屬性,即用來描述數據資產的管理、維護、使用相關元數據。如上圖所示,常見管理屬性包括:管理部門、管理人員、聯系方式、更新頻率、最后更新時間、數據共享條件等。(注:業務視角下,數據資產的管理屬性可能無法全部梳理出來,這就需要在技術盤點環節對其進行補充完善)
2. 自下而上盤點
數據資產盤點的另一個方面是以技術的視角,從IT系統--數據庫表--數據結構出發,進行自下而上歸納,逐步明確數據資產相關的系統信息項(技術屬性)。
技術屬性,即用來描述數據資產的技術元數據。如上圖所示,常見技術屬性包括:來源系統、數據庫表、字段類型、字段格式、取值范圍、存儲方式、血緣關系等。
最后,對業務視角的梳理出的目錄中數據項與技術視角的盤點出的系統信息項進行關聯,建立起兩者的映射關系,這樣一個完整的數據資源目錄就成型了。通過數據資產目錄可以從多個視角(業務或IT)進行數據的查找,并確保目錄中的每個數據項都可以在真實的IT系統中找到。
五. 數據資產盤點的基本流程
企業數據資產梳理和盤點一般可分為以下五個步驟,如下圖:
1. 制定盤點計劃
該階段需要確定盤點范圍、盤點目標、盤點內容、盤點人員、時間計劃(具體上文已說明,此處不再贅述);
2. 制定盤點模板
該階段需要根據盤點內容,制定數據梳理模板并定義數據資產標準項。內部對盤點工作進行培訓和宣貫,相關人員對盤點范圍、目標、內容等達成共識,理解并學會數據資產梳理模板的使用。
▲圖片來源:知乎,作者檀興
3. 數據資產盤點
一方面,從業務視角對數據資源進行梳理和規劃,包括:制度文件的解讀、流程表單梳理、關鍵數據的識別等,并定義數據的分類體系和數據資產的業務屬性。另一方面,從技術視角對系統數據進行盤點,包括:系統數據探查、數據結構、數據存量、數據增量、存儲方式等,并定義數據資產的技術屬性。
4. 盤點成果評審
針對梳理出來的數據資產清單、核心數據模型、數據分布圖圖等成果物進行評審和意見征集,并根據反饋意見完成相關成果物問題修訂。
5. 發布與應用
數據資產盤點成果的發布,并不是將數據資產清單以郵件或其他方式發布出去就行了,而是需要搭建起來專業的數據資產管理平臺,通過平臺落地數據資產目錄,將數據資產以“服務”的形式進行發布,實現數據資產在企業內的共享,以及面向外部的數據開放。
六. 數據目錄 VS 數據資產目錄
數據資產盤點的一個重要成果物是“數據資產目錄”。數據目錄和數據資產目錄到底有什么不同?
從本質上來講,不論是數據目錄還是數據資產目錄,都有“字典”的含義,都是為了定位數據,解釋數據,以及幫助用戶快速找到數據的。這是兩個目錄的共同點。
在項目實踐中,數據目錄更多是指通過元數據管理工具,對相關數據源(業務系統數據庫、數據倉庫、數據湖等)的元數據進行采集,而形成的數據目錄。由于直接采集過來的基本都是數據庫表結構、數據流、ETL腳本、數據庫操作日志等技術元數據,所以數據目錄要有一定的技術基礎才能看懂,而且它的定位就是給技術人員看的,例如:ETL工程師、BI工程師、開發工程師。
而數據資產目錄的不同在于:
第一,數據資產目錄是站在業務的視角,以利益相關者的數據需求為目標進行數據資源體系規劃的,例如:數據業務屬性的定義,數據域的劃分,分類分級體系的建設,數據共享和開放的設計等都是以業務使用為基礎的,這樣就形成了一個業務人員能夠看得懂的數據類目結構。因此,在整個目錄體系梳理和編目的過程中,業務人員參與是關鍵,是目錄體系使用和推廣的保證。
第二,數據資產目錄需要對每個編目的數據資源進行確權認責,明確數據資產的管理權、使用權,并確定它的共享條件和范圍。
第三,數據資產目錄管理的是數據資產,即:那些使用頻率比較高,能夠為業務帶來價值的數據。如何實現呢?這就需要數據資產目錄具備“打標簽/標注”的功能,通過識別數據的特征、含義、數據質量、使用頻率,使用場景、使用對象等對數據對象進行打標簽。標注的方式可以是人工打標簽,更先進的是通過機器學習、模型訓練的方式自動給數據進行分類和打標簽。
最后,數據資產目錄當然也需要用到元數據工具,采集和管理技術元數據。并通過數據關系映射,將數據資產目錄映射到物理庫表和字段上,以實現從多個視角都能夠找到想要數據。