成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從管、存、算、規、治看數據資產管理

大數據 數據分析
如果你參與過大型企業BI系統的建設,那就一定能有所感觸。無數的決策分析系統成為臨時的“政績工程”,一時名聲大噪之后卻無人問津,大多因為后續數據不準確,無法真正為業務、管理提供實質的服務。這實則為數據分析項目建設的悲哀。

?據研究表明,在數據分析的整個過程中,數據準備會占大約80%的時間。怎樣把數據收集起來,并確保數據可直接用于分析展示,是最麻煩、最耗時的事情,這在企業級的數據分析中也被稱為是“最臟最累”的活。倘若數據未處理妥當,炫酷好看的可視化展示也毫無意義。

如果你參與過大型企業BI系統的建設,那就一定能有所感觸。無數的決策分析系統成為臨時的“政績工程”,一時名聲大噪之后卻無人問津,大多因為后續數據不準確,無法真正為業務、管理提供實質的服務。這實則為數據分析項目建設的悲哀。

做好數據準備、保證數據質量,都是數據資產管理的范疇。國際數據管理協會(DAMA International)在《DAMA數據管理知識體系指南(原書第2版)》一書中,將數據管理(DM)定義為“為了交付、控制、保護并提升數據和信息資產的價值,在其整個生命周期中制訂計劃、制度、規程和實踐活動,并執行和監督的過程”。

對于數據管理的職能,DAMA將其歸為十一大類:數據治理、數據架構、數據建模和設計、數據存儲和操作、數據安全、數據集成和互操作、文件和內容管理、參考數據和主數據、數據倉庫和商務智能、元數據、數據質量,如圖1所示。

圖片

▲圖1 DAMA數據管理框架

其中,數據架構、數據建模和設計、數據存儲和操作、數據集成和互操作、文件和內容管理、參考數據和主數據、元數據管理、數據倉庫和商務智能屬于“數據準備”的范疇,數據治理、數據安全、數據質量可以統一歸類為“數據治理”。

結合DAMA對數據管理職能的分類及內容,可將數據準備分為“管”“存”“算”個層面,將數據治理分為“規”、“治”兩個層面,如圖2所示。

圖片

▲圖2 “管” “存” “算” “規” “治”

1.數據之“管”

數據之“管”指狹義的數據管理,是對不同類別的數據采取不同的數據管理模式。這里我們把數據分為四個層次:元數據、主數據、參考數據、一般數據(交易數據)。通過數據之“管”,來確保數據來源的可靠性、數據內容的準確性、數據安全性及數據粒度的精細性。

不同的數據,根據其特性在數據量、更新頻率、數據質量和生命周期上有不同的特點。從數據的作用及管理的方式上來講,我們把數據分為四個層次:元數據、主數據、參考數據、一般數據(交易數據),如圖3所示。這里提到的數據之“管”,即指管理好這四個層次數據。

圖片

▲圖3 數據層次

元數據(Metadata):通俗地說就是描述數據的數據,比如數據的名稱、屬性、分類、字段信息、大小、標簽等等。要做好數據的管理,元數據起到了舉足輕重的作用。

參考數據(Reference Data):是用于將其他數據進行分類或目錄整編的數據,它定義了數據可能的取值范圍,可以理解為屬性值域,也就是數據字典。參考數據一方面有助于在TP(業務處理)側提升業務流程的準確性,另一方面在AP(數據分析)側規范數據的準確性,為多系統綜合分析提供有利的保障。

主數據(Master Data):指具有高業務價值的,關于關鍵業務實體的權威的、最準確的數據,被稱為“黃金”數據。通常用于建立與交易數據的關聯關系來進行多維度的分析。

一般數據:也就是交易數據。相對來說,我們可以認為元數據、參考數據、主數據為靜態數據,而一般數據則是動態數據。它一般隨著業務的發生而變化,比如資金交易流水。

2.數據之“存”

數據之“存”指數據存儲,指通過技術手段將數據存儲起來。涉及三個關鍵詞是“數據湖”、“數據倉庫”和“數據集市”。數據的有效性、及時性、相關性、一致性、安全性、準確性,其來源的可靠性、粒度的精細性,最終都會體現在“存”之上,具備上述條件的數據組合,幫助數據實現了其“豐富性”。

如果把數據比作是源源不斷的水,那么,數據湖可以比作湖泊,數據倉庫可以比作水庫,數據集便是超市。水在不斷的加工制造中,最后成為超市中的瓶裝水供人直接食用,就好比原始數據經過加工處理最終成為數據集市中直接可用于分析的數據。如圖4所示。

圖片

▲圖4 數據湖、數據倉庫和數據集

數據湖、數據倉庫和數據集形成了數據存儲的三個層次,三者層層遞進,各自發揮著其不同的作用。數據湖為非結構化數據分析、機器學習、預測分析提供了豐富的數據土壤;數據倉庫通過規范化的管理,為企業、組織系統化的規范數據體系提供了支撐;數據集則將數據場景化,讓數據觸手可得,實現即席分析。

數據湖(Data Lake,DL),是指一個集中化存儲海量的、多個來源、多種類型數據,并可以對數據進行快速加工、分析的平臺。數據倉庫(Data Warehouse,簡稱DW或DWH),是為支持決策而產生的數據池,它是整個組織中的各級人員可能感興趣的、當前和歷史的所有類型數據的戰略集合。

數據集市(Data Mart,DM),是滿足特定的部門或者用戶的需求,按照多維的方式進行存儲,生成面向決策分析需求的數據集合。

3.數據之“算”

數據之“算”,指的是數據預處理之“算”。為了保證數據分析時數據可用、好用而對數據進行的加工。是指對數據的清洗和加工,包括簡單的清洗和處理,也包括通過智能手段如借助算法模型對數據的清洗和加工。

數據預處理的關鍵鏈路如圖5所示。原始數據納入數據湖的管理,通常混雜著各種數據。要防止數據湖變為數據沼澤,就需要將數據碎片分門別類,將不可洞察的數據和無關數據歸類為數據噪聲,留下可洞察的數據和相關的數據,我們稱之為“信息元”。這類數據進一步通過數據加工形成整理后的數據,與可直接洞察的數據共同構成了可分析的數據。

圖片

▲圖5 數據預處理

我們前面提到數據處理大約占了數據分析80%的時間,而在數據處理的過程中,數據清洗幾乎會占據40%~70%的時間,且數據質量越差,其占比越高。數據清洗不能被孤立的看待,通過借助對元數據信息、數據分布情況的分析,甚至是根據分析結果的異常性來對數據進行有效的清理,會事半功倍。

所以,數據清洗和數據分析也是相輔相承,互相依賴、互相促進的。常見數據清洗包括對缺失值的處理和異常值的處理。

數據加工包括數據變換、數據結構轉換、表間數據處理等。ETL(抽取Extract、轉換Transform、加載Load)將上述數據清洗、數據加工的方法串聯起來,形成完整的數據之“算”鏈路體系,是數據準備過程中最重要的一環。04數據之“規”

4.數據之“規”

指數據規范,包括對數據規范的制定和數據管理上的規章制度。“規”是確保數據有效性、安全性的基石。

數據的規范,包括兩個層面。一方面針對數據本身,即數據標準;另一方面是數據管理上的規范和制度。我們可以通俗的理解為數據分析中的“法”。

數據標準

數據來源的多樣化帶來了數據的不一致性,多源系統數據整合的關鍵首先就是建立數據標準。數據標準的定義應遵循一定的原則,包括唯一性、統一性、通用性、穩定性、前瞻性、可行性“六大特性”和系列化、模塊化“兩化原則”。

基于上述特性和原則,數據標準從內容層次上可以分為語義標準、數據結構標準和數據內容標準。通過建立語義標準體系,保證整個組織層面關于數據分析的溝通“在一個頻道上”;通過建立數據結構體系,統一數據資源目錄及數據命名規則以確保數據規整、易查找;通過建立數據內容標準,根據業務梳理數據標簽及數據描述規則以提升分析效率。

數據規范

數據標準的執行,需要依賴制度的規范。無體系、無制度的管理無異于一般散沙。數據規范可以大致分為數據基礎規范、數據安全規范、數據質量規范三大類,如圖7所示。

圖片

▲圖6 數據規范體系

5.數據之“治”

數據之“治”指狹義的數據治理,實質上指數據治理相關的一套方法及體系,包括了實踐數據之“規”來確保數據質量的過程和方法。它不僅是技術上的治理工作,更是以有效滿足組織各層級管理訴求的有效手段,它應該是包括數據、應用、技術和組織的四位一體均衡的治理體系。數據治理,最重要的目標就是保證數據質量,即數據的一致性及準確性。理論體系總是看起來完美無缺,但應用到實際中,

往往是“理想是豐滿的,現實是骨感的”。先不說平臺如何搭建、技術如何選擇、如何保障安全性,真正深入到工作中,會發現,所有技術上的難題都不是最難的,如何說服各個部門主動配合數據收集工作,是最大的難點。所以,數據治理實質上并不只是技術問題,更是一個管理問題。做好數據治理,一定首先是自上而下的發起,其次是有足夠的組織保障,再次是建立切實有效的機制體系。

圖片

▲圖7 數據治理

數據治理需要依賴強大的統籌能力和管理能力才能得以實現,對于較大型的企業和組織來說,通常都是“吃力不討好”的活,要真正通過數據治理做出成效,是一件非常困難的事情。所以,這里一再強調的重中之重便是“高層負責”。

高層負責是基礎,切實有效地將數據治理落實下去,還需要有合理的“組織保障”。各業務部門的人通常都會被各類事務纏身,對他們來說,數據的梳理、整合一直是被認為重要但確經常無暇關注的事情。建立專門的數據主責部門,負責統一的管理協調工作,再由各業務部門配合各類業務數據的提供和質量保障,才是正解。

數據團隊快速的運轉離不開“機制建立”。機制需要建立在規范的基礎上,不同的是,它更側重強調管理、監控和流程。因此,不同的企業、組織均需要根據自身的組織架構和文化體系制定適合自己的機制。值得注意的,一方面是各環節責任人的落實,另一方面是需要在全面性和可執行性、規范性和時效性方面做一個平衡。

做好數據資產管理,是數據分析的重要基礎和保障。“管”、“存”、“算”、“規”、“治”是各類組織做好數據資產管理可以借鑒的有效手段。其中,“管”、“存”、“算”是業界已經形成的標準的基礎知識,可以直接使用;“規”、“治”則在不同的企業、組織中需要因地制宜,選擇適合自身的規范制度及治理機制。關于作者:陳雪瑩 ,現就職于明源云,曾就職于遠光軟件,擁有多年企業管理軟件實施及數據分析平臺產品管理一線從業經歷,在數據分析、產品設計及項目管理方面擁有豐富的經驗。

本文摘編于《智能數據分析:入門、實戰與平臺構建》,經出版方授權發布。(書號:9787111710646)轉載請保留文章來源。?

責任編輯:武曉燕 來源: 數倉寶貝庫
相關推薦

2020-12-31 11:21:10

聚焦數據

2023-04-28 07:34:35

數據管理數據資產管理

2022-08-23 14:00:48

數據管治

2022-06-09 09:40:55

數據資產盤點

2021-05-07 17:39:44

數據管理IT運營

2022-02-17 08:16:23

MMU內存管理

2009-09-18 09:37:51

惠普資產管理軟件

2022-09-02 07:39:15

存算存儲私有云

2016-09-14 15:43:01

數據資產

2020-02-07 09:32:08

數據安全數據資產管理安全風險

2022-10-25 18:02:31

大數據存算分離

2015-07-24 11:26:16

數據資產管理

2011-07-06 10:35:59

服務器HPC氣象預測

2017-08-18 15:01:26

網利寶資金存管

2021-07-06 18:40:00

數據安全法

2023-05-15 11:34:30

物聯網IOT

2021-04-12 13:07:36

數據治理數據資產CIO

2024-10-08 14:52:37

2022-02-23 15:48:09

東數西算通信網絡數據中心
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产日韩欧美中文字幕 | 免费在线观看av网址 | 免费成人av网站 | 精品国产一级 | 一区二区三区四区在线 | 一区二区国产在线 | 国产精品夜色一区二区三区 | 高清一区二区三区 | 亚洲日韩中文字幕一区 | 欧美综合国产精品久久丁香 | 久久亚洲一区 | 欧美激情精品久久久久久 | 久久午夜国产精品www忘忧草 | 欧美亚洲另类丝袜综合网动图 | 久久狠狠 | 欧美区日韩区 | 日韩av在线一区二区三区 | 中文一区二区 | 亚洲欧美在线一区 | 粉色午夜视频 | 久久亚洲欧美日韩精品专区 | 亚洲国产精品成人综合久久久 | 黄色网址在线免费播放 | 国产精品s色 | 99精品免费视频 | 亚洲精品在线看 | 日韩一区在线观看视频 | 中文字幕欧美日韩一区 | 欧美精品综合在线 | 亚洲成人一区二区在线 | 99久久亚洲 | 亚洲精品电影网在线观看 | 91久久精品日日躁夜夜躁国产 | 91九色在线观看 | 狠狠色综合久久婷婷 | 国产成人免费视频网站高清观看视频 | 久久国产视频网 | 日韩中文字幕在线播放 | 精品伦精品一区二区三区视频 | 日韩在线 | 在线观看中文字幕av |