成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

淺談數(shù)據(jù)質(zhì)量管理

大數(shù)據(jù)
大數(shù)據(jù)平臺(tái)搭建之初,會(huì)優(yōu)先滿足業(yè)務(wù)的使用需求,數(shù)據(jù)質(zhì)量往往是被忽視的一環(huán)。但是隨著業(yè)務(wù)的逐漸穩(wěn)定,數(shù)據(jù)質(zhì)量越來越被人們所重視,千里之堤,潰于蟻穴,糟糕的數(shù)據(jù)質(zhì)量往往就會(huì)帶來低效的數(shù)據(jù)開發(fā),不準(zhǔn)確的數(shù)據(jù)分析,最終會(huì)導(dǎo)致錯(cuò)誤的業(yè)務(wù)決策。

Part 01、  什么是數(shù)據(jù)質(zhì)量管理 

數(shù)據(jù)質(zhì)量管理,是DAMA數(shù)據(jù)管理知識(shí)體系指南中數(shù)據(jù)治理領(lǐng)域非常重要的一部分(圖1 所示),主要是指對(duì)數(shù)據(jù)從計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用、消亡生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一列管理活動(dòng),并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。

圖1

Part 02、 數(shù)據(jù)質(zhì)量問題原因及評(píng)價(jià)標(biāo)準(zhǔn) 

數(shù)據(jù)在計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)等各個(gè)環(huán)節(jié)都有可能引發(fā)數(shù)據(jù)質(zhì)量問題,主要原因分為幾下幾個(gè)方面:

數(shù)據(jù)不完整:由于企業(yè)信息系統(tǒng)的孤立使用,各個(gè)業(yè)務(wù)系統(tǒng)或模塊按照各自的需要錄入系統(tǒng),沒有統(tǒng)一的錄入工具和數(shù)據(jù)出口,業(yè)務(wù)系統(tǒng)不需要的信息就不錄,造成同樣的數(shù)據(jù)有不同的信息屬性,再或者取數(shù)動(dòng)作不規(guī)范,或許某個(gè)數(shù)據(jù)本身就是采集過來的,本來就是不完整的,數(shù)據(jù)完整性無法得到保障。

數(shù)據(jù)不合規(guī):沒有統(tǒng)一的數(shù)據(jù)管理平臺(tái)和數(shù)據(jù)源頭,數(shù)據(jù)生命周期管理不完整,同時(shí)企業(yè)各信息系統(tǒng)的數(shù)據(jù)錄入環(huán)節(jié)過于簡(jiǎn)單且手工參與較多,就數(shù)據(jù)本身而言,缺少是否重復(fù)、合法、對(duì)錯(cuò)等校驗(yàn)環(huán)節(jié),導(dǎo)致各個(gè)信息系統(tǒng)的數(shù)據(jù)不夠準(zhǔn)確,格式混亂,各類數(shù)據(jù)難以集成和統(tǒng)一,沒有質(zhì)量控制導(dǎo)致海量數(shù)據(jù)因質(zhì)量過低而難以被利用。

數(shù)據(jù)時(shí)效性差:大數(shù)據(jù)項(xiàng)目對(duì)數(shù)據(jù)的時(shí)效性要求是非常嚴(yán)格的,比如離線項(xiàng)目是每天計(jì)算前一天的數(shù)據(jù),如果前一天的源數(shù)據(jù)因?yàn)槟承┰驔]有被及時(shí)的傳輸過來,這樣就會(huì)嚴(yán)重影響后面指標(biāo)的計(jì)算以及報(bào)表的生成。

數(shù)據(jù)冗余:各個(gè)信息系統(tǒng)針對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)規(guī)范不一、編碼規(guī)則不一、校驗(yàn)標(biāo)準(zhǔn)不一、且部分業(yè)務(wù)系統(tǒng)針對(duì)數(shù)據(jù)的驗(yàn)證標(biāo)準(zhǔn)缺失,造成了企業(yè)頂層視角的數(shù)據(jù)出現(xiàn)“一物多碼,一碼多物”等現(xiàn)象。

數(shù)據(jù)不精確:數(shù)據(jù)的精確性也是指數(shù)據(jù)的準(zhǔn)確性,是指數(shù)據(jù)是否與目標(biāo)值匹配;比如一個(gè)訂購金額,如果遠(yuǎn)遠(yuǎn)大于或低于常規(guī)的數(shù)值,那么我們就要懷疑這個(gè)的數(shù)據(jù)的精確性不夠。

那么如何判斷數(shù)據(jù)質(zhì)量的優(yōu)劣?從哪些方面可以評(píng)估數(shù)據(jù)質(zhì)量?在實(shí)踐中,我們可以通過數(shù)據(jù)質(zhì)量評(píng)估維度進(jìn)行評(píng)估。數(shù)據(jù)質(zhì)量評(píng)估維度是數(shù)據(jù)質(zhì)量的特征之一,它們?yōu)槎攘亢凸芾頂?shù)據(jù)的質(zhì)量提供了一種途徑和標(biāo)準(zhǔn)。在一個(gè)具體的數(shù)據(jù)質(zhì)量項(xiàng)目中,要選擇最適用于業(yè)務(wù)需求的數(shù)據(jù)質(zhì)量維度進(jìn)行測(cè)量,以評(píng)價(jià)數(shù)據(jù)的質(zhì)量。

在《GB/T36344-信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)》中,國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)明確了數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)框架如圖2所示。

圖2圖2

  • 規(guī)范性:數(shù)據(jù)符合數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型、業(yè)務(wù)規(guī)則、元數(shù)據(jù)或權(quán)威參考數(shù)據(jù)的程度。
  • 完整性:按照數(shù)據(jù)規(guī)則要求,數(shù)據(jù)元素被賦予數(shù)值的程度。
  • 準(zhǔn)確性:數(shù)據(jù)準(zhǔn)確表示其所描述的真實(shí)實(shí)體(實(shí)際對(duì)象)真實(shí)值的程度。
  • 一致性:數(shù)據(jù)與其他特定上下文中使用的數(shù)據(jù)無矛盾的程度。
  • 時(shí)效性:數(shù)據(jù)在時(shí)間變化中的正確程度。
  • 可訪問性:數(shù)據(jù)能被訪問的程度。

Part 03、目前常用的數(shù)據(jù)質(zhì)量管理工具 

3.1 Apache Griffin

Griffin是一個(gè)開源的大數(shù)據(jù)質(zhì)量解決方案, 2016年12月07日進(jìn)入 Apache 孵化,由eBay開源,它支持批處理和流模式兩種數(shù)據(jù)質(zhì)量檢測(cè)方式,是一個(gè)基于Hadoop和Spark建立的數(shù)據(jù)質(zhì)量服務(wù)平臺(tái) (DQSP),如圖3所示。它提供了一個(gè)全面的框架來處理不同的任務(wù),例如定義數(shù)據(jù)質(zhì)量模型、執(zhí)行數(shù)據(jù)質(zhì)量測(cè)量、自動(dòng)化數(shù)據(jù)分析和驗(yàn)證,以及跨多個(gè)數(shù)據(jù)系統(tǒng)的統(tǒng)一數(shù)據(jù)質(zhì)量可視化。

圖3圖3

Griffin由Define、Measure、Analyze三大模塊組成,各個(gè)部分的職責(zé)如下:

Define:主要負(fù)責(zé)定義數(shù)據(jù)質(zhì)量統(tǒng)計(jì)的維度,比如數(shù)據(jù)質(zhì)量統(tǒng)計(jì)的時(shí)間跨度、統(tǒng)計(jì)的目標(biāo)(源端和目標(biāo)端的數(shù)據(jù)數(shù)量是否一致,數(shù)據(jù)源里某一字段的非空的數(shù)量、不重復(fù)值的數(shù)量、最大值、最小值、top5的值數(shù)量等)。

Measure:主要負(fù)責(zé)執(zhí)行統(tǒng)計(jì)任務(wù),生成統(tǒng)計(jì)結(jié)果。這一塊主要技術(shù)棧使用的是Livy+ Spark,Spark作為執(zhí)行引擎,Apache Livy基于Spark的開源REST服務(wù),它能夠通過REST的方式將代碼片段或是序列化的二進(jìn)制代碼提交到Spark集群中去執(zhí)行。

Analyze:主要負(fù)責(zé)保存與展示統(tǒng)計(jì)結(jié)果。

-現(xiàn)狀分析:

  • Griffin的社區(qū)并不太活躍,現(xiàn)在最新版本還是0.6,網(wǎng)上技術(shù)文檔并不算太多, 擔(dān)心出了問題比較難找到解決方案。
  • 從技術(shù)棧的角度Livy過于小眾,數(shù)據(jù)存儲(chǔ)方面ES的運(yùn)維對(duì)于一個(gè)小團(tuán)隊(duì)來說也比較麻煩。
  • 針對(duì)數(shù)據(jù)檢查任務(wù)的調(diào)度和數(shù)據(jù)檢查結(jié)果的后續(xù)處理方面,Griffin一般還需要和現(xiàn)有的大數(shù)據(jù)調(diào)度平臺(tái)打通,也有一定的工作量。

3.2 Apache DolphinScheduler

在2022年4月22日,Apache DolphinScheduler 正式宣布 3.0.0 alpha 版本發(fā)布,此版本中用戶期待已久的數(shù)據(jù)質(zhì)量校驗(yàn)應(yīng)用功能上線,實(shí)現(xiàn)了數(shù)據(jù)質(zhì)量的原生支持,支持在工作流運(yùn)行前進(jìn)行數(shù)據(jù)質(zhì)量的校驗(yàn),可由用戶自定義數(shù)據(jù)質(zhì)量的校驗(yàn)規(guī)則,實(shí)現(xiàn)了任務(wù)運(yùn)行過程中對(duì)數(shù)據(jù)質(zhì)量的嚴(yán)格控制和運(yùn)行結(jié)果的監(jiān)控,如圖4所示。

圖4圖4

-現(xiàn)狀分析

  • DolphinScheduler作為一個(gè)任務(wù)調(diào)度系統(tǒng),具備了執(zhí)行任務(wù)的基礎(chǔ),不需要引入新的組件來提交任務(wù);
  • 數(shù)據(jù)質(zhì)量檢查可以作為一種任務(wù)類型無縫接入到工作流當(dāng)中;
  • 無需新增其他服務(wù)來增加運(yùn)維的難度;
  • 可以很好地與社區(qū)共建開源。

基于以上現(xiàn)狀,DolphinScheduler是一款比較適合與業(yè)務(wù)相結(jié)合進(jìn)行二次開發(fā)的數(shù)據(jù)質(zhì)量工具,但是目前僅適用于離線數(shù)據(jù)驗(yàn)證。

3.3 Deequ

Deequ是一個(gè)來自AWS實(shí)驗(yàn)室的開源工具,可以用來驗(yàn)證許多大型生產(chǎn)數(shù)據(jù)集的質(zhì)量。數(shù)據(jù)生產(chǎn)者可以通過添加和編輯數(shù)據(jù)質(zhì)量約束,使得系統(tǒng)定期計(jì)算數(shù)據(jù)質(zhì)量指標(biāo)。當(dāng)數(shù)據(jù)質(zhì)量約束成功時(shí)將數(shù)據(jù)集發(fā)布給消費(fèi)者,錯(cuò)誤時(shí)可停止數(shù)據(jù)集的發(fā)布,并通知生產(chǎn)者采取行動(dòng),這樣數(shù)據(jù)質(zhì)量問題就不會(huì)傳播到消費(fèi)者的數(shù)據(jù)管道,從而減少它們的爆炸半徑。主要組件如圖5所示。

圖5圖5

  • 指標(biāo)計(jì)算(Metrics Computation),Deequ 計(jì)算數(shù)據(jù)質(zhì)量指標(biāo),即完整性、最大值或相關(guān)性等統(tǒng)計(jì)數(shù)據(jù)。Deequ 使用 Spark 從 Amazon S3 等源中讀取數(shù)據(jù),并通過一組優(yōu)化的聚合查詢計(jì)算指標(biāo)。
  • 約束驗(yàn)證(Constraint Verification),作為用戶,可以專注于定義一組要驗(yàn)證的數(shù)據(jù)質(zhì)量約束,Deequ負(fù)責(zé)利用該約束在數(shù)據(jù)集上進(jìn)行計(jì)算,進(jìn)而生成數(shù)據(jù)質(zhì)量報(bào)告,其中包含約束驗(yàn)證的結(jié)果。
  • 約束建議(Constraint Suggestion),可以選擇自定義所需的數(shù)據(jù)質(zhì)量約束,或使用自動(dòng)約束建議方法來分析數(shù)據(jù)以推斷有用的約束。

-現(xiàn)狀分析:

  • Deequ和spark關(guān)聯(lián)密切,使用spark技術(shù)框架的可以考慮。
  • 社區(qū)較為活躍,使用的較多。

3.4 Great Expectations

Great expectations是一個(gè)python的工具包,Python近幾年在數(shù)據(jù)分析領(lǐng)域大放異彩,而Python本身對(duì)于數(shù)據(jù)質(zhì)量問題的解決一直是一個(gè)大問題。而Great expectations正好彌補(bǔ)了這方面的不足。對(duì)于一些對(duì)Python支持良好的公司,可以優(yōu)先選擇Great expectations來進(jìn)行數(shù)據(jù)質(zhì)量的解決方案建設(shè)。

-現(xiàn)狀分析:

  • 版本更新快,Bug修復(fù)也快。
  • 社區(qū)非?;钴S,值得長(zhǎng)期關(guān)注。
責(zé)任編輯:龐桂玉 來源: 移動(dòng)Labs
相關(guān)推薦

2009-07-22 15:47:05

軟件質(zhì)量管理

2018-07-11 14:06:04

數(shù)據(jù)質(zhì)量數(shù)據(jù)治理數(shù)據(jù)清洗

2022-09-14 12:26:13

質(zhì)量管理企業(yè)關(guān)系管理

2022-08-29 10:58:50

Kubernetes應(yīng)用質(zhì)量管理

2012-01-06 14:10:42

數(shù)據(jù)質(zhì)量管理大數(shù)據(jù)數(shù)據(jù)管理

2017-12-15 15:38:00

2012-04-20 09:35:53

大數(shù)據(jù)數(shù)據(jù)中心數(shù)據(jù)質(zhì)量管理

2023-02-06 16:50:46

數(shù)據(jù)治理工具

2011-05-03 09:34:50

Sonar

2023-12-29 08:00:00

2012-03-15 17:11:51

JavaSonar

2011-01-07 10:43:45

應(yīng)用軟件質(zhì)量管理

2023-10-29 16:44:39

數(shù)據(jù)質(zhì)量管理開源

2021-09-23 17:21:19

網(wǎng)易數(shù)據(jù)質(zhì)量大數(shù)據(jù)平臺(tái)

2011-03-01 10:29:32

互聯(lián)網(wǎng)

2023-12-26 08:37:41

2009-10-27 11:31:00

系統(tǒng)集成項(xiàng)目管理師試題答案

2011-01-25 11:33:53

質(zhì)量管理軟件測(cè)試

2013-09-24 15:14:46

普元軟件
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 在线观看欧美日韩视频 | 一区二区精品在线 | 久久精品成人热国产成 | 色吧久久 | 99热这里都是精品 | 91福利电影在线观看 | 天天夜天天操 | 亚洲欧美在线一区 | 成人美女免费网站视频 | 国产视频福利在线观看 | 久久精品二区亚洲w码 | 一级在线观看 | 国产日产精品一区二区三区四区 | 91免费视频 | 懂色中文一区二区三区在线视频 | 男人的天堂在线视频 | 亚洲精品区 | 亚洲毛片在线 | www.五月天婷婷 | 日韩欧美中文字幕在线视频 | 国产99在线 | 欧美 | 亚洲欧美视频 | 精品九九九 | 午夜精品久久久久久久久久久久久 | 国产精品一二三区在线观看 | 欧美亚洲免费 | 久久青 | 亚洲精品自拍视频 | 精品视频免费 | 亚洲一区二区三区在线免费观看 | 欧美精品一区在线发布 | 国产精品久久久久久久久久久久午夜片 | 男女羞羞视频大全 | 国产精品日韩欧美一区二区三区 | 在线一区二区三区 | 久久剧场| 天天干天天干 | 91在线精品视频 | 精品久久久一区二区 | www.9191 | 九九在线视频 |