從概念到管理,一文讀懂元數(shù)據(jù)
如今,各行各業(yè)正在被“瘋狂”的大數(shù)據(jù)所包圍,企業(yè)需收集,歸檔,研究的數(shù)據(jù)量也日益增長(zhǎng)。面對(duì)浩如煙海的數(shù)據(jù),企業(yè)管理者應(yīng)以什么為抓手來(lái)管理數(shù)據(jù),充分挖掘數(shù)據(jù)的價(jià)值呢?答案就是“元數(shù)據(jù)”。
Gartner 曾在研究報(bào)告里指出,“元數(shù)據(jù)管理將是未來(lái)企業(yè)信息化的核心基礎(chǔ)設(shè)施”,尤其在大數(shù)據(jù)環(huán)境中,如果企業(yè)不通過(guò)元數(shù)據(jù)管理把多種復(fù)雜的信息管理起來(lái),很難做到信息的有效利用。
“那么,究竟何為元數(shù)據(jù),何為元數(shù)據(jù)管理?本文將為大家梳理元數(shù)據(jù)的概念,幫助企業(yè)理解元數(shù)據(jù)管理的作用。”
一、什么是元數(shù)據(jù)?
元數(shù)據(jù)被定義為:對(duì)數(shù)據(jù)及信息資源的描述性信息。簡(jiǎn)單來(lái)說(shuō)就是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”。
比如:在上網(wǎng)選購(gòu)衣服時(shí),網(wǎng)店上展示的一件件衣服就是數(shù)據(jù)。而其中,衣服的品牌、款式、尺寸、顏色、面料材質(zhì)、適用年齡等就是元數(shù)據(jù),這些元數(shù)據(jù)詳細(xì)描述了這件衣服的具體信息,為你的購(gòu)物選擇提供參考。
在生活中,元數(shù)據(jù)的應(yīng)用場(chǎng)景非常多,甚至可以說(shuō),從我們呱呱落地開始認(rèn)識(shí)這個(gè)世界的時(shí)候,我們就與元數(shù)據(jù)密不可分,比如圖書館的藏書信息卡、個(gè)人的信息登記等都屬于元數(shù)據(jù)的應(yīng)用。
二、元數(shù)據(jù)有什么特點(diǎn)?
- 元數(shù)據(jù)是關(guān)于數(shù)據(jù)的結(jié)構(gòu)化的數(shù)據(jù)。
- 元數(shù)據(jù)是與對(duì)象相關(guān)的數(shù)據(jù),此數(shù)據(jù)使其潛在的用戶不必先具備對(duì)這些對(duì)象的存在和特征的完整認(rèn)識(shí)。
- 元數(shù)據(jù)是對(duì)信息包裹 (information package) 的編碼的描述。
- 元數(shù)據(jù)包含用于描述信息對(duì)象的內(nèi)容和位置的數(shù)據(jù)元素集,促進(jìn)了網(wǎng)絡(luò)環(huán)境中信息對(duì)象的發(fā)現(xiàn)和檢索。
- 元數(shù)據(jù)不一定是數(shù)字形式。
- 元數(shù)據(jù)不僅對(duì)信息對(duì)象進(jìn)行描述,還能夠描述資源的使用環(huán)境、管理、加工、保存和使用等方面的情況。
- 元數(shù)據(jù)可來(lái)自不同的資源。
- 在信息對(duì)象或系統(tǒng)的生命周期中自然增加元數(shù)據(jù)。
- 元數(shù)據(jù)常規(guī)定義中的“數(shù)據(jù)”,是表示事務(wù)性質(zhì)的符號(hào),是進(jìn)行各種統(tǒng)計(jì)、計(jì)算、科學(xué)研究、技術(shù)設(shè)計(jì)所依據(jù)的數(shù)值,或是說(shuō)數(shù)字化、公式化、代碼化、圖表化的信息。
三、元數(shù)據(jù)的作用
01、元數(shù)據(jù)是進(jìn)行數(shù)據(jù)集成所必須的
我們知道,數(shù)據(jù)倉(cāng)庫(kù)***的特點(diǎn)就是它的集成性。這一特點(diǎn)不僅體現(xiàn)在它所包含的數(shù)據(jù)上,還體現(xiàn)在實(shí)施數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的過(guò)程當(dāng)中:
一方面,從各個(gè)數(shù)據(jù)源中抽取的數(shù)據(jù)要按照一定的模式存入數(shù)據(jù)倉(cāng)庫(kù),這些數(shù)據(jù)源與數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的對(duì)應(yīng)關(guān)系及轉(zhuǎn)換規(guī)則都要存儲(chǔ)在元數(shù)據(jù)知識(shí)庫(kù)里。而另一方面,在數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目實(shí)施過(guò)程中,直接建立數(shù)據(jù)倉(cāng)庫(kù)往往費(fèi)時(shí)、費(fèi)力。
因此在實(shí)踐當(dāng)中,人們可能會(huì)按照統(tǒng)一的數(shù)據(jù)模型,首先建設(shè)數(shù)據(jù)集市,然后在各個(gè)數(shù)據(jù)集市的基礎(chǔ)上再建設(shè)數(shù)據(jù)倉(cāng)庫(kù)。不過(guò),當(dāng)數(shù)據(jù)集市數(shù)量增多時(shí)很容易形成“蜘蛛網(wǎng)”現(xiàn)象,而元數(shù)據(jù)管理是解決“蜘蛛網(wǎng)”的關(guān)鍵。
02、元數(shù)據(jù)可以幫助用戶理解數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)
系統(tǒng)用戶不可能像數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)管理員或開發(fā)人員那樣熟悉數(shù)據(jù)庫(kù)技術(shù),因此迫切需要有一個(gè)“翻譯”,能夠使他們清晰地理解數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的含意。
元數(shù)據(jù)可以實(shí)現(xiàn)業(yè)務(wù)模型與數(shù)據(jù)模型之間的映射,因而可以把數(shù)據(jù)以用戶需要的方式“翻譯”出來(lái),從而幫助最終用戶理解和使用數(shù)據(jù)。
03、元數(shù)據(jù)是保證數(shù)據(jù)質(zhì)量的關(guān)鍵
企業(yè)數(shù)據(jù)集成完成之后,在使用的過(guò)程中,用戶常常會(huì)對(duì)數(shù)據(jù)產(chǎn)生懷疑。這是由于底層的數(shù)據(jù)對(duì)于用戶來(lái)說(shuō)是不“透明”的,使用者很自然地對(duì)結(jié)果產(chǎn)生懷疑。
借助元數(shù)據(jù)管理系統(tǒng),最終的使用者對(duì)各個(gè)數(shù)據(jù)的來(lái)龍去脈以及數(shù)據(jù)抽取和轉(zhuǎn)換的規(guī)則都會(huì)很方便地得到,這樣他們自然會(huì)對(duì)數(shù)據(jù)具有信心;當(dāng)然也可便捷地發(fā)現(xiàn)數(shù)據(jù)所存在的質(zhì)量問(wèn)題。
04、元數(shù)據(jù)可以支持需求變化
隨著信息技術(shù)的發(fā)展和企業(yè)職能的變化,企業(yè)的需求也在不斷地改變。傳統(tǒng)的信息系統(tǒng)往往是通過(guò)文檔來(lái)適應(yīng)需求變化,但是僅僅依靠文檔遠(yuǎn)遠(yuǎn)不夠。
元數(shù)據(jù)獨(dú)立于平臺(tái),可以把整個(gè)業(yè)務(wù)的工作流、數(shù)據(jù)流和信息流有效地管理起來(lái),使得系統(tǒng)不依賴特定的開發(fā)人員,從而提高系統(tǒng)的可擴(kuò)展性。
四、元數(shù)據(jù)管理功能
元數(shù)據(jù)管理為大數(shù)據(jù)平臺(tái)繪制數(shù)據(jù)地圖、統(tǒng)一數(shù)據(jù)口徑、標(biāo)明數(shù)據(jù)方位、分析數(shù)據(jù)關(guān)系、管理模型變更及精確到字段級(jí)別的影響分析,打通上下游數(shù)據(jù)繼承關(guān)系斷層,為數(shù)據(jù)質(zhì)量維護(hù)和業(yè)務(wù)邏輯可視化打下堅(jiān)實(shí)基礎(chǔ)。
在這里我們主要對(duì)元數(shù)據(jù)管理中數(shù)據(jù)地圖、血緣分析、影響分析功能進(jìn)行深入了解。
01、數(shù)據(jù)地圖
數(shù)據(jù)地圖以拓?fù)鋱D的形式對(duì)企業(yè)運(yùn)營(yíng)過(guò)程中的技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù)進(jìn)行分層次的圖形化展現(xiàn),并通過(guò)不同層次的圖形展現(xiàn)粒度控制,滿足開發(fā)、運(yùn)維或者業(yè)務(wù)上不同應(yīng)用場(chǎng)景的圖形查詢和輔助分析需要。
02、血緣分析
血緣分析(也稱血統(tǒng)分析)是指從某一實(shí)體出發(fā),往回追溯其處理過(guò)程,直到目標(biāo)分析對(duì)象,按照轉(zhuǎn)化關(guān)系逐層擴(kuò)展。
血緣分析直觀的展示目標(biāo)對(duì)象的產(chǎn)生過(guò)程,包括從哪些表轉(zhuǎn)換而來(lái),經(jīng)歷了哪些轉(zhuǎn)換,從而幫助業(yè)務(wù)人員了解它在此過(guò)程中被賦予的含義,以及會(huì)受到的影響。
03、影響分析
影響分析描述了信息之間依賴性的細(xì)節(jié),分析一個(gè)數(shù)據(jù)源發(fā)生變化時(shí)帶來(lái)的影響。
影響分析反映了當(dāng)前對(duì)象在企業(yè)系統(tǒng)各平臺(tái)中,參與了哪些元數(shù)據(jù)的形成。用戶可以借助影響分析觀察該對(duì)象的影響能力,即對(duì)于當(dāng)前元數(shù)據(jù)修改,會(huì)對(duì)哪些后代元數(shù)據(jù)造成影響。
五、結(jié)束語(yǔ)
大數(shù)據(jù)時(shí)代下,無(wú)法挖掘的數(shù)據(jù)將沒有任何價(jià)值,換句話說(shuō),如果沒有管理好元數(shù)據(jù),收集和存儲(chǔ)的數(shù)據(jù)都會(huì)失去意義,也就沒有業(yè)務(wù)價(jià)值。
因此,企業(yè)信息化管理者只有重新拾起元數(shù)據(jù),以元數(shù)據(jù)為抓手進(jìn)行數(shù)據(jù)治理,逐步梳理企業(yè)數(shù)據(jù)、關(guān)系,加強(qiáng)管控,才能更好地管理企業(yè)數(shù)據(jù)資產(chǎn)。