數據的陰暗面:什么是暗數據?為什么暗數據很重要?
最近引起熱議的術語暗數據,確切的說,就是來自于大數據的陰暗面。盡管暗數據這個名字聽起來不吉利(讓人聯想到一個少年哥特樂隊會取的綽號),但是或許更加的準確。如果盡量減少不良的預感,暗數據更像是是大數據中光明的一面。
大部分的暗數據都被分類于結構造成的信息缺乏之中,而且,這些數據只被使用過一次,最后,就被儲存在邏輯混亂,數量龐大的其他社群之中了。實際上,一個信息系統產生的80%的文檔都未被二次使用。
那么,在我們進一步研究暗數據到底是什么(以及暗數據能夠造成多大的影響)之前,我們必須要了解這個術語是如何出現的。簡而言之,當信息管理系統遭到頻繁的挑戰,暗數據的出現應該看做一種警示。換而言之,不是我們如何管理信息,而是我們為什么要管理信息。某些數據,應該被隱藏起來。例如質量體系中的審計日志和訓練記錄等作為合乎規格的證據,就應該注意存儲,加強管理。萬一系統和進程被審核,這類數據就會被用到。作為一個IT人的觀點,這種故意而為之的隱藏行為,可以起到一個保證數據安全的功能,同時,能夠預防數據被非法入侵。
但是當頻繁使用的內容在無意之間變成了暗數據的時候,這不僅僅是一種不方便,而是一個嚴峻的問題。當一個許多年前的投資建議書忽然消失,因而必須重建的時候,由此帶來的后果不僅僅是重新修改以及更改用途,更會造成時間的浪費,做無用功。或者,當客戶需要技術支持的時候,作為一個技術支持工程師必須能夠瀏覽客戶的所有的歷史記錄,即使所需數據分散在無數的業務解決方案以及文檔存儲庫之中。
專家的意見:從失意之路轉化到成功彼岸
自從暗數據這個名詞出現以來,它被冠上的定義仍然有些悚人聽聞,但是,專家們拋開其負面的問題,也就是說,將注意力投向暗數據的潛在價值,即最大程度的利用企業的信息資產。
Gartner,把暗數據當做一種積極的“鬧鐘”,提醒企業應該改變未被利用的數據的現狀。“當常規的業務活動開展時,結構的收集,處理以及存儲的信息就會轉變成暗數據,尤其當這些數據不會被再次使用之后。”同樣,Forbes認為暗數據由過街老鼠轉變為香饃饃只有一個辦法,就是將這些數據運用在其他的業務之中。“暗數據產生于不斷增加的復雜的加工進程之中,由此,使之具備了規劃未來產業形態的能力。”
將暗數據加入上下文之中,加入元數據的工作之中
最先提到暗數據時,我們首先會聯想到它是對信息管理的一種挑戰。現如今再提及暗數據的時候,我們會從一個更加理智的方面,把它看做一種管理利用現有信息的手段。由引擎驅使的就是元數據——從字面上看,就是關于數據的數據,可以在一個開放的領域內,進行確認,鏈接以及選取相互滲透的信息。
至于如何實現該建議,我們應該擴展自己對于元數據的使用方法,來創造一個更具整體性的商業觀點,而不是局限于自身對元數據的觀念。元數據包含著特殊的屬性,它不僅僅和系統中的關鍵元素相互聯系,同樣,也可以智能地被項目、客戶、工作流、狀態欄以及其他的因子用于操控進程、分類數據。信息財產的價值只有當提及與其相關的元數據的總量,才能展現出來。
當駕駛員在路上需要物件來照亮的時候,對比于暗數據,元數據就像是一組全方位的車前燈,使用它的目的非常明確。元數據能夠通過一個或多個代碼庫闡明這些關系,或者通過一個ERP系統和CRM系統,也能夠確認信息在一個相容的環境下被讀取,存儲以及分享。元數據可以提供一個簡明扼要的方式,來查找數據源或者歷史信息,在此同時,可以確保工作流和業務流程都已被合理的管理。
更深層次的挖掘這個想法之后,就會發現,元數據也可以組成關于文件的發展和循環的信息,而這些記錄更是包含了客戶、流程、以及涉及到應用的創新、修訂、存檔、保留和銷毀。完全能夠和粒度細節相媲美、深度挖掘如評審、批準以及存取許可改變的確切時間戳。
從灰暗面到光明面:管理元數據
正因為暗數據是大數據的萎靡面,要扭轉這樣的局面只能依靠對元數據的管理。而且,IT行業的管理者在管理結構的時候也會獲得更多的靈活性。把元數據當做一個微錨節點加入到文件之中,可以保證所有的企業信息都是可查找的,可利用的,可輸出的——無論是任何種類的文件,格式和對象均可。
在這樣的模式下企業就會發現,元數據常駐的時候,重要的數據就變少了。但是,信息該被最好的分類管理,以實現信息使用和信息價值的最大化。通過單獨管理元數據,組織可以獲得一個更為全面的企業內容的觀念,即使與元數據相關聯的信息中沒有出現新的文件,如審計和偏差,元數據也可以提供一個過程和流程,使之變成自己的財產。
因此,當我們把暗數據當做一種未被充分利用的信息,就可以看出元數據包含了像素,如果你愿意,照明信息資產的連通和連配,用以創造一個觀察信息的360度的視角。這種對信息管理的全景方法,不僅僅將暗數據予以利用,也使得分散的信息能夠被更直接的運用。