人工智能如何拯救企業數據目錄?
“數據目錄”這一概念其實并不新鮮,早在大型機時代,企業就開始通過數據目錄跟蹤、管理其數據資產。數據目錄保存的是與數據有關的數據,或稱之為元數據。一個企業的數據目錄需要記錄遍及整個公司的所有數據庫和文件,并為其添加描述,例如,如果有可能的話,對文件與文件之間的關系進行記錄。
數據目錄允許業務用戶快速找到他們所需的信息源——無論是資產數據、公司的地理位置,還是產品和供應商的信息。但是,數據目錄只有在保持最新的情況下才能保證有效——而在一個快速變化的行業中,這可能很難做到。
元數據和數據目錄
理解元數據的一個簡單方法是用電影來類比。電影存儲在廣播公司的電影庫中,但是您需要保存的不僅僅是電影的標題。重要的是要知道這部電影的時長是多少、里面有哪些演員、誰是導演、誰是編劇、以及關于劇本的信息,所有這些都是關于電影的元數據。
想必大家對數據目錄、數據字典和業務術語表等概念也已經大概了解了。業務術語表針對的是業務用戶,而數據詞典針對的是更懂技術的受眾,兩者之間存在著細微的差別。不過這三個概念都明顯與元數據有關——而且它們都面臨著類似的挑戰。
企業數據目錄的挑戰
早期的數據目錄主要關注技術數據,比如數據庫中有多少字段、字段是基于數字還是基于字符、字段有多長以及它是否有一個有效值范圍。后來,該定義被擴展為包括關于業務數據類型的信息,甚至包括該數據的定義,例如什么是“客戶”、“產品”或“資產”。
其中有一個關鍵問題在于,企業數據目錄可能會過時。通常情況下,熱心的員工會輸入關于各種系統和數據庫內容的信息,但是卻沒有什么動力來時刻保證這些信息都是最新的。當新系統部署完成、整個公司被收購且它們的系統被添加到企業投資組合中,或者進行重組時,那些費力輸入的描述性元數據會變得過時,以至于不再受信任,然后就不用了。
雖然許多公司花了很多精力來實現有效的目錄,但是隨著業務的快速變化,很少有公司會持續努力保持企業數據目錄完全同步。因此,盡管今年來有幾家軟件供應商提供了數據目錄、數據字典和業務術語表等產品服務,但并未得到真正意義上的廣泛普及。
AI和企業數據目錄
在數據量和數據種類不斷增加的時代,讓企業數據目錄保持最新,已經變得越來越困難。但是,人工智能等技術的應用,獲取可以對此狀況有所改變。
機器學習應用程序可以篩選企業數據目錄和文件系統,自動收集元數據標記,整個過程類似于谷歌在互聯網上搜索網站并進行編目和索引的方式。將此技術應用于數據目錄,可以幫助企業實現自動填充和更新——不需要人工干預。這可以解決阻礙企業數據目錄的關鍵問題:需要人工做許多繁復的工作??梢灶A見,人工智能很可能將幫助數據目錄市場蓬勃發展。