改進機器學習:知識圖譜如何為數據賦予更深層的意義?
譯文編譯 | 布加迪
編輯 | 薛彥澤
【51CTO.com快譯】許多企業在部署機器學習系統時,采用了過時的數據管理方法,這就會導致兩個負面影響:一是過時的數據復制方法會延遲最終的洞察結果,二是造成數據缺乏統一性、語境化。
過度的數據復制和由此產生的“二階效應”正在給大多數組織的數據科學家造成巨大的低效和浪費。據IDC公司聲稱,去年生成了超過60ZB的數據,預計年復合增長率將達到23%,并將一直持續到2025年。更糟糕的是,獨特數據與復制數據之比為1:10,這意味著大多數組織的數據管理方法基于拷貝數據。
公司在創建機器學習模型時,通常通過從不同數據源復制相關數據來劃分這些數據。模型通常拿其中20%的數據進行訓練,其余80%的數據保留用于測試。數據清理、特征工程和模型評估這些工作需要六個月或更久,這會使數據在此過程中變得過時,同時推遲獲得洞察的時間,并影響數據結果。
傳統、過時的數據管理方法的第二個影響是洞察質量下降。這種影響不僅歸因于使用陳舊數據構建模型,還歸因于關系意識不足、垂直數據孤島斷開、上下文信息不足以及關系數據管理技術在模式(schema)上的限制。
用現代數據結構正確實施知識圖可以糾正這些數據管理問題,同時增加機器學習的價值。在知識圖助力的數據結構中部署數據虛擬化使數據科學家能夠將機器學習引入到數據,避免了浪費時間和資源。
此外,圖模型固有的靈活性及其利用相互關系的能力使得組織為機器學習準備數據變得極其容易,因為它們提供了改進的特征工程、根本原因分析和圖分析等功能。隨著數據管理和人工智能趨于融合,這項功能還幫助知識圖轉而成為未來20年主要數據管理結構的關鍵。簡而言之,知識圖對AI的幫助將如同AI對知識圖的幫助一樣大。
數據科學家需要戰略數據管理
越來越多的數據組織在處理長期的機器學習部署。數據孤島或數據湖中不同的數據格式、模式和術語會延遲需要這些訓練數據的機器學習計劃。缺乏上下文和語義注釋使得組織難以理解數據的含義及特定模型的用途。即使數據有充足的上下文,這些信息也很少能持久,因此組織必須重新開始后續項目。快速移動的數據(比如物聯網設備收集的信息)使復制這些不同數據時所需的數月培訓變得更加困難。組織被迫通過再次復制新數據來應對這一障礙,重新啟動這個損害模型功能的耗時過程。
一種推薦方法是在數據結構層訓練模型,而不是將數據復制到孤島中。組織無需移動數據,即可輕松創建訓練數據集和測試數據集。比如說,組織甚至可以指定一個隨機的20% 的數據樣本,使用查詢通過這種基于知識圖的數據虛擬化方法提取特征并提供訓練數據集。這種方法闡明了數據管理和機器學習之間的聯系,以加快獲得洞察力,另一個好處是使用更新穎的數據訓練模型。
獲得高質量的機器學習洞察力
與關系或其他方法相比,知識圖譜為理解企業數據提供了更豐富、更扎實的基礎。它們提供節點邊緣之間的上下文理解和關系檢測,這是圖存儲數據的方式。語義圖數據模型顯著增強了該功能,這種模型將針對特定公司的術語標準化為一組分層的詞匯表或分類法。因此,數據科學家天生就能理解數據的含義以及與任何用例(比如機器學習)的關系。語義圖數據模型還在模式層面對齊數據,提供有關概念或業務類別的智能推斷,并在提供企業數據完整視圖的同時避免術語或同義詞存在的傳統問題。
這些特征對此至關重要:縮短為機器學習準備數據所需的時間,同時從可用數據中生成高度細微的、語境化的洞察力。這種方法的另一個好處是針對圖的算法與機器學習密切相關。它們允許數據科學家充分利用與聚類、降維、主成分分析(PCA)和無監督學習相關的特定技術,這些技術非常適合為機器學習準備好圖格式的訓練數據。這些技術及其他技術(如圖嵌入)可以加快特征生成過程,或為數據準備提供影響分析。
融合數據管理和知識管理
知識圖譜對機器學習的總體效用證明了數據管理和知識管理具有相輔相成的性質。引用廣受贊譽的谷歌研究教授Peter Norvig的話來說,有了足夠的數據,人們就不需要花哨的算法。也就是說,在知識圖譜和數據虛擬化支持的統一數據結構中融合數據管理和知識管理提供了更豐富、更高質量的數據,從而使組織能夠在沒有完美算法的情況下優化機器學習。
比如說,如果擁有關于客戶購買習慣的足夠數據,組織就不需要花哨的算法來預測哪些客戶會對新產品感興趣。數據管理和知識管理的融合為組織提供了增強的智能算法及模型,進而為決策提供了有力的信息依據,從而最大限度地發揮AI的優勢。
原文標題:Improving Machine Learning: How Knowledge Graphs Bring Deeper Meaning to Data,作者:Kendall Clark
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】