圖數據科學是加速機器學習的秘訣嗎?
近十幾年來,機器學習領域的發展突飛猛進,已成為人工智能最具智能特征的前沿領域之一。隨著大數據時代各行業對數據分析需求的持續增加,數據的體量有了前所未有的增長,新的數據種類也在不斷涌現,機器學習越來越朝著智能數據分析的方向發展。
作為處理復雜信息的有效手段,圖數據科學有著出人意料的悠久歷史:早在18世紀,數學天才Leonhard Euler首次提出了這一概念。最近,隨著 Google 使用基于圖的頁面排名方法從而徹底改變了搜索,圖數據科學也由此變得尤為重要。
現在,圖技術不再是擁有內部專業知識和資源的網絡先鋒公司的獨門秘籍。過去,擁有訓練有素的研發團隊的領先公司才具有處理大量關聯數據的能力。時至今日,任何重視挖掘數據價值的組織都可以使用這種強大的創新技術,通過獨特的算法和嵌入來發現數據之間的關聯。
基于圖的數據工作正迅速成為業務主流。作為企業數據科學家工具箱的核心部分,圖數據科學將成為未來十年的重要特征。Gartner在《2021十大數據與分析技術趨勢》報告中指出:“到 2025 年,圖技術將用于 80%數據與分析的創新,這一數據高于2021年的10%,圖技術將會促進整個組織的快速決策。”
Gartner 此前還就人工智能和機器學習技術的使用情況對一些公司展開了調查。高達92%的受訪者表示他們計劃在五年內采用圖技術。而專注于該領域的學術研究也在不斷增加,近年來超過28,000篇關于圖驅動數據科學的同行評審科學論文被發表。
利用關聯進行更準確和可判斷的預測
企業采用圖數據科學的步伐正在加快。圖數據科學是一種強大的創新技術,可以通過圖算法來推理每條數據關聯情境的“形狀”。
為什么開發人員想要了解這個?這是因為圖數據科學能夠實現更卓越、更豐富的機器學習預測。圖數據科學正在徹底改變企業在不同場景下進行預測的方法,從欺詐檢測到追蹤客戶或患者,通過利用數據節點之間的關聯實現更準確和可判斷的預測。在藥物發明用例中,意味著可找到基因、疾病、藥物和蛋白質之間可能存在的新關聯,同時提供相鄰的上下文來評估任何此類發現的相關性或有效性。對于客戶推薦而言,則意味著從客戶旅程中學習,為未來的購買做出精準推薦,并通過展示歷史購買記錄,建立相關推薦的信心。
這種從數據中快速“學習”泛化、預測性特征的能力,使企業將機器學習提升到全新水平。雖然一些團隊仍在學習如何在現有機器學習工作流程中利用關聯數據,但現實中的用例數量正在迅速增長。圖技術采用者發現,從支持行業領域專家發現模式的查詢到識別高價值特征以訓練機器學習模型,圖技術讓他們如虎添翼。
新興的圖技術成功案例
讓我們來看看以上趨勢的一些案例。在歐洲,相關政府部門目前已經在使用圖數據科學,數據科學家也已部署借助圖技術構建的首個機器學習模型。生成的系統會根據用戶訪問的頁面,自動向其推薦來自政府在線資源的內容。該應用程序可顯示節點的連續特征,并將其用于各種機器學習任務,例如內容推薦。
政府數據科學家指出,“通過這個過程,我們了解到創建支持模型訓練和部署的基礎數據是最耗時的部分。” 在圖數據庫生態系統的另一領域,來自領先的媒體和營銷服務公司Meredith的高級數據科學家指出,圖算法的使用允許將數十億頁面瀏覽量轉換為具有豐富瀏覽配置文件的數百萬假名標識符:“向沒有進行身份驗證的在線用戶提供相關內容,對我們的業務至關重要……我們現在不再是’在黑暗中做廣告’,而是更好地了解客戶,這將不僅顯著增加營收而且為消費者提供更優質的服務。”
圖數據科學也可以為醫療供應鏈提供支持。全球醫療設備制造商波士頓科學公司 (Boston Scientific) 使用圖數據科學查找產品的故障原因。在這個案例中,位于不同國家和地區的多個團隊通常要聯手并行處理相同的問題,工程師必須分析不同電子表格中的數據。這會產生不一致并且難以找到問題的根本原因。波士頓科學公司表示,轉向使用圖技術為分析、協調和改進跨公司所有地區的制造流程提供了一種更有效的方法。
現在,用戶可以進行有意義的科學增強型數據搜索。分析查詢時間從兩分鐘縮短到10至55秒,這一提升有助于提高整體效率并簡化分析過程。可以識別更可能發生故障的特定環節。另一個好處是,圖數據模型非常簡單,更便于交流。“參與該項目的每個人,從商業利益相關者到技術實施者,都能夠相互理解,因為他們都說同一種語言,”該公司的數據科學家Eric Wespi 表示。該公司通過使用自然語言處理詳細分析檢查失敗的原始文本,提取和關聯主題以調查失敗的根本原因,從而產生更高的商業價值。
在國際制造業領導者卡特彼勒 (Caterpillar) 公司,圖數據科學能夠讓存儲維修技術文檔的大型數據庫的自然語言處理變得更加有效。當面臨需在超過2700萬份文檔中捕獲到有價值的數據但卻無法訪問時,公司開始著手創建一個能夠揭示內在聯系和趨勢的處理工具。基于圖的機器學習分類工具應運而生,從已標注“原因”或“投訴”等術語的數據部分中學習,從而應用于其他數據。它自己解析文本并快速找到模式和連接,構建層次結構并添加本體。
增強洞察力
圖數據科學應用的另一個案例是在醫療保健領域。紐約長老會醫院 (New York-Presbyterian Hospital) 的分析團隊使用圖技術來跟蹤感染并采取戰略部署控制感染。其開發人員發現,圖數據科學為他們提供了一種靈活的方式,可連接事件的所有維度——事件發生的“內容”、“時間”和“地點”。憑借這種洞察力,該團隊創建了一個“時間”和“空間”樹,搭建現場治療所有病房患者的模型。這個初始模型揭示了大量的相互關系,但僅此而已并不能滿足項目目標的要求。通過一個事件實體來連接時間樹和位置樹,由此產生的數據模型意味著分析團隊能夠分析模型中發生的一切,并在疾病傳播之前主動識別和控制疾病。
無可爭議的是2021年后圖數據科學將成為業務分析的關鍵部分,并提供有益的業務洞察力。Gartner的數據行業團隊預測,全球財富1000強公司中有四分之一將在三年內將圖技術列為高級數據處理和分析的計劃之中。
毫無疑問,圖數據科學的應用已經遠遠超越了18世紀,進入到商業領域。是時候發掘圖數據科學的巨大潛力來為商業問題提供解決方案。作為圖數據科學的先行者和領導者,Neo4j已幫助眾多機構和組織通過圖數據科學加速機器學習向智能分析的發展,以做出推動業務增長的預測。