被冷落的大數據熱點:圖譜分析
開源項目GraphLab的公司化,標志著圖譜數據庫和圖譜處理應用的商業化進程已經啟動。
GraphLab是一個流行的圖譜分析和機器學習的開源項目,最近該項目剝離出一個獨立運作的商業公司GraphLab Inc,其創始人,華盛頓大學機器學習專業教授Carlos Guestrin將負責公司的運作,目前GraphLab已經從Madrona Venture Group和NEA募集了675萬美元資金。
圖譜分析是大數據集分析的熱門領域,主要被用來分析數據節點之間的關系和相似度。“圖譜”一詞源自社交網絡的人際網絡關系圖譜分析,但是今天圖譜分析的應用范圍要廣得多。
根據Guestrin介紹,GraphLab的算法被應用于很多推薦系統,也包括銀行的欺詐偵測和電腦網絡中的入侵偵測等領域。實際上,圖譜分析模型可以適用于從內容推薦到基因分析等各個領域。尤其是與機器學習結合后,圖譜分析幾乎可以分析任何有足夠多數據的分析場景。
眾所周知,Google使用了著名的圖譜處理系統Pregel作為PageRank算法的一部分。雖然過去幾年中冒出來不少圖譜數據庫等圖譜分析項目,但Guestrin表示GraphLab與Pregel的資歷相當。早在五年前,Guestrin就和卡內基梅隆大學的同事開發了一個小型開源系統,當時沒有想到會火。如今,大名鼎鼎的音樂推薦網站Pandora和零售巨頭沃爾瑪的大數據實驗室WalmartLabs都在使用GraphLab。
在GraphLab之外,還有一些圖譜數據庫,例如Giraph(Facebook開發的開源軟件,基于Hadoop的Pregel克隆)和Neo4j(該項目也有一個商業化公司Neo Technology),以及Twitter的Cassovary和華盛頓大學的Grappa項目。Guestrin表示GraphLab能與上述大多數圖譜數據庫配合使用,發揮GraphLab的大規模機器學習處理能力。
據Guestrin介紹,GraphLab的商業化產品還需要假以時日,他目前的重點工作是七月份即將發布的GraphLab的下一個開源版本。但是未來幾個月GraphLab將開始與商業客戶接觸,了解他們對圖譜分析商業軟件的需求。
對于圖譜分析創業公司而言,目前最大的一個疑問是潛在市場規模到底有多大。目前市場中已經有不少圖譜分析產品,其中不乏IT巨頭開發的成熟產品,例如超計算機廠商Cray開發的YarcData。
原文鏈接:http://www.ctocio.com/ccnews/12340.html