TigerGraph開源十大圖數據庫算法庫
日前,全球速度最快的企業級圖分析平臺TigerGraph宣布,正式開源 TigerGraph GSQL 圖數據庫算法庫,發布三大類共十大核心算法。通過開放這些算法庫,將為用戶提供圖分析的算法模板和示范,讓用戶以更加簡單易用的方式支持更廣泛場景的業務分析。
目前,用戶可以從github下載該算法庫 ,體驗TigerGraph原生并行圖數據庫的高速查詢和算法庫強大的分析能力 。
圖數據庫核心算法
圖數據庫算法是一系列的函數,用于計算圖、圖內頂點及其相互關系的指標和特征。 它可以從內部揭示出某個圖中的各個實體之間的角色及其關聯關系。
TigerGraph GSQL圖算法庫包含了一系列性能卓越的GSQL查詢,所以GSQL的圖形算法本質上是GSQL查詢。每種算法都可以作為一個獨立的查詢使用,而每個查詢都可以實現某種標準的圖算法。
在算法運行中,用戶可以選擇三種不同格式的輸出結果,包括 JSON格式流輸出、 輸出值寫入表格類文件,以及保存為頂點屬性值。
目前,GSQL的圖形算法庫中開源的核心算法可分為三類:路徑搜尋的算法、衡量中心度的算法以及衡量群體度的算法。
路徑搜尋的算法,用于幫助用戶找到最短路徑或評估某條路徑的可行性或質量。其中主要包括:
- 無權重單起點最短路徑算法(Single-Source Shortest Path)。這種算法在大量應用中都有廣泛運用,例如估計事件影響、評估知識傳播,或者用于調查犯罪的方法等。
- 含權重單起點最短路徑算法(Single-Source Shortest Path)。 這種算法在尋找更優路線的應用中非常普遍,例如在GPS導航的路徑規劃中尋找兩個地點之間的最短路徑。
衡量中心度的算法,用于幫助確定網絡中某個頂點對于總體的重要性,可以用來解釋“位置有多靠中心”這樣的問題。其中主要包括:
- 頁面排名算法(PageRank)。這種算法主要用于測量每個頂點對于其他頂點的影響力,例如能夠揭示個人在社交網絡中的社會影響力大小、尋找復雜網絡分析中的源頭和權威性等。
- 接近中心度算法(Closeness Centrality)。這種算法可以幫助精確地衡量某一個頂點到底“多靠近中心”,例如在復雜的社交網絡中,確定出中心度越高的個體,越有可能是網絡中的一個中心。
衡量群體度的算法,主要用于評估一個網絡結構中個體組合或分裂的程度,同時也能夠獲得網絡的組織程度正在加強或削弱的趨勢。其中主要包括:
- 連通分量算法(Connected Components)。這種算法能夠幫助確定互相連通的一組頂點和邊的最大范圍,例如在社會網絡分析領域用于尋找網絡中的有聯系的小團體或個體。
- 標簽傳播算法(Label Propagation)。這種算法是一種啟發性算法,利用頂點間的關系建立關系完全圖模型,用于確定社群內部關系,例如廣泛地應用到多媒體信息分類、虛擬社區挖掘等領域。
圖:TigerGraph算法庫總覽
TigerGraph GSQL 算法庫特點
作為TigerGraph專門開發的圖數據庫查詢語言,GSQL大大降低了用戶的學習和使用門檻,不需要用戶具有特別專業的數據庫知識。由于GSQL的圖形算法本質上是GSQL查詢,所以運行算法查詢與運行GSQL查詢的動作是相同的。
正是由于TigerGraph GSQL查詢語句特別適用于圖數據庫的算法,使得高性能的GSQL 算法庫具有顯著的特點和優勢:
- 圖靈完備:完全支持命令式編程和程序式編程,是算法運算的理想選擇,特別適合高效實時分析。
- 并行和分布式處理:每種算法都可以作為一個獨立的查詢使用,也可作為模塊在大型圖上被調用計算。
- 代碼規范且擴展自由:由于基于GSQL規范編寫并由用戶自行編譯,用戶可以非常容易地修改和定制。
- 完全開源:用戶可以通過公布的示例學習不同的GSQL算法,并且也可將自行開發的代碼提交到算法庫中。
TigerGraph是非常完備和優化的圖數據庫平臺,支持大規模圖存儲以及大規模圖的運行處理,具有非常強大的查詢語言和算法庫。TigerGraph的技術突破代表了圖數據庫發展的最新方向,標志著正式邁入了第三代圖數據庫時代。TigerGraph也因此被Strata Data Awards授予“最具顛覆性初創公司”的獎項。
TigerGraph的原生并行圖系統與市場上的圖數據庫解決方案相比,該項技術在查詢速度和存儲容量方面均具有明顯的領先優勢。另外,TigerGraph目前推出TigerGraph Cloud,支持在公有云(AWS以及Azure)中應用GSQL查詢和可自定義的圖算法庫。
體驗全球最快和功能強大的圖數據庫,請點擊TigerGraph網站獲得永久免費的開發者版本;獲得高性能GSQL算法庫,請登錄github下載;閱讀更詳細的算法庫文檔,請登錄TigerGraph文檔分享網站。