需求迸發,自研圖數據庫生逢其時
在5G、物聯網、人工智能等技術的推動下,企業數據呈現爆發式增長,數據間的關聯復雜度也隨之劇增。在處理這些雜關聯數據時,傳統關系型數據庫運算效率較低,難以進一步挖掘海量關系數據背后的價值。
為了更好地利用數據間的連接,企業需要一種將實體間的關系進行存儲、靈活拓展數據模型的數據庫技術,這時圖數據庫出現了。
Gartner指出,圖分析是未來公司可持續競爭力唯一且最有效的數據處理手段。Forrester則將圖形數據平臺確定為一種新興技術,使企業能夠生成快速解決復雜問題所需的見解。
清華大學鄭緯民院士認為,圖數據庫以事物和事物間關系的數據結構存儲數據,專門針對復雜關聯深鏈查詢優化,成為了近年崛起速度最快的數據庫技術。
“全球圖數據庫市場尚未定型,現在布局正當其時,我們要牢牢把握住這一難得的發展機遇。”
1.圖數據庫揭示事務之間的關聯關系
在企業的眾多業務場景當中,企業用戶開始關注事物之間的關聯關系,希望發現隱藏的關系,這是傳統的關系型數據庫很難做到的。
解決這一問題的圖數據庫的基本含義是以“圖”這種數據結構做為邏輯結構,存儲和查詢數據。在圖數據庫中,圖將實體表現為節點,實體與其他實體連接的方式表現為聯系(邊),可以用這一通用的、富有表現力的結構來建模各種場景。
首先,圖數據庫是一種NoSQL數據庫,也可稱為面向/基于圖的數據庫,是基于圖模型的數據庫。由于提供了對關聯數據最直接的表達,以及圖模型對異構數據天然的包容力,因此圖數據庫技術未來必將成為最熱門的技術之一,為企業存儲和分析大規模圖數據提供強有力的支持。
其次,圖數據庫和傳統的關系型數據庫就是圖和表的差別。圖數據庫是用點和邊來表達數據之間的關系,是更自然的存儲方式,更專注于對象之間的關聯,能夠直接揭示事物之間的關聯關系。因此,相較于關系型數據庫,圖數據庫在處理關聯關系上性能提升2~4個數量級。
第三,圖數據庫的功能是傳統關系型數據庫的一個拓展,相比較關系型數據庫僅支持表結構,圖數據支持的圖結構更為靈活。圖數據庫在基于圖的數據增加、刪除、查詢、修改等方面做了不同于其他數據庫的設計。
目前,市場上根據圖數據庫底層存儲模式對圖數據庫產品進行分類,可以分為原生(Native)圖存儲和非原生(Non-Native)圖存儲兩種。
其中原生圖存儲數據存儲模式專門為存儲和處理圖而設計優化,可支持各類圖算法的快速遍歷;非原生圖存儲則采用關系數據庫、面向對象數據庫或其它通用數據存儲策略存儲數據,未專門優化存儲方式。
從技術上看,行業專家介紹,圖數據庫的發展主要有兩個階段:
第一個階段主要是解決關系網絡數據的存儲、查詢和分析問題,能支持上層應用對關系網絡數據的OLTP業務需求,以及離線大規模圖數據的OLAP業務需求。
第二階段的圖數據庫不光滿足OLTP業務和離線OLAP業務,實現實時大規模圖數據的OLAP業務。
2.圖數據庫成為發達國家布局的熱門領域
大數據時代,企業業務的增長使得數據量劇增以及數據關聯的復雜化,同時,企業對數據價值的期望度也更高。圖數據庫將成為數據庫的熱門發展方向之一。
經歷了多年的飛速發展,圖技術到了爆發式增長的邊緣。
Gartner 預計到2022 年全球圖處理及圖數據庫市場將以每年100% 的速度迅猛增長,2020 年保守估計市場將達到80 億美元。
圖數據庫是數據庫領域近期發展最快的領域之一,據Gartner預言,圖數據庫很快約占到數據庫領域10%市場。
DB Engines近年數據庫流行趨勢也顯示,圖數據庫相較其他主流數據庫受歡迎程度遙遙領先。
需求迸發,自研圖數據庫生逢其時
圖1 三大圖數據庫進幾年的發展態勢
國內外新興的圖數據庫初創企業融資規模不斷擴大,在國內一些企業的融資額達到數千萬美元級別。眾多互聯網企業紛紛布局圖數據庫領域。
2021年Cypher 圖查詢語言已經正式進入ISO 標準,行業標準的出現也是技術成熟化的一個標志。
鄭瑋民院士認為,當前,圖數據庫正在成為發達國家在數據庫領域競相布局的新興熱門領域,并已形成初步的市場規模,正處于快速發展之中。
盡管在傳統數據庫時代,國外企業一直占據國內數據庫市場的絕對份額,但在圖數據庫時代,我們有機會與國外企業同期起步。“全球圖數據庫市場尚未定型,現在布局正當其時,我們要牢牢把握住這一難得的發展機遇。”
近年來,市場對圖技術的認知程度和需求在上升。
目前市場上主要圖數據庫用戶大多在像全球五百強企業這樣的大企業,一方面大企業的數據體量和復雜度更高,對圖技術的需求更早更強烈;另一方面,這些大企業有足夠的資源嘗試新技術,是技術應用中的創新者。
從需求端來說,市場上熟悉分布式圖數據庫技術的企業還非常少,從整個數據庫市場來看,只有不到5%的用戶使用了圖數據庫,使用圖計算的則更少。
從供給端來說,雖然市場上出現了各種圖數據庫產品,包括開源和非開源的,但是真正的原生圖數據庫產品并不多,成熟的自研的商業化原生圖數據庫產品和圖計算產品更是屈指可數。
3.行業應用潛力巨大
圖數據庫應用涉及眾多行業,如社交、電商、金融、零售、公安、物聯網等行業,也應用在更多的應用場景中。
在幾乎每個行業,都有許多“吃螃蟹者”,首先應用圖數據庫,受惠于企業業務的發展。
在金融領域,應用機器學習算法和知識圖譜的智能風控系統在風險識別能力和大規模運算方面具有突出優勢,逐漸成為金融領域風控反欺詐的主要手段。同時國內金融監管的知識圖譜迅速發展,出現了如集團派系知識圖譜、產業鏈知識圖譜、擔保鏈知識圖譜、反洗錢知識圖譜等應用。
利用圖數據庫和知識圖譜平臺打造的“公安大腦”,針對公安破案時所需的人、事、地、物、組織構建的社會關系網和系統中凝結警察專家研判經驗規則和知識,分析推演出案件研判結果,幫助普通警察快速實現基于自然語言交互的人案關系雙向可視化自助推演分析,提供精準和效率雙提升的高危團伙和高危人員預測預警,助力警察破案事半功倍。
在電信領域,AT&T、Orange、Verizon,以及中國的三大運營商等,依靠圖數據庫來管理網絡,控制訪問并支持客戶畫像。中國移動移動云知識圖譜項目將實現了一站式端到端的知識圖譜解決方案,通過在線云的方式讓用戶可以自己構建知識圖譜和完成各種應用。
在汽車制造領域,沃爾沃、戴姆勒和豐田等頂級汽車制造商依靠圖數據庫推動創新制造解決方案。eBay、沃爾瑪使用圖數據庫實現商品實時推薦,給買家更好的購物體驗。
萬豪和雅高酒店等頂級酒店公司使用圖數據庫來管理復雜且快速變化的庫存。Facebook、Twitter、Linkedin等社交應用用圖數據庫來管理社交關系,實現好友推薦。
在發展階段上,行業專家普遍認為,分布式圖數據庫市場剛剛度過了萌芽期,開始進入了快速發展期,但尚未到達成熟期。
不過大量涌現的圖計算需求,正成為圖數據庫發展的強勁動力。
4.圖數據庫市場格局還沒有成型
市場對圖技術的認知程度和需求在上升。目前,市場上圖數據庫產品不斷增加,進入DB-Engines Graph數據庫監控范圍的產品就達到32款。如下圖是2021年8月DB-Engines圖數據庫排行。
需求迸發,自研圖數據庫生逢其時
圖2 DB-Engines Graph數據庫2021年8月排行
雖然圖數據庫市場的參與者如意增加,但是市場格局還遠沒有定型。目前,國內進入圖數據庫市場的企業和產品可以分為三類:
第一類:開源系統及其發行版。
相關調查數據顯示,開源圖數據庫的市場占比達到68.4%。目前,市場上的開源圖數據庫數量眾多,發展參次不齊。
Neo4j是最流行的高度可擴展的開源本地圖數據庫之一。Neo4j的Graph平臺經過優化,可以存儲、映射、分析和遍歷連接的數據網絡,發現不可見的上下文和隱藏的關系。
通過直觀地映射數據點及其之間的連接,Neo4j支持智能實時應用程序,包括人工智能、機器學習、物聯網、實時推薦、主數據管理、欺詐識別、身份和訪問管理等。
Neo4j有社區版和企業版2個版本社。其中社區版是學習Neo4j和不需要大量擴展或專業服務與支持的小型項目的理想選擇。開源的社區版本只支持單機,不支持分布式,在 GPL3 許可的開源社區版中提供。
社區版最多支持 320 億個節點、320 億個關系和 640 億個屬性。數以萬計的社區部署和 600 多個客戶利用與 Neo4j 連接的數據來分析和揭示人員、流程、位置和系統是如何相互關聯的。
企業版具有與社區版相同的功能,具有企業級可用性,管理以及向上和向外擴展功能。企業版可以部署成高可用集群,從而可以解決高并發量的問題。
Forrester在其報告中認為,Neo4j 企業版包括聚類、多數據中心、高級安全功能、圖形分析、視覺圖形發現和探索等。
在國內市場,圖數據庫研發商歐若數網最近宣布已完成800萬美元Pre-A輪融資。其核心產品是分布式圖數據庫Nebula Graph2.0版本已具備云端架構,方便用戶隨時調取服務,面向社交、支付、金融等領域。
第二類是自主研發系統。
令人欣喜的是,目前我國圖數據庫領域展現良好的上升勢頭,出現了許多自主研發的圖數據庫與知識圖譜平臺,未來將是中國圖數據庫應用的主導力量。
作為國內領先的大數據與人工智能軟件供應商,星環科技向市場提供基于自主研發的分布式圖數據庫StellarDB與知識圖譜平臺Sophon KG,并得到了廣泛的應用。
星環圖數據庫StellarDB是國內第一款自研分布式圖數據庫,用于快速查找數據間的關聯關系,并提供強大的算法分析能力。StellarDB克服了海量關聯圖數據存儲的難題,通過自定義圖存儲格式和集群化存儲,實現了傳統數據庫無法提供的低延時多層關系查詢,在社交網絡、公安、金融領域都有巨大應用潛力,可以幫助用戶快速開發欺詐檢測、推薦引擎、社交網絡分析、知識圖譜等應用。
在功能上,StellarDB可以提供高性能的圖存儲、計算、分析、查詢和展示服務;具備10+層的深度鏈路分析能力,提供豐富的圖分析算法和深度圖算法;支持標準圖查詢語言并兼容OpenCypher,且具備海量數據3D圖展示能力。
在性能上,StellarDB 可支持萬億邊規模圖數據存儲,具備查詢速度快、分析能力強、穩定性高的特點。
2021年Transwarp StellarDB通過了信通院圖數據庫基礎能力評測,這是繼2019年知識圖譜通過信通院大數據產品能力評測后再獲權威認可。
在2021年8月愛分析發布的《2021愛分析數據智能平臺廠商全景報告》,星環科技憑借成熟的數據智能解決方案和落地能力入選“數據存儲與處理”、“圖分析”兩大場景的代表廠商。
第三類是云服務商。
在圖數據庫方面,亞馬遜云科技、微軟,以及中國的阿里云、騰訊云、百度等都有積極的布局,也推出推出了自己的產品。云服務商將在云應用環境下不斷發展壯大。
2020年,騰訊云就發布分布式圖數據庫產品騰訊云數圖TGDB(Tencent GraphDatabase)。騰訊云數圖以原生方式實現屬性圖,高效存儲關聯數據,支持大圖的高效查詢和關聯分析。通過支持PageRank、社群發現、相似度計算、模糊子圖匹配等社群發現算法實現高性能圖計算。同時,高可用、高健壯也是騰訊云數圖的一大性能優勢。
亞馬遜的Amazon Neptune是一項快速、可靠且完全托管的圖數據庫服務,核心是專門構建的高性能圖數據庫引擎,進行了優化以存儲數十億個關系并將圖形查詢延遲降低到毫秒級。
Amazon Neptune支持常見的圖形模型 Property Graph 和 W3C 的 RDF 及其關聯的查詢語言 Apache TinkerPop Gremlin 和 SPARQL,支持圖形使用案例,如建議引擎、欺詐檢測、知識圖譜、藥物開發和網絡安全。
Forrester在其報告中認為,客戶喜歡該平臺的易于設置、完全管理的產品、AWS 生態系統的一部分、其技術支持和性能。
2020年,阿里云圖數據庫GDB于2020年3月正式在發布商用,產品使用、運維成本,僅為外國圖數據庫產品的40%,支持Gremlin、Cypher語言,使其能更好的兼容開源社區中的圖查詢、圖計算代碼,降低用戶的開發成本;支持數據存儲模式自由(Schema-free),可以滿足圖數據結構跟隨業務靈活調整。
速度和支持數據規模是圖數據庫的核心,隨著技術的不斷進步,圖數據庫應用將不斷擴大,自主研發的圖數據庫產品更能贏得用戶。