成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

圖數據庫競爭日趨激烈,淘汰正在進行

新聞 大數據
圖數據庫與云計算結合是必然趨勢,原生、并行是核心技術優勢,TigerGraph 將迎來全面爆發。

[[314972]]

 圖數據庫與云計算結合是必然趨勢,原生、并行是核心技術優勢,TigerGraph 將迎來全面爆發。

大數據時代的業務增長帶來了兩個明顯的變化:數據量的劇增和數據關聯的復雜化。與此同時,用戶對于數據價值的期望越來越高,這些變化催生了數據庫的變革和創新。圖數據庫由于提供了對關聯數據最直接的表達,以及圖模型對異構數據天然的包容力,使得圖數據庫迎來飛速發展的狀態。

2019 年年初,Gartner 數據與分析峰會上將圖列為 2019 年十大數據和分析趨勢之一,并預計到 2022 年,全球圖處理及圖數據的應用將以每年 100% 的速度迅猛增長,2020 年保守估計將達到 80 億美元。市場尚處于藍海,競爭卻遍布全球。

图数据库竞争日趋激烈,淘汰正在进行

圖片來源:Gartner 2019 年十大數據和分析技術趨勢

在美國,圖數據庫是近年來所有數據庫里發展速度最快的,其中一家典型的公司就是 TigerGraph。TigerGraph 成立于 2012 年,總部位于硅谷。2017 年 11 月 8 日,TigerGraph 發布新一代企業級實時圖數據庫平臺,在市場上引起軒然大波。為什么從創立到發布第一款產品間隔了 5 年?TigerGraph 中國區總經理烏明捷解釋,“基于 C++ 從底層核心做起,利用分布式技術,支持萬億級別節點,具備高性能和高可擴展性,并且操作界面十分簡單。我們用 5 年的蟄伏換來了產品的好口碑。原生、并行是我們的差異化優勢。”

而在國內,越來越多的公司也開始進入圖數據庫領域,針對內部的產品開發相應的圖數據庫系統,但這種圖數據庫的應用針對性較強,所以并不適用于市場上其他客戶。

縱觀數據庫的發展,對于任何達到一定規模或價值的數據,圖數據庫都是呈現和查詢這些關系數據的最好方式。而理解和分析這些圖的能力將成為企業未來最核心的競爭力。正如 TigerGraph 公司的創始人許昱博士所言:“在大數據時代,數據是新的石油,而基于圖的數據分析就是新的煉油廠。”

一、圖計算元年背景下值得關注的熱點

圖計算重點包括兩點:圖數據庫和圖分析引擎,前者重點關注 OLTP ,后者重點關注離線圖計算,當然這二者的界限有時候不那么清晰,比如有些圖數據庫內置了圖分析算法的實現,有些圖分析引擎也實現了事務和持久化。

圖計算在近幾年受到廣泛的關注,主要有以下幾個方面的因素:

適合以圖表達的數據積累到一定程度了,對隱藏在圖數據中的知識挖掘的需求也隨之越來越強烈。

圖神經網絡是深度學習的一個重大創新。深度學習發展遇到了瓶頸,不可解釋性是其固有的頑疾。而與深度學習相結合的圖計算將端到端學習與歸納推理相結合,有望解決深度學習無法處理的關系推理、可解釋性等固有問題。

知識圖譜受到越來越多的重視,其中確定性的知識會以實際頂點和邊的形式存儲在圖數據庫中,概率性知識一般需要依賴于圖分析引擎,進行知識推理。圖神經網絡和知識圖譜將是未來引爆圖計算的機會。

但是,圖要實現大規模應用,必須先攻破的技術難點之一就是如何提升圖分析能力。原生的圖數據存儲可以跨越數據孤島,進行有效的建模,探索和查詢具有復雜關系的數據,進而解決 SQL 在查詢復雜數據問題并不總是有效的問題。但問題是,圖數據的存儲和分析對數據規整性要求高,一旦數據規整性差,就會影響計算,且分析難度會隨著分析維度的增加而增加。

二、圖計算的發展情況如何?

2019 年年初,谷歌前員工,同時是圖數據庫服務企業 Dgraph 創始人 Manish Rai Jain 站了出來,在文章《10 年了,為何谷歌還是搞不定知識圖譜》中回顧了 Dgraph 這個數據庫產品的前世今生,也順道爆料了一些谷歌這么多年沒能搞定知識圖譜的內幕,包括公司內部斗爭、項目發展方向多次被誤導等。他尤其指出了大多數工程師存在的思維誤區:認為圖實際上是一個很簡單的問題,可以通過在另一個系統之上構建一個層來解決。

實際上,圖計算引擎是圖技術發展的關鍵。

從圖技術本身來看,整個圖計算領域可進一步細分為查詢分析、計算引擎、存儲管理、可視化等子方向。目前并沒有一種涵蓋所有子方向的圖引擎。例如圖數據庫 Neo4j、Titan 等擅長于圖數據的事務性查詢,但并不能高效地進行離線分析;分析引擎 Turi、GraphX 側重圖數據的離線分析和挖掘,卻不能對屬性圖進行管理,且不支持實時查詢。圖計算引擎多種多樣。最出名的是有內存的、單機的圖計算引擎 Cassovary 和分布式的圖計算引擎 Pegasus 和 Giraph 。

圖從應用層面來看,存在以下幾個問題:

1、在金融反欺詐、社交、營銷、物流和 IoT 領域應用廣泛,但是很少有端到端的解決方案,用戶使用門檻較高。另外,新技術的實操積累尚不成熟。以知識圖譜為例,前幾年大家討論的是應用實現,所以知識圖譜火了。但是,當項目要落地時碰到了很多技術上的障礙,比如在性能上,數據加載就是一個瓶頸,這導致知識譜圖不能實時及時更新,使很多項目上不了線。目前,超級頂點問題、OLTP 與 OLAP 融合問題、圖劃分、流式圖數據處理,仍然是學術界和工業界研究的重點。

2、從企業用戶的角度,數據質量、應用方法不成熟,用戶沒有明確自己要什么,導致圖技術落地困難重重。圖數據庫的實施流程一般包括:業務理解、圖 Schema 設計、業務數據加工、業務驗證和監控運維 5 個步驟。其中第一步就是業務理解,這一步需要用戶明確自己要什么,理解業務數據和業務問題,將業務問題映射成圖問題,并確認數據來源、存儲介質、更新方式、容災方案等,并匹配相應的軟硬件資源。很多企業用戶還沒有清楚地理解業務就開始設計,導致后面慘淡收場。所以,當前應用圖數據庫的主要還是 BATJ、今日頭條、華為等一線企業,以及大中型金融機構、政府等。

3、從市場競爭角度,現在有很多不同類型的圖數據庫產品,每種產品的優勢不同,隨著圖數據庫在各個垂直行業的企業和用例中不斷得到應用,了解其中的差異非常重要。 圖數據庫現狀對比如下圖所示。

图数据库竞争日趋激烈,淘汰正在进行

選一個圖數據庫,主要從性能、查詢能力、計算能力等各方面去考慮。

在性能層面:要求圖查詢及圖分析算法的執行快,就要涉及到底層存儲結構。原生圖存儲因為是基于點和邊,在計算過程中不需要過多的邏輯和物理層轉換,存儲和計算是并行的,因而速度最快,典型的代表就是 TigerGraph。

在查詢能力上,通常普通圖數據庫查詢 3 度及以上性能就很低了,而實際經常需要查詢 6 度的關系。測試報告顯示:只有 TigerGraph 完成了 6 度關系查詢。另外,為了處理大型且不斷增長的數據集, TigerGraph 設計為可橫向擴展和縱向擴展。無論在圖中遍歷的步數有多少,實時大圖均可以實現超過千萬級點邊遍歷 / 秒 / 服務器,近萬次更新 / 秒 / 服務器的實時大圖分析。同時, TigerGraph 還提供實時深度關聯分析,可實現 10 步以上的大圖遍歷,以及快速的圖遍歷與數據更新。

图数据库竞争日趋激烈,淘汰正在进行

圖分析計算能力:圖數據庫如果僅具備存儲及查詢能力,則還需要依賴外部的 GraphX 等計算引擎才能完成一些圖算法分析,這樣在數據傳輸和圖表達上存在轉換浪費的問題。TigerGraph 可以通過 GSQL 實現類存儲過程式的算法封裝,加快數據加載和算法執行速度。

除了技術上的差異外,在商業理念上,不同圖數據廠商的考量也不同,以 Neo4j 和 TigerGraph 為例。

Neo4j 誕生于 2007 年,最開始是一個開源項目。Neo4j 能發展到現在有其先天的優勢,那就是趕上了開源軟件的黃金期,整個生態和 Neo4j 用戶貢獻的 idea 非常多。可視化、管理界面、語言設計良好是 Neo4j 先發的優勢,并且早期因為是開源的,大家都在用 Cypher ,因此使用基礎比較好。

2018 年 11 月 15 日,Neo4j 產品副總裁 Philip Rathle 宣布,從 Neo4j 3.5 版本開始,企業版將僅在商業許可下提供,不再在 GitHub 上提供源代碼。在一定程度上也是受到了后來者 TigerGraph 業務快速增長的壓力。

戲劇性的是,在 Neo4j 宣布停止開源后不久,全球速度最快的企業級圖分析平臺 TigerGraph 宣布,正式開源 TigerGraph GSQL 圖數據庫算法庫,發布三大類十大核心算法,讓用戶可以直接拿來使用,同時還會陸續推出一些可視化工具,降低圖數據庫應用門檻。

從商業模式角度,一開始 TigerGraph 沒有選擇開源,主要是從企業用戶角度去考慮,比如金融企業真正要上一個生產系統,為安全起見,他們一定會選擇付費而不是開源的模式。TigerGraph 之所以后來開源了圖數據算法庫,也是基于業界對于圖數據庫有了更強烈的需求,希望推動圖數據庫應用的落地。

如果將圖計算的發展劃分為萌芽期、發展期、成熟期、泡沫期幾個階段的話,當下圖計算還處在發展期。在圖數據庫領域,遠沒有達到目前傳統 RDBMS 的成熟程度,具體表現在:

  • 圖數據庫產品極大豐富,出現幾家具有壟斷性地位的玩家,性能和功能全面碾壓其他產品。
  • 圖數據查詢語言完成 ISO 標準化(目前 OpenCypher 和 GSQL 處于“絕對贏家”地位),并且大部分產品都遵循這個標準,并出現數據交換標準。
  • 用戶受到普遍教育,能像使用 RDBMS 一樣很自然地接受圖數據庫應用,出現大量第三方圖應用程序開發商和集成商。

相較之下,圖分析引擎的成熟度弱于圖數據庫,目前偏學術性研究的有不少,但是工業級的產品非常少,并且缺乏專門為圖分析設計的框架和產品,目前很多一線公司都還是使用 Spark、Flink、MapReduce 等通用計算框架來做圖計算,性能肯定不如專門為圖分析設計和優化的系統。學術系統往往關注一個細小的改進點,限制在特定場景下應用。另外一個最大的問題是產品化普遍偏弱,易用性和容錯性不好,一般運行在抽象圖上,用戶需要利用其它工具進行預處理。

三、圖分析能力成為圖數據庫公司的“競爭利劍”

Twitter、Facebook 和 Google 等公司很早就采用了圖數據庫,此后這一技術不斷升溫。云服務提供商巨頭 Amazon、IBM、Microsoft 在過去兩年都增加了圖數據庫,但當數據量變得非常巨大,或問題需要深度關聯分析,又必須實時提供答案時,大多數圖數據庫都會在性能和分析能力上碰壁。

這是因為前幾代圖數據庫的架構無法滿足當今數據的規模和查詢速度需求。第一代設計(例如 Neo4j)不是以并行性或分布式數據庫概念為核心構建的。第二代的特點是在 NoSQL 存儲之上構建圖視圖。這些產品可以擴展到巨大的規模,但這一附加層使之喪失了巨大的潛在性能。如果沒有原生圖設計,執行多步查詢的代價會很高,因此許多 NoSQL 平臺只能提供很高的讀取性能,而不支持實時更新。

而這些,恰恰是 TigerGraph 的優勢所在。

TigerGraph 通過原生并行圖打破了前幾代的局限性,實現深度關聯分析。我們知道,原生圖數據庫直接以圖模型格式(點和邊)存儲數據,提供內置索引,可以加快數據加載速度以快速構建圖。相較之下,非原生圖雖然能輕松支持多模態數據庫,但犧牲了圖性能,如果數據集很大,非原生圖通常難以處理 3 步以上的查詢。

可擴展性是大數據時代的一個重要特征。企業需要將他們的數據庫解決方案橫向擴展到多臺計算機,因為他們的數據可能增長得過大,無法經濟地存儲在單個服務器上,TigerGraph 支持縱向擴展和橫向擴展,能夠將圖數據自動劃分到一個服務器集群中,在保持實時速度的同時,提高加載和查詢吞吐量。TigerGraph 在執行每項任務的同時,擅長并行處理,采用 MPP 設計架構,每個點和關聯都可以關聯一個計算函數,并且每個點或關聯可同時作為并行的存儲單元,存儲緊湊,訪問快速。TigerGraph 采用一種分布式計算模式,讓所有服務器都參與查詢,例如,當遍歷路徑從服務器 A 跨入服務器 B 時,將向服務器 B 傳遞它需要知道的最少量的信息,在服務器 B 已經得知整個查詢請求后,便可以輕松參與分工,這樣就顯著地提升遍歷大部分圖的分析查詢性能。

TigerGraph 可以將實時分析與大規模離線處理統一起來。實時更新意味著數據庫更新可以與數據庫上的其他查詢同時進行,并能快速完成,大多數非原生圖平臺不支持實時更新,因為其數據存儲系統不可變。TigerGraph 支持 Web-Scale 的實時分析,每秒更新數千個點和邊,每天更新數億個。以金融領域為例,TigerGraph 實時圖數據庫支持把不同來源的數據存在圖數據庫,進行集中處理,從而實現在支付處理前識別欺詐。其次,TigerGraph 圖數據庫通過對用戶的關系特征進行建模,實現基于圖數據庫的毫秒級實時甄別。最重要的是,可以為企業關注的“可解釋的 AI ”提供解決方案。

在產品層面,TigerGraph 做了戰略調整,不再瘋狂的追求極限速度,而是更關注系統的安全性和健壯性,因此 TigerGraph 開發了備份高可用的組件;另外,TigerGraph 花了很多時間去完善管理員體系(管理員的界面),目前其管理員界面是可視化的,可以看見機器占用資源的情況、詳盡的日志,如果系統宕機, TigerGraph 能非常清楚地收集信息,而不需要客戶再重新收集。

圖數據庫與云計算結合是必然趨勢。TigerGraph 是第一個做圖數據庫提供云服務的廠商,在 2018 年年底推出的 TigerGraph Cloud,可以在云中運行可擴展、更簡單、更強大的圖分析,用戶可以利用 TigerGraph 的可自定義圖算法庫為人工智能和機器學習提供強勁動力。

TigerGraph 在圖的可視化工具方面也在不斷創新。目前 TigerGraph 內部已經有了一個可視即可得的版本,只要通過拖拽的方式,系統就可實時反饋結果。

去年 9 月,針對 GQL (圖形查詢語言)標準的項目提案已通過,并計劃在今年下半年推出 GQL 的圖查詢語言標準。之所以提出 GQL,是因為原來的 SQL/PGQ 僅限于只讀查詢,它無法投射新圖形,它只能訪問基于生成 SQL 表的圖形化視圖的圖形,這限制了圖數據庫市場的發展。目前市場上懂圖查詢語言的開發者比較有限,且沒有統一的語言標準,GQL 將是圖數據庫領域的一座里程碑,標志著圖數據庫市場的進一步成熟,降低人員的學習成本,并推動市場出現更多的復合型人才。目前 TigerGraph 正在積極推動 GQL 的制定,原生并行圖與查詢語言具有天然的融合性,可以幫助現有的 GSQL 使用者快速適應 GQL,這也是 TigerGraph 參與 GQL 標準制定的初衷之一。

四、總結

圖計算方興未艾,在喧鬧背后,我們應該冷靜地看到它尚未攻破的難點,比如前面提到的超級頂點問題、OLTP 和 OLAP 融合問題、圖劃分、流式圖數據處理等。而當下正處在風口浪尖上的知識圖譜和圖神經網絡,其背后值得思考的東西也很多。

比如,圖譜成為熱點背后,我們更應該關注圖譜的應用階段,有些階段離不開人的參與,有些階段應盡可能減少人的介入,二者之間達成某種平衡。現在我們都在談 5G ,那么 5G 跟圖譜之間是否也有關聯?5G 催生了 AI 的新應用,未來,圖譜從單模態發展為多模態的想象空間還是非常大的。

另外,圖神經網絡將成為未來幾年的重點方向。圖神經網絡雖然在工業界并沒有成為現象級的技術,但在大公司已有嘗試。阿里巴巴在 2020 年開年《達摩院 2020 十大科技趨勢》中提到的第一點就是人工智能從感知智能向認知智能演進,大規模圖神經網絡被認為是推動認知智能強有力的推理方法。但是,我們必須看到,圖神經網絡的落地應用尚處于早期,雖然前一波深度學習浪潮積累下來的軟硬件設施為圖神經網絡的落地打下了基礎,但與理想之間仍有差距。

2019 年硬科技遭遇種種現實壁壘,雖有局限和無奈,但是依然阻擋不住更大的科技力量的發展。正如《奇點臨近》中提出的一個觀點:“我們的未來不是再經歷進化,而是要經歷爆炸。”

2020 年,也必將是宏“圖”大展的一年。

 

 

 

責任編輯:張燕妮 來源: AI前線
相關推薦

2020-12-03 15:03:30

無人機電商

2022-01-04 12:25:33

亞馬遜云科技用戶滿意度基礎設施

2015-06-24 10:23:54

2011-09-05 14:10:03

百度移動平臺大戰

2018-03-16 11:34:17

大數據分析物聯網公共云

2013-02-20 14:31:10

軟件定義網絡SDN網絡革命

2012-08-13 10:58:23

2014-02-20 09:28:12

SDN規劃

2020-03-05 09:54:54

數據驅動數據數據分析

2009-08-26 08:29:35

Windows 7系統測試

2022-04-27 22:23:29

比特幣區塊鏈加密貨幣

2019-04-10 14:16:41

云計算騰訊阿里云

2009-12-28 10:17:58

接入網光纖化

2013-02-28 09:41:40

華為高效網絡移動互聯網絡

2020-06-28 16:31:04

RPA應用

2010-07-20 15:02:12

WiMAXTD-LTE

2010-03-03 13:00:50

職業培訓

2021-06-16 09:35:43

云計算云計算產業云發展趨勢

2013-07-24 16:27:52

華為服務器華為

2011-11-30 13:35:12

瀏覽器歐朋
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成年人在线观看视频 | 成人免费在线观看 | 精品国产91| 精品免费在线 | 国产综合精品一区二区三区 | 国产福利在线看 | 国产日韩欧美激情 | 欧美日韩在线一区二区 | 伊人一区| 一级高清 | 一区二区三区国产好 | 亚洲精品久久久久久久久久久久久 | 色综合天天天天做夜夜夜夜做 | 伊人手机在线视频 | 91免费观看 | 免费在线观看毛片 | 欧美在线高清 | www.天天操 | 亚洲欧美中文日韩在线v日本 | 国产成人高清 | 久草欧美视频 | www.日日干| 欧美激情一区二区三区 | 二区精品| 午夜精品一区二区三区在线视 | 天堂一区二区三区 | 国产精品一区二区视频 | 精品少妇一区二区三区在线播放 | 国产黄色麻豆视频 | 香蕉久久久久久 | 日韩人体视频 | 国产成人精品久久久 | 天天射夜夜操 | 亚洲美女视频 | 国产丝袜人妖cd露出 | 大伊人久久 | 人操人免费视频 | 日韩在线一区二区三区 | 999久久久久久久久6666 | 久久久国产一区二区三区四区小说 | 精品一区二区三区四区在线 |