巨杉數據庫聯合創始人&CTO王濤:企業級NewSQL加速企業大數據落地
原創【51CTO.com原創稿件】2016年11月25-26日,WOT2016大數據峰會在北京粵財JW萬豪酒店召開,50多位大數據領域一線專家、數據技術先行者齊聚現場,在圍繞數據智能、大數據商業、區塊鏈、實時計算、系統架構、NoSQL等前沿技術話題展開深度交流和溝通探討的同時,分享大數據領域***實踐和最熱門的行業應用。
在WOT2016大數據技術峰會NoSQL技術實踐主題專場,SequoiaDB巨杉數據庫 聯合創始人&CTO,王濤先生帶來了《企業級NewSQL技術解析與應用案例》的演講,會后記者對他進行了采訪。
王濤,此前在IBM DB2北美實驗室工作,負責數據庫內核研發和下一代大數據架構的規劃。是DB2,DPF等的專家。
一、交互是巨杉數據庫主要發展方向
SequoiaDB巨杉數據庫是一款企業級分布式NewSQL數據庫,自主研發并擁有完全自主知識產權,沒有基于任何其他外部的開源數據庫源代碼。SequoiaDB支持標準SQL、事務操作、高并發、分布式、可擴展、與雙引擎存儲等特性,并已經作為商業化的數據庫產品開源。
談到分布式NewSQL數據庫技術架構特點,王濤先生表示,分布式NewSQL***的特點有兩個方面。
首先,跟傳統的關系型數據庫相比,分布式NewSQL數據據***特點就是分布式,原本存在一個節點里面的數據,現在可以把它分布到幾千個節點里面,這樣可以提升它的存儲能力和技術能力。其次,跟同樣新型的NoSQL數據庫來比,分布式NewSQL***的區別在于對SQL的支持,大部分的NoSQL數據庫都是以互聯網起家的,而在金融、政府這樣的傳統行業數據庫應用中,很多企業需要仍然強大的SQL支持的能力,這些也是NoSQL跟NewSQL相比***的區別。
對于巨杉數據庫跟其他的NoSQL數據庫對比有哪些特點?王濤先生表示,SequoiaDB從對企業級最重要的特性方面來講,首先是對于SQL的支持,這也是所有企業在使用新型分布式數據庫的時候***個想到的問題。而巨杉數據庫是支持標準SQL兼容的,巨杉數據庫能夠讓傳統企業的應用系統不需要過多的調整就可以***使用新一代分布式數據庫,做到SQL的兼容。其次,巨杉數據庫的雙存儲引擎機制、Spark深度整合等都是對企業級數據庫非常重要的東西。
王濤先生表示,從業務場景上來看,大數據業務目前主要分為分析類和交互類,巨杉數據庫大的發展方向是以實時交互類為主。在交互類這塊,對于近線數據管理和查詢、非結構化數據和影像數據管理、用戶畫像、數據湖平臺等都非常適合用巨杉數據庫。
二、巨杉數據庫雙引擎技術以及Spark 2.0深度集成
巨杉的雙引擎,一個是記錄引擎,一個存非結構化文件引擎,類似于軟件定義存儲的概念。目前,大家在用分布式結構數據庫的時候,很多用戶希望把圖片、照片或者影像也存到這個地方,因為數據量很大。這就需要能夠既支持記錄級別的存儲,也能夠支持圖像塊結構的存儲,這兩者使用的機制是完全不一樣的,其中一個是記錄的存儲引擎,一個是塊存儲引擎。塊存儲引擎可以把它理解成軟件定義存儲,它可以把一個大的文件切成很多碎塊,通過散列的方式,散列在不同的機器里面,這是兩個本質的區別。
巨杉數據庫就通過雙引擎的機制,讓用戶將結構化數據、非結構化數據同時存儲,大大提升了效率。
Spark2.0深度集成則是巨杉數據庫企業版的另一大特性,王濤先生表示,Spark作為內存計算框架是計算層的一部分,巨杉數據庫則定位于存儲層。這樣,Spark2.0把兩個層面分開,兩者結合就能夠提供分布式的計算分析,而數據分析、機器學習都是Spark2.0提供的東西。
巨杉目前這種分布式數據庫與分析計算層的混搭互補是硅谷大數據領域***的主流趨勢,真正走在了前面。
三、NewSQL代表數據庫的未來
談到分布式數據庫未來的發展趨勢,王濤先生認為,當前來看,大家都在談NoSQL和NewSQL。從傳統來看,NoSQL本身針對的是從互聯網起家的一些玩家,這些玩家可能對于SQL和其他的企業級的功能并不是很重視。
但是,未來隨著新一代分布式數據庫在各個行業的不斷應用和普及,NoSQL和NewSQL這兩者肯定是逐漸的過程,NoSQL數據庫會不斷注重企業級功能如SQL支持的提升。數據庫未來將會是一個分布式、高性能的立足實時處理和在線服務同時作為數據源支持上層的數據分析應用的定位。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】