墨天輪關系型分布式數據庫榜單解讀
原創近期受墨天輪社區邀約,就墨天輪社區榜單上國產分布式關系型數據庫發展加以分析。從近年發展來看,分布式產品已漸漸成為主要數據庫架構,受到更多用戶的關注。本文分析數據源,來自墨天輪最新一期的榜單數據。
1、分布式關系型數據庫概述
作為數據庫演進方向之一,分布式能力受到更多用戶的關注。從技術架構演進來看,數據庫正走過了從單機式、集中式到分布式的發展過程,目前是多種架構并存的階段。分布式架構以其更好的存儲與計算擴展能力,受到更多的關注。在墨天輪社區上,收集了國內160多家關系型數據庫廠商產品。針對這些產品做個架構分類不難發現,從數量上來看,分布式與集中式架構不分伯仲,甚至分布式還稍有占優(如左下圖)。如果考慮到流行度因素,按架構分類統計相應數據庫的流行度分數可以發現,分布式架構優勢更為明顯(如右下圖),這也說明了分布式數據庫產品受到更多流行關注。
從上述分析來看,分布式產品正更多地受到關注,并已開始在用戶場景落地。究其原因,可簡單歸納為幾點:
場景驅動
隨著企業數字化轉型深化,更多的數據被挖掘,更多的場景被發現。上述變化對數據的重要載體-數據庫來說,提出了更大存儲規模與更強計算要求。分布式數據庫的技術特點正可以滿足上述要求。此外,隨著數據價值被企業更加關注,對數據可用性、數據一致性要求更高,分布式數據庫也有其可發揮空間。
業務驅動
隨著業務互聯網化,很多企業都面臨著敏態業務快速發展問題。這對于數據庫提出了更高彈性要求,如何快速滿足多變的業務訴求。分布式數據庫通常采用的存算分離架構,可提供存儲與計算資源的彈性伸縮能力,非常契合這一訴求。
技術趨勢
分布式技術發展多年,在與數據庫結合方面一直存在若干難點,但隨著Google的三篇論文及工程化產品出現,為分布式數據庫的落地奠定了理論基礎。很多分布式數據庫產品正是踩著巨人的肩膀,快速發展起來。
硬件發展
分布式架構因其組件拆分,天然對網絡有著更高的要求。過去受限于網絡技術本身,很難達到很好的效果。但隨著高帶寬、低延時網絡技術實現突破,為分布式架構提供了良好的基礎。此外,如高速存儲、多核CPU等技術也助力了分布式技術在數據庫領域的快速成熟。
政策引導
近年來,國家也非常重視基礎軟件的發展,包括針對數據庫產品。相關部門曾多次出臺政策,明確指出要加快分布式數據庫產品的研發和應用推廣。很多行業也明確提出的時間表,加速這一過程。
2、分布式關系型數據庫產品點評
近年來分布式數據庫產品發展迅速,并且在多類場景中廣泛使用。在墨天輪榜單中,共收錄有85款關系型分布式數據庫。如下圖是按使用場景進行分類統計,因部分產品支持多種場景,故進行重復統計。無論是OLTP、OLAP還是新興的 HTAP 場景都有分布式架構產品。特別是OLAP、HTAP等領域,因其承載數據規模及算力更大,分布式產品更有優勢。
從部署方式上來看,分布式架構產品多支持本地部署,同時也有部分產品支持云原生部署。從整體來看,仍然是以本地部署方式為主,云原生的部署方式占少數,但相對而言分布式更容易利用云原生提供的計算與存儲能力,因此未來將更多地支持云原生部署。
從墨天輪榜單上,按照屬性進行篩選,選擇分布式架構的關系型數據庫廠商共85家。從分布式數據庫廠家分類來看,大體可分為幾類。一是以 OceanBase、PolarDB、TDSQL 為代表的來自互聯網大廠的產品;二是以 GaussDB、GoldenDB 為代表的傳統大廠產品;三是以TiDB 為代表的新興數據庫廠商產品;四是以 GBase、AntDB為代表的傳統廠商產品。上述幾類廠商產品因其發展路線、階段不同,各產品差異也較大。
下面就作為主流的一些關系型分布式數據庫產品加以點評。
OceanBase
OceanBase 近年發展迅速,目前占據榜單首位。在22年底的4.0版本中,其率先提出了“單機分布式一體化”理念,降低分布式數據庫使用門檻,讓用戶可根據業務發展平滑過渡。在23年上半年最新的4.1版本,則將“面向開發者”定位凸顯,強化其在易用性、兼容性、高性能等方面能力。目前OceanBase在金融、政企、互聯網等諸多行業得到廣泛使用。特別是其良好的兼容能力,受到很多傳統企業關注,將其作為信創改造的首選方案。
TiDB
TiDB作為一款知名的開源分布式數據庫產品,長期占據榜單前三名。在23年4月份,其正式發布了7.0版本。這一版本聚焦于幫助用戶通過可靠性能和簡化數據庫操作來快速響應業務需求,從而滿足客戶的高期望值,并提升開發人員和 IT 運維人員的生產力。重點特性包括多租戶下的資源管控增強、TiFlash數據落盤穩定分析負載、自動執行計劃緩存、TiFlash支持存算分離等。在產品運營上一方面通過與合作伙伴共建加快國內落地步伐,一方面持續擴大海外運營工作。
GaussDB
GaussDB,是華為自研的企業級原生分布式關系型數據庫,其重要是面向金融政企核心交易和企業生產系統等復雜場景。近年在傳統領域建樹頗多,特別是在信創改造領域,取得不少成果。從產品發展角度來看,GaussDB與榜單上另一款單機開源產品-openGauss,有著千絲萬縷的關聯。目前Gauss系列已形成了商用數據庫、開源數據庫、基于開源數據庫的第三方商用數據庫的復合生態模式。當然從品牌建設角度,個人建議還需進一步增強,形成品牌合力。
PolarDB
PolarDB,是國內最早打出云原生數據庫理念,并且完成工程化實踐的代表產品。從早期的存算分離架構開始支持云基礎環境;到近期的Serverless架構,多層解耦拆分,提供更為精細粒度的資源管理能力。走過了云原生的1.0、2.0到如今的3.0,也成為最具代表性的云原生數據庫產品。其與云原生環境的緊密結合,提供了極致的分布式能力。其產品已在云平臺及私有化環境大量使用。
TDSQL
TDSQL,作為來自互聯網應用的又一產品,早期支持騰訊社交、游戲等場景;后期商業化后大量支持如金融等關鍵領域客戶系統。特別是近期,其剛剛通過TPC-C基準測試,并創造了新的世界紀錄,在業內引發廣泛關注。
GBase
GBase,作為老牌數據庫廠商,很早就在分布式領域布局。無論是其面向 OLAP 領域的GBase 8a產品,還是面向交易及多模領域的 GBase 8c\8s產品,都將分布式能力作為其核心能力之一。經過多年積累,已在全球數百家客戶中使用。
AnalyticDB
AnalyticDB,是阿里云的一款 OLAP 產品,也是阿里云的自研兩大核心產品之一。其特點是支持超大規模、極致性能,可滿足在萬億數據規模下的秒級數據分析能力,在很多涉及國計民生領域被廣泛使用。其良好的兼容性,也為用戶降低使用門檻。近期其與 PolarDB 聯合,形成頗具競爭力的 HTAP 解決方案。
AntDB
AntDB,是亞信集團的一款分布式、面向 TP 和 AP 多場景產品。早期在電信領域得到廣泛實踐,現已走向全行業。近期其上升勢頭很猛,也得到了很多關注。
GoldenDB
GoldenDB,作為來自中興研發的一款分布式數據庫,長期以來一直比較低調。其實在金融、運營商等很多關鍵領域,已經得到非常廣泛的使用。近期其推出的7.0版本,在 HTAP、自動化工具及云原生方向有重大進展,已成為一支不可忽視的力量。
除了上述產品外,還有些產品近年來進步很快,我們也盤點下:
Doris
Doris,作為 OLAP 領域近年來一款現象級開源產品,得到廣泛關注,其在墨天輪榜單上的排名半年便提升了42個位次。開源活躍度很高,版本迭代迅速。其已孵化了多款商業產品,并都取得不俗的商業進展,間接證明其產品能力突出。其生態用戶廣泛,覆蓋很多頭部互聯網公司。
PieCloudDB
PieCloudDB,其墨天輪流行度排名相較2022年11月提升了139名,核心團隊來自于著名的MPP數據庫GreenPlum。其創造性地提出了全新eMPP分布式技術,實現云上彈性大規模并行計算。充分利用云基礎實施,解決大規模數據分析的資源問題。近期其又發布基于eMPP分布式技術的存算分離軟硬件一體機,完全支持國產化信創環境,標志其啟動全面啟動國產軟硬件一體機商業化。
MatrixOne
MatrixOne,定義為一款面向未來的超融合異構云原生數據庫,其主打融合異構架構。一方面通過一份存儲和一套計算引擎支持多種工作負載,一方面以統一技術架構,支持公有云、自建數據中心、邊緣節點部署使用,應用乃至數據可以云上云下無縫遷移。
YaoBase
YaoBase,是一款自研云原生NewSQL分布式數據庫,其在墨天輪榜單上排名113位,相較半年前的172位進步明顯。其提出的增量聚集系統架構,在實現高并發事務處理的同時,兼顧復雜事務處理能力的可擴展性,彌補了現有NewSQL類系統處理復雜事務的短板。
CASICloud DBCP
CASICloud DBCP(航天天域數據庫管理系統),由北京航天紫光科技自主研發,是一款是采用無共享架構的分布式交易型通用數據庫系統。之前在航天領域已經有非常多的實踐,可作為國產數據庫信創替換的選型之一,其性能較國產傳統數據庫有著明顯優勢。
3、分布式技術發展趨勢及觀察
從分布式技術發展來看,有一些明確的變化趨勢。
云與分布式加速融合
云,作為一種新的資源供給方式,在過去十幾年得到了快速發展。其天然具備的海量資源快速供給,與分布式架構對資源的需求不謀而合。可以說兩者的強強結合,可以更大發揮出分布式架構的威力。我們可以看到,一方面云廠商的云數據庫產品大都采用分布式架構;一方面非常多的分布式數據庫產品也開始云及云原生化。
分布式多場景適配
無論是傳統的 OLTP 和 OLAP 業務,還是新興的 HTAP 業務。只要是對規模、算力、一致性有著更好的要求,分布式架構都可以在一定程度上解決。當然從使用場景來看,不同架構占比還有所差異。從觀察來看,對于 OLAP、HTAP 場景,因其承載數據規模及算力要求更大,分布式產品更有優勢。
單機分布式一體化
如果說分布式產品還有什么缺陷,較高使用門檻是其中最為主要的。分布式架構天然帶來的復雜性、高成本,對客戶造成很大的困擾。單機分布式一體化,正是為了解決這一問題。一方面通過這一架構優化可極大降低分布式數據庫的門檻,另一方面也可將擴展需求掌握在客戶手中。真正做到“豐儉由人”,將分布式數據庫做到了普惠大眾。
分布式生態化加速
分布式產品作為一種新架構產品,如何讓用戶快速接受?如何減低潛在的使用風險?這些都對分布式數據庫提出了更高要求。構建完整、友好、活躍的生態圈,將有助于解決上述問題。一方面分布式架構的復雜性、易用性,可通過生態工具加速在企業落地,降低使用門檻和風險;一方面良好的兼容性,充分享受已有生態紅利有成為很多分布式產品的發展策略之一。
4、選擇分布式關系型數據庫難點
雖然說分布式數據庫代表著數據庫重要的發展方向之一,且已經取得了不俗的表現。但在用戶選擇上,仍然存在著諸多痛點,這也妨礙了分布式數據庫的盡快普及。這其中比較重要的有以下幾點:
穩定性、可靠性待驗證
分布式數據庫作為一種復雜架構,其組件眾多且與基礎環境存在較多依賴。其單點可用性往往不高,其產品正是希望其具備的分布式能力,通過整體的可用性解決單點問題,但這一過程還需要大量工程化實踐積累過程。因為一旦數據庫出現災難性情況,也就意味著承載應用和業務中斷。
運維復雜度大幅提高
作為一類新架構產品,其運維復雜度自身就比較高。且很多傳統運維經驗在新架構下將失去意義,需要結合新產品去積累完善運維體系。同時伴隨著產品的成熟度發展同樣需要一個過程等因素,也加大了運維難度。
分布式改造成本高
分布式數據庫不僅對運維側,同時對架構、研發側也帶來新的問題。分布式架構與集中式架構不同,兩者在很多方面并不兼容,需要從多方位進行改造。同時由于行業內,尚無形成統一分布式數據庫設計開發標準,應用開發不得不針對不同數據庫采用不同的策略,也加大的改造成本。
專業人才匱乏
好的技術,還需要懂的人才能發揮最大作用。分布式數據庫作為相對較新的一類產品,還沒有形成較為完備的人才體系。無論是面向架構、開發、運維方面,都面臨人才的短缺,且短時間內還無法快速補充。這需要有個長期的培育過程。
展望未來:更快更高更強
分布式關系型數據庫作為一種新架構基礎軟件,滿足人們對數據在更大規模、更強算力、更高可用性上的要求。通過近些年時間,其技術已展示出蓬勃的生命力,并已開始落地開花。核心的分布式理念,已成為未來數據庫的發展的重點方向之一,相信在未來其將取得更大的成功,成為企業數字化轉型的利器。
作者介紹
韓鋒,51CTO社區編輯,CCIA(中國計算機協會)常務理事,前Oracle ACE,騰訊TVP,阿里云MVP,dbaplus等多家社群創始人或專家團成員。有著豐富的一線數據庫架構、軟件研發、產品設計、團隊管理經驗。曾擔任多家公司首席DBA、數據庫架構師等職。在云、電商、金融、互聯網等行業均有涉獵,精通多種關系型數據庫,對NoSQL及大數據相關技術也有涉足,實踐經驗豐富。曾著有數據庫相關著作《SQL優化最佳實踐》、《數據庫高效優化》。