盤點2022:國產開源數據庫迎來發展黃金期
原創編者按
近年來,在基礎軟件領域,“三駕馬車”之一的數據庫是無可爭議的熱門賽道之一。回顧2022年,用“花團錦簇”來形容數據庫產業的發展也并不為過。各大廠商不止力求在重點技術領域取得突破,也在積極推動其數據庫產品和相關解決方案的行業落地,其中以國產化、云為代表的廠商表現尤為突出。
從政策方面來看,隨著信創建設的逐步深化,國產數據庫發展迎來多方利好。在頂層戰略和行業發展的雙輪驅動下,信創成果目前已逐步進入全面推廣以及核心系統適配改造階段,其發展態勢也由點及面,從傳統強耦合的架構形式,轉變為分布式多活的云計算架構。
借助分布式架構和公有云的崛起,還有國產化的驅動,國產數據庫在過去數年間發展迅速。從需求的角度看,數字化轉型的驅動和原有數據庫的替代是數據庫市場的兩大增量。在此背景下,國產數據庫廠商也渴望加速產品迭代,從而滿足各大行業企業信息基礎設施升級的關鍵需求。
與此同時,我們發現,細數國產數據庫廠商的發展歷程,可以看到其中的大多數最早都基于開源數據庫構建底層代碼,加之近年來主流數據庫產品紛紛擁抱開源,數據庫廠商通過開源社區快速獲得正向反饋有效加快了產品開發和質量提升,構建了多方共贏的數據庫生態。
不過也需要意識到,盡管國產化會帶來數據庫升級換代的機遇,但出于長期發展的考慮,主流的數據庫用戶在進行數據庫選型時,還是會更加注重數據庫的技術領先性,技術開放性,在云端演進的速度,開源模式。分布式與云原生依然是國產數據庫保持領先的最主要方向,在2023年也將成為推動國產數據庫技術發展的主要動力。
整體態勢:以分布式、云原生、HTAP為發展重點
從數據結構來看,關系型數據庫仍舊占據主體,但近年來隨著數據量激增以及數據類型不斷豐富的影響,關系型數據庫的流行程度呈下降趨勢。非關系型數據庫的市場份額有所提升,在NoSQL領域,以圖、時序為代表的產品成為熱點,一批初創企業和產品引起關注。此外,NewSQL 是整合了關系型數據庫和非關系型數據庫的新型數據庫。企業采用 NewSQL 數據庫需要較高的硬件和學習成本,且需要承擔產品不成熟帶來的未知風險。
從技術架構來看,采用集中式數據庫的企業出現了向分布式架構過渡的趨勢。隨著云計算、人工智能、物聯網等技術的普及,產生了海量非結構化數據,業務場景中應對高并發、異構數據處理等需求不斷涌現,分布式數據庫因此迎來了發展的契機。當然分布式和集中式架構各有其適用場景,并不是簡單的非此即彼,替代與被替代的關系。
從部署模式來看,本地和云數據庫混合部署成為主流,而在云數據庫中,云原生數據庫成為焦點。現階段有一定IT基礎的企業會根據自身發展需求,采取本地與云數據混合部署的模式,從而在數據庫讀取與存儲安全性和易用性上達成平衡。而在數據庫廠商之間出現了更多的自有云原生數據庫產品的較量,承載規模、彈性能力均成為了競爭要點,而Serverless方向有極大潛力成為后續發展重點。
從處理場景來看,HTAP作為新晉崛起的細分領域成為業內新寵。以往大家比較耳熟能詳的是OLTP(在線事務處理)和OLAP(在線數據分析)。過去一般認為這兩大場景不能同時兼顧,工作負載隔離和數據新鮮度就是魚和熊掌不可兼得的問題。HTAP的出現卻提供了一種新解。基于創新的計算存儲框架,HTAP數據庫能夠在一份數據上保證事務的同時支持實時分析,避免在傳統架構中在線與離線數據庫之間大量的數據交互。這對于用戶體驗的改善來說至關重要。可以預見,HTAP將是數據庫廠商競爭的重點領域之一。
從商業模式來看,開源數據庫依托社區發展,開發人員可以根據開源許可協議在原始基礎上修改或使用,避免了授權和服務費用。開源數據庫的商業模式主要包括三種:其一,完全開源式。借助基金會完全托管;其二,開源版本和商業版本分別運營。通過運營開源版本積累人才、打造品牌,再售賣商業版本獲取利潤;其三,先開源后閉源。運作前期通過開源社區進行持續優化,之后停止社區的維護將產品閉源商業化。
背景:起步晚,但國際影響力逐步提升
相較Oracle、Microsoft、IBM這些海外廠商,國內數據庫行業起步較晚。因此很長一段時間內,國內很多企業高度依賴海外廠商研發的數據庫系統。直到20世紀末,中國首個數據庫“人大金倉 KingbaseES 數據庫系統”誕生,隨后武漢達夢數據庫、神通數據庫系統等國產數據庫系統相繼面世,才打破這種格局。
2009 年,阿里巴巴成立阿里云,開始研發自己的數據庫產品 AliSQL。之后,華為、騰訊等企業相繼加入自主研發隊伍,推出自有數據庫產品。隨著云計算時代的到來,以及開源社區的興起,國產數據庫開始進入蓬勃發展期。
2013年,棱鏡門事件的爆發促使信息安全的自主可控上升為國家需求。國產數據庫作為國產化替代的重要環節,在信創產業的指引下走上了發展的快車道。
2019年,國產數據庫在國際上迎來高光時刻。OceanBase 數據庫打破數據庫基準性能測試(TPC-C)世界紀錄,成功登頂世界權威數據庫評測機構 TPC(國際事務處理性能委員會)排行榜。
2021年,開源首次寫入《中華人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要》。這為加速國產自研數據庫技術迭代和生態構建提供了戰略指引。國產開源數據庫迎來了又一個百花競逐、姹紫嫣紅的春天。
可以說,國產數據庫雖無先發優勢,但近年來卻充分表現出了其獨有的發展潛力,在國際影響力上實現了快速提升,其中云數據庫表現尤為出色。
在Gartner 于日前發布的“2022 云數據庫管理系統魔力象限”中,被反復提及的中國云廠商有阿里云、騰訊云和華為云。
來源:互聯網
- 阿里云連續第三年蟬聯領導者象限。其突出點是經過驗證的高性能能力。PolarDB以其處理極高的并發性和彈性能力而聞名。
- 騰訊云則進入到特定領域象限,其在金融行業的拓展贏得了關注,報告評價TDSQL正在迅速抓住中國金融行業數字化轉型的需求。
- 華為云在去年入選特定領域象限,今年則未能入選,不過報告中也提及,華為云公有云上的DBaaS部署在中國快速增長,但地緣政治問題仍是華為在北美和歐洲進行業務探索的主要挑戰。
此外,IDC也于近期發布了 “2022年上半年中國關系型數據庫軟件市場跟蹤報告”。報告指出,2022上半年,中國關系型數據庫市場規模同比增長了30.4%,其中本地部署關系型數據庫規模6.0億美元,同比增長15.6%。在本地部署模式中,華為云以16.59%的份額排名國內廠商第一。
現狀:機遇明朗,國產品牌快速成長。
在非結構化數據激增和高并發計算需求的推動下,數據庫行業正在進入以云數據庫、分布式數據庫為代表的新階段。在此背景下,國產數據庫也迎來了整體發展的黃金期。具體表現在:
1、市場占有率快速提升
受益于高人口基數與應用軟件繁榮帶來場景紅利,國產數據庫陣營日益強大。根據中國信通院數據,2021年中國數據庫市場規模為 309 億元,占全球 5.4%。預計 2025 年中國數據庫市場總規模將達到 688 億元,2021-2025 年營收規模年復合增長率為 23.4%。
2、各路廠商紛紛入局
除了達夢、人大金倉等傳統數據庫廠商之外,云廠商、初創企業、跨界廠商也在發力國產數據庫賽道。如前文提到的,像阿里、騰訊這樣的云廠商占據云生態優勢,借力互聯網業務的快速發展,搭建自研云數據庫平臺搶占市場;再有,初創企業如PingCAP、巨杉等依托于新興數據庫需求和新技術架構實現蓬勃發展;最后像中興、浪潮這樣的廠商雖然并非數據庫專精,也在嘗試跨界布局企業級數據庫市場。
3、信創落地加速發展
國產數據庫作為信創的關鍵環節,隨國產化替代深入推進必將受到更多關注。尤其是隨著信創成果逐步進入核心系統適配改造階段,國產數據庫市場的大幅提升是必然結果。另外,十四五系列規劃中提及數據庫的相關政策共計19件,覆蓋金融科技、智能制造等各行業領域,為國產數據庫應用創新提供了政策依據。
4、資本青睞成新藍海
進入發展快車道的國產數據庫成為投資新沃土,整體發展前景被資本市場看好。根據觀研報告網發布的《中國數據庫行業發展趨勢研究與未來投資分析報告(2022-2029年)》顯示,2021年我國數據庫行業共發生投資85起,投資金額最高的為12月,當月發生投資事件9起,已披露投資金額達86.57億元。
5、細分市場各有千秋
國產數據庫較為典型的兩大細分市場是集中式和分布式。集中式數據庫的市場參與者主要為傳統數據庫廠商,分布式數據庫的玩家主要為云廠商和新興廠商。兩者的市場格局目前均呈諸侯割據、部落林立的局面,但隨著行業發展的深入,市場份額必將走向集中。另外,值得關注的是,雖然關系型數據庫依舊占據市場主體,但在非關系型數據庫領域,有一批初創企業深耕圖數據庫、時序數據庫等新賽道,旗下產品在場景驗證上擴展了原有的使用空間,在各自的細分領域做出了亮眼表現。
國產開源數據庫盤點
在過去的一年中,國產數據庫行業發生了諸多變化。隨著信創成果持續落地,投融資此起彼伏,開源日趨成為數據庫生態構建的重要力量,國產數據庫行業也呈現出欣欣向榮的姿態。在新舊交替的時間節點,我們一起回顧一下近一年來表現搶眼的若干國產開源數據庫。
TiDB
【項目簡介】
TiDB 是由PingCAP 公司自主設計研發的、兼容 MySQL 協議的開源分布式 HTAP 數據庫,支持本地和云部署兩種方式。
【項目地址】
https://gitee.com/pingcap/tidb
【開源許可證】
Apache-2.0
【發展歷程】
成立于2015年的PingCAP 公司借鑒 Google Spanner 及 F1 論文的實現,TiDB 在 Github 上開源,從僅有 SQL 層及 KV 層 的 beta 版本到今年正式發布的 6.0 版本,始終圍繞著為用戶提供一棧式 OLTP、 OLAP、HTAP 解決方案的目標演進。2022 年,TiDB不僅在產品建設上有多項突破,也獲得了國際認可。
【年度事件】
- 4 月,TiDB 分析引擎 TiFlash 正式開源。
- 4月, TiDB 6.0 重磅發布。
- 5月,TiDB Cloud 在全球范圍正式商用。
- 6 月,TiDB Cloud 正式上線 Google Cloud Marketplace,Google Cloud 全球用戶能夠通過 Google Cloud Marketplace 搜索、發現和訂閱 TiDB Cloud 服務。
- 6 月,PingCAP 宣布與阿里云達成合作,融合雙方技術優勢的云數據庫 TiDB 正式上線 阿里云心選商城。
- 11月1日,PingCAP 推出 TiDB Cloud Serverless Tier BETA 版。
- 12月,根據「Forrester Wave?: Translytical Data Platforms, Q4 2022 」報告,PingCAP 首次入圍就躋身“Strong Performers”行列。
OceanBase
【項目簡介】
OceanBase是由螞蟻金服、阿里巴巴自主研發的金融級分布式關系型數據庫,于2021 年6月正式開源。
【項目地址】
https://gitee.com/oceanbase/oceanbase
【開源許可證】
MulanPubL-2.0
【發展歷程】
OceanBase 發端于 2010 年,應用于支付寶全部核心業務以及阿里巴巴淘寶業務。從 2017 年開始面向外部客戶服務。2020 年 6 月 8日,螞蟻集團將自研數據庫產品 OceanBase 獨立進行公司化運作。2021 年 6 月,OceanBase3.0 版本發布并正式開源。2022 年,OceanBase在產品打磨、市場拓展和生態構建中均取得了不俗成績。
【年度事件】
- 3月15日消息,OceanBase 官網上線 OceanBase 在線體驗環境。
- 5月20日,OceanBase 成為首批獲得信通院可信開源社區、可信開源項目兩項評估認證的數據庫。
- 8月10日,“2022年 OceanBase 年度發布會”發布會上重磅發布了 OceanBase 4.0 ——業內首個單機分布式一體化數據庫,RTO 從 30 秒邁入 8 秒。
- 11月9日,螞蟻集團自主研發的原生分布式關系數據庫 OceanBase 入選“2022 世界互聯網領先科技成果”。
PolarDB
【項目簡介】
PolarDB是阿里云自研的云原生關系型數據庫,采用的是分布式共享存儲架構。
【項目地址】
https://gitee.com/mirrors_alibaba/PolarDB-for-PostgreSQL
【開源許可證】
Apache-2.0
【發展歷程】
2009年,阿里集團根據自身業務發展需求提出去IOE,并推出新產品TDDL(Taobao Distributed Data Layer);之后,阿里云將TDDL集成為DRDS(Distributed Relational Database Service)服務,并在2017年將其商業化,成為國內最早的分布式服務的商業化產品;2020年,阿里云將DRDS演進成一體云原生分布式數據庫PolarDB-X 2.0;發展至今,PolarDB-X歷經10余次阿里巴巴天貓“雙十一”考驗,支持8.7千萬TPS峰值,擁有線下用戶700多家,部署規模超過10000臺。
【年度事件】
- 5月,2022年度阿里云數據庫團隊共有15篇論文被數據庫三大國際頂級會議 SIGMOD、VLDB、ICDE 收錄。
- 8月,IDC發布《2021年下半年中國關系型數據庫軟件市場跟蹤報告》,阿里云市場份額(傳統部署+公有云模式)位居第一。
- 9月,阿里云 PolarDB-X 數據庫通過分布式數據庫金融標準驗證。
- 10月 阿里云 PolarDB、RDS 獲評信通院數據庫 Serverless 認證最高「先進級」,AnalyticDB 獲評「增強級」。
openGauss
【項目簡介】
openGauss 是由華為自主開發的一款開源關系型數據庫管理系統,具有多核高性能、全鏈路安全性、智能運維等企業級特性。
【項目地址】
https://gitee.com/opengauss/openGauss-server
【開源許可證】
MulanPSL-2.0
【發展歷程】
華為在2019年9月宣布將對其數據庫產品開源,開源數據庫的名稱即openGauss。2020年6月,openGauss數據庫源代碼正式對外開放,為企業提供了更多的開源的數據庫選擇。openGauss以開源社區為中心為開發者提供學習交流的平臺,不斷提升openGauss的行業影響力和知名度。時至今日,其生態建設成績有目共睹。
【年度事件】
- 1月,openGauss 社區正式成立 “openGauss 社區分委會”,以期加速社區人才培養和技術創新。
- 4月1日,openGauss 3.0.0 版本正式發布。該版本是 openGauss 社區繼2.0.0之后發布的又一個 Release 版本,版本維護生命周期為3.5年。
- 5月20日,2022 OSCAR 開源先鋒日在北京開幕。openGauss 社區首批通過可信開源社區分級評估,在社區治理能力、社區運營能力、社區開發能力模塊均被評為“先進級”。
- 8月16日,在2022第十屆中國電子信息博覽 ( 簡稱“CITE”)期間,openGauss 企業級開源數據庫一舉摘得本屆中國電子信息博覽會最高獎項金獎 (CITE 2022“金獎”)。
TDengine
【項目簡介】
TDengine 是濤思數據專為物聯網、車聯網、工業互聯網、 IT 運維等設計和優化的一款分布式、支持 SQL 的時序數據庫,其核心代碼包括集群功能全部開源。
【項目地址】
https://gitee.com/taosdata/TDengine
【開源許可證】
AGPL-3.0
【發展歷程】
2017年,濤思數據開始研發TDengine;2018年8月,TDengine首款產品真正交付用戶使用;2019年7月12日,濤思數據正式宣布將TDengine的內核(存儲和計算引擎)以及社區版100%開源;2020年
,三個月內完成兩輪千萬美元融資;2022年,達成“三面開花”:用戶數量翻了一番、三款新產品發布、并在 GitHub 上點亮 20,000 Star。
【年度事件】
- 8 月,TDengine 3.0 版本在首屆 “TDengine 開發者大會”上正式發布,升級成為一款真正的云原生時序數據庫。
- 9月,TDengine Cloud 上線海外市場并同步支持 Microsoft Azure、AWS、Google Cloud 三大公有云平臺。
- 11月,濤思數據入選“2022 信創產業獨角獸 Top100 榜單”。
gStore
【項目簡介】
gStore 是一種原生基于圖數據模型( Native Graph Model)的 RDF 數據管理系統,由鄒磊教授領導的北京大學王選計算機所數據管理實驗室( PKUMOD )研發。
【項目地址】
https://gitee.com/PKUMOD/gStore
【開源許可證】
BSD-3-Clause
【發展歷程】
gStore 系統源于2011年北京大學鄒磊教授在VLDB發表的論文:“gStore: Answering SPARQL Queries via Subgraph Matching”。其團隊在堅持圖數據管理領域不斷原始學術創新的同時深耕圖數據庫系統,堅持開源gStore圖數據庫系統的持續更新。gStore目前提供一鍵安裝的可下載版本、拆箱即用的云端系統和與多個國產自主可控的計算平臺(鯤鵬、飛騰、海光、兆芯)兼容。
【年度事件】
10月1日,面向大規模知識圖譜應用的原生圖數據庫系統gStore 1.0版本正式上線發布。
OpenMLDB
【項目簡介】
OpenMLDB 是由第四范式自主研發的開源機器學習數據庫,提供生產級數據及特征開發全棧 FeatureOps 解決方案。
【項目地址】
https://gitee.com/paradigm4/OpenMLDB
【開源許可證】
Apache-2.0
【發展歷程】
2021 年,OpenMLDB 的核心開發團隊將第四范式閉源商業產品中的數據治理和特征工程的核心模塊進行了抽象、增強、以及添加了諸多社區友好化特性,進行了二次開發,發布形成了今天的開源項目 OpenMLDB。OpenMLDB 脫胎于經過長達五年實踐檢驗的商業化產品,并且在該領域具有大量的經驗沉淀和獨特理解。如今,OpenMLDB 立足于開源開放的社區進行發展,期望幫助更多的企業低成本高質量完成人工智能轉型。
【年度事件】
- 5 月,v0.5.0 發布,引入預聚合技術和基于外存的存儲引擎,支持 UDF 開發。
- 8 月,v0.6.0 版本發布,運維功能增強,引入智能診斷工具。
- 10 月,基于 OpenMLDB 的聯邦學習方案被國際數據挖掘學術會議 CIKM 錄取。
- 11 月,OpenMLDB 首次構建云上生態。
未來趨勢
對于2023年國產數據庫的發展趨勢,PingCAP副總裁劉松進行了預測。
“從全球范圍看,Serverless ,HTAP 已經成為越來越熱門的關鍵技術,主要數據庫領先者都已經提供了Serverless 的創新版本,主要的云數據庫廠商也都在提供HTAP能力,Serverless 因為提供了極致的擴張性和極低的門檻,會變成云數據庫未來3-5年風向標。擁有全球業務的TiDB和國產云數據庫大廠,都在加速全球擴展,都在投資Serverless,HTAP 等技術獲得競爭優勢。”
以構建 HTAP 系統為例,關鍵需要應對如下挑戰:其一,如何做成一個有擴展性的HTAP,能夠應對準PB 級別的數據量;其二,如何解決TP和AP互不干擾這個問題,以避免AP 分析影響到在線交易系統;其三,如何保證數據新鮮度,并做到數據訪問接近零延遲;其四,如何讓用戶的使用成本較普通數據庫更低;其五,如何通過智能優化器降低門檻;其六,如何解決HTAP數據庫與用戶現有數據庫技術體系的集成問題。
關于國產數據庫的發展前景,劉松談到,“從中國市場看,2023年是中國經濟加速發展的一年,數字化和國產化兩個驅動力會放大它們的杠桿效應,從技術角度看,云數據庫會加速發展,HTAP 也會變成更多企業用戶的創新選擇,開源的影響力會繼續擴大,數據庫與AI的結合會非常有想象力。從行業角度看,互聯網行業的復蘇會推動數據庫在新經濟領域的業務增長,金融,保險,新零售,制造業,公共服務都會有持續增長的國產數據庫需求,中國數字原生企業的出海趨勢也會加速,這也會帶動國產數據庫出海的速度和采用。”
結語
據 DB-Engines 數據顯示,自2021年1月起,開源數據庫的全球部署首次超過了商業數據庫。放眼如今的國產數據庫市場,我們可以看到眾多優質的開源數據庫項目。隨著數字經濟的發展,相關技術應用不斷走向深化,加之信創的行業覆蓋面越來越廣,如何在新一輪產業革命中拔得頭籌,誰都沒有定論。不過可以明確的是:如果能夠持之以恒為國產數據庫生態創造一個開放的健康的市場環境,那么在這個風云迭起的時代一定可以書寫屬于我們自己的華彩篇章。
參考資料:
國產開源數據庫,戰斗在云原生時代 - 知乎 (zhihu.com)
2022年數據庫行業研究報告 國產數據庫廠商百花齊放 - 報告精讀 - 未來智庫 (vzkoo.com)
2022年中國數據庫排行榜年終盤點 - 墨天輪 (modb.pro)