2021年中國數據庫行業研究報告
核心摘要:
中國數據庫市場規模: 據艾瑞統計, 2020 年中國數據庫市場總規模達 247.1 億元,同比增長 16.2% 。 未來三年預計將保持高增長,多方面積極因素促成: 1 )政策扶持、國產化和數字化轉型帶動需求增長; 3 )各種類型廠商厚積薄發,產品和技術走向成熟; 4 )企業對基礎軟件的付費意愿逐年提升。
中國數據庫市場格局: 1 ) 多類型數據庫百花齊放,關系型占據絕對主流, 2020 年中國關系型數據庫的市場份額達 90% 左右; 2 )借助政策東風,國產廠商市場版圖快速擴張, 2020 年達夢等傳統國產廠商的市場份額上升至 7.1% ,國外廠商下降至 52.6% ; 3 ) 2020 年中國公有云部署模式的數據庫市場份額占比達 32.7% ,近年來增速有所放緩,預計 2025 年將達到 47.2% ,云廠商將成為中國數據庫市場市占率最大的陣營; 4 )初創廠商不斷涌現,預計未來五年有 10 倍以上的成長空間。
中國數據庫市場挑戰與趨勢: 約 2010 年起, 中國數據庫 市場進入了充分釋放活力的十年,但在分布式改造、國產化、數據遷移、跨庫管理、軟硬結合等多方面仍面臨挑戰。 據艾瑞研究,“多場景、融合、云、湖倉一體、開源、人工智能”將成為中國數據庫市場未來發展的必然趨勢。
01 供給端
全球數據庫發展歷程
數據庫與互聯網發展相互促進,技術和產品趨于成熟和完善
受益于市場需求和技術沉淀,進入百花齊放的快速發展期
從20世紀80年代起,我國數據庫市場開始逐步發展起來。經歷了初始的技術萌芽期和國外廠商壟斷期,21世紀初,基于863計劃、核高基計劃等國家政策支持,一批擁有高校背景的國產廠商成立,打破了Oracle和IBM一統天下的格局。2010s,隨著市場需求的增長、技術的沉淀,一批云廠商和新興獨立廠商開始提供數據庫產品。近年來, 借助國產化熱潮,許多軟件廠商、集成商、運營商等也開始入局,發展自己的數據庫能力。
中國數據庫產業圖譜
中國數據庫市場規模
政策和數字化釋放需求,2020年市場規模達247.1億
據艾瑞統計, 2020年中國數據庫市場總規模達247.1億,較2019年增長16.2%,CAGR(2020-2025e)達15.6%。 2020-2022中國數據庫市場將呈高速增長,由多方面因素促成:1)政策利好,國家大力鼓勵國產數據庫廠商的發展;2)需求拉動,國產化和數字化建設帶動需求的爆發增長;3)供給端多元廠商發力,傳統、初創和跨界廠商厚積薄發,產品和技術經歷了工程實踐的打磨走向成熟;4)國內企業對基礎軟件的付費意愿和IT支出逐年提升,有利于市場的長期發展。
中國數據庫市場發展特點
多類型數據庫百花齊放,關系型占據絕對主流
隨著互聯網的發展,多種類型數據爆發式地增長,各種創新業務場景層出不窮,進而促進了供給端廠商技術和產品架構的創新。從2010s左右,多種類型和技術路線的數據庫廠商紛紛成立,中國數據庫市場進入了百花齊放的階段。但從商業價值來看,中國數據庫市場的營收仍主要來自關系型數據庫,NoSQL數據庫更多地是開源模式,產生二開和服務的費用。
借助政策東風,國產廠商厚積薄發,市場版圖快速擴張
借助政策紅利,國產廠商經過多年的技術研發和經驗積累,市場份額在逐年提升。在國產陣營中,一批以“達夢、人大金倉、南大通用、神舟通用”為代表的,2000年左右成立的傳統國產數據庫廠商近年來開始發力,他們從購買源碼、借助開源走向自主研發,實力不斷增強,在黨政軍市場有著較好的表現,同時也開始向能源電力、運營商、交通等其他行業快速拓展。此外,初創廠商、云廠商、ICT廠商等近年來也開始發力數據庫市場,國產陣營日益強大。相比之下,國外數據庫廠商如Oracle、Microsoft、IBM等,雖然在OLTP的核心場景還擁有較高的市占率,但整體市場份額在被逐漸侵蝕。
公有云數據庫增速放緩,未來仍有一定滲透空間
中國公有云部署模式的數據庫在過去三年快速增長,于2020年達到了32.7%的市場份額,未來雖然增速會有所放緩,但仍有一定的滲透空間。從應用邏輯來看,數據庫服務于數據,數據應用于業務最終產生價值;反之,業務端的創新和數據的變化也會反饋與數據庫市場。從最終業務端來看,現階段云數據庫更多的還是應用于互聯網行業,以及傳統行業的互聯網場景,未來隨著產業端更多的業務創新,有望進一步拉動云數據庫的需求。
憑借HTAP、NoSQL等新技術,初創廠商不斷涌現
一批2015年前后成立的初創型廠商借助NewSQL、SQL on Hadoop、NoSQL等新技術架構,以開源或垂直領域商業化的思路,逐步增強自己的市場影響力,在互聯網、金融、物聯網等行業有著較好的表現。從現階段來看,其營收的市占份額較小,但增速較快,是中國數據庫市場增速最快的一個賽道,預計到2025年可以實現高于十倍的擴張。隨著市場的大浪淘沙,未來的初創數據庫廠商賽道會趨于收斂,市場份額向一小批具有核心技術優勢、抓住高價值應用場景的優秀廠商集中。
02 需求端
采購流程
不同企業組織架構和選型要求不同,采購流程也有一定區別
選型指標
綜合考慮外圍因素、產品技術相關因素和服務價格因素
參考企的業采購流程,一般數據庫選型從前期到后期,會綜合考慮外圍因素(自身技術路線、資質、品牌聲譽與行業案例、生態構建等),產品技術相關因素(一致性、兼容性、擴展性、性能、功能豐富性、安全性等),以及后期的價格服務因素(解決方案、性價比、服務響應速度、培訓體系等)。
示例場景——金融
對“高可用/強一致/低時延”要求高,分布式改造是下一步重點
對于以銀行為例的金融企業而言,其業務數據的價值較高,因而對數據庫“高可用、強一致、低時延”的要求較為極致。在TP場景下,銀行下一步選型的重點為分布式改造。初步來看,解決思路主要是“中間件+分庫分表”or“原生分布式架構”。中間件路線方案成熟且性能表現較好,是現階段大多數客戶的選擇;但原生分布式架構在擴展性方面存在天然的優勢,在未來具有更廣闊的發展空間。
示例場景——互聯網教育
業務擴張速度快,看重可擴展性、成本控制和成熟度
受利互聯網和疫情,教育行業近年來呈“營收高增長,業務快迭代”發展特點。因此,企業在進行選型時較看重數據庫的可擴展性,希望產品可以及時響應公司版圖的擴張和業務的變更。同時,教育行業屬于非強技術導向型,企業對數據庫強一致、高性能和高可靠的要求并不極致,更多會考慮產品的成本控制和成熟度。企業在選型時表現較保守,雖然看好一些新產品(e.g. HTAP數據庫、云原生數據庫),但更希望數據庫產品工程實踐豐富,可以拿來即用,且專業人才招聘容易。因此MySQL數據庫成為許多(互聯網)教育企業的最佳選擇,同時考慮成本和便捷性,云托管形式在業界也比較流行。
03 挑戰與趨勢
挑戰一
分布式實踐仍存在許多問題
橫向擴展 (scale out) 的設計思想并非創新,但在歷史上一直未被廣泛應用。一方面是由于分布式環境使事務ACID特性難以實現,另一方面是由于單機性能升級即可滿足企業的數據需求。但隨著摩爾定律在某種程度上的失效和互聯網的發展,硬件性能升級無法匹配海量數據的增長,分布式在近年來廣受關注,許多廠商都推出了相應的分布式數據庫產品。然而,在分布式的前提下,還有許多待探索的問題,例如分布式事務的解決、架構的創新、數據分片的智能化、企業級能力的提升等。
挑戰二
信創為國產廠商提供成長沃土,未來發展仍待市場磨煉
信創即信息技術應用創新,是在復雜國際政治背景下,國家政策引導的新一輪信息產業創新。“信創”無論是對產業端還是需求端企業都是一個重要的契機。國產數據庫廠商借助政策東風,有利于其拓展市場,將產品放到實際場景中打磨,不斷更新迭代,實現自己技術實力正真的彎道超車;傳統行業企業、政府等也可以借此契機,實現數字化轉型和業務的創新發展。但信創并非一日之功,從產業發展規律來看,新一輪的技術變革往往需要長達6年左右的實踐和積累,需要上下游廠商和企業共同的長期努力。
挑戰三
數據遷移、多庫管理提出新的挑戰
面對業務形態多樣、商業模式多變、需求變化頻繁的當代市場,數據庫和應用系統存在的形式也愈發的豐富。一個企業往往擁有多個系統,從本地到云端,從關系型到非關系型,從OLTP到OLAP,從國外品牌到國產品牌,數據庫之間的跨庫查詢、數據導出遷移、結構變更等操作已成為常態。數據遷移頻繁、多庫并存的現狀,使得企業后期的使用成本(運維成本、人力成本、多技術棧學習成本、遷移成本、二開成本等)大幅提高,也為數據庫廠商提出了“統一管理”的新挑戰。
挑戰四
CPU、內存等硬件變化為數據庫設計提供更多的想象空間
數據庫系統遵循“木桶理論”,硬件和軟件作為系統的核心組件,互相制約,互相促進。而新型硬件的發展為數據庫軟件的發展帶來了新的挑戰。例如多核CPU技術走向成熟,但實際應用中并發控制出現沖突,使得核數增加帶來的性能增益出現限制,如何進行多核CPU調度優化為廠商提出了新的難題。同時,大容量內存和高速硬盤走向普及,NVM非易失內存也逐漸成熟,內存的潛力釋放,如何搭配新存儲介質設計新的數據庫架構也有待探索。因此,一些數據庫領先企業如Oracle、阿里等都開始探索數據庫軟硬一體機的設計與實踐。
趨勢一:多場景|融合
結合細分場景的多樣發展是必然選擇,用戶簡單化需求驅動的一體化融合也不容忽視
從產品視角來看, 不同場景具有不同的特性,對數據庫讀寫性能、吞吐量、一致性等方面的要求各有不同。為支持不同場景下的不同要求,數據庫多樣化是必然的選擇。例如,物聯網場景下寫入的數據量特別大,對實時性的要求特別高,但數據天然是時間有序的且具有靜態特征,因此時序數據庫會較傳統的事務型數據庫更有優勢。
從用戶視角來看, 除部分頭部互聯網公司外,其他大中小型企業的IT人員比例都并不高,對口數據庫團隊的人數會更少。對于他們而言,各種日新月異的技術棧、多種類型的數據庫產生了極大的學習成本和維護成本,因此希望能夠有一體化的產品/平臺直接使用或者統一管理。對于該種類型的企業而言,會更傾向采購能滿足其70%全部需求的一體化產品,而非能100%滿足其部分需求的多個產品。當今市場上的HTAP/NewSQL數據庫、多模數據庫、統一管理平臺等即滿足了企業簡單化一體化的需求,因此在多場景大背景下的“融合”也是不容忽視的趨勢。
趨勢二:DBaaS
解決彈性伸縮問題,為供應商和企業提供更多的想象空間
隨著企業業務規模的擴張,數字化轉型的推進,其對數據庫系統也提出了新的要求:傳統建設模式項目周期長,不能匹配業務上新的速度;企業部署多套數據庫系統,系統間割裂,缺少統一的管理平臺;資源采購和體系規劃按現有規模建設,難以隨業務的變化而彈性伸縮等。DBaaS(Database as a Service) 即將IT基礎資源以服務化的方式提供給數據庫,以及多租戶和動態調整來解決成本和響應問題。部分對數據自主性和安全性要求較高的大型企業,可以選擇以私有云或者專有云的方式進行數據庫的云化改造。
趨勢三:湖倉一體
架構創新,同時實現海量大數據的聯機交易和聯機分析
1980s以來,數據倉庫技術不斷發展,尤其MPP架構使得DBMS能夠處理大量數據,滿足企業通過數據分析來支持商業決策的需求。但隨著互聯網的發展,許多企業需要同時處理非結構化數據,半結構化數據以及海量結構化數據。數據湖隨之誕生,它可以直接存儲各種格式的原始數據,根據用戶需求進行計算,具有靈活彈性的優點。但是,數據湖雖然適用于存儲多元化數據,卻缺少一些企業級功能,在實際執行時也存在許多挑戰:數據缺少加工,難以實現實時分析,數據查詢性能差;不支持ACID事務等。
面對企業海量大數據場景下的聯機交易、非結構化數據治理的需求,以及數據倉庫/數據湖架構的局限,以Snowflake、Databricks、阿里云、巨杉數據庫為代表的新一代“湖倉一體”數據庫廠商快速崛起。湖倉一體架構下打通了數倉和數據湖,并融合了兩種架構的優勢,底層多套存儲系統并存且互相數據共享,形成了資源池,上層各引擎可以通過一體的封裝接口訪問,實現了聯機交易和聯機分析的同時支持。
趨勢四:開源
開源模式成為產業互聯網時代數據庫廠商的破局之刃
從產業發展角度來,開源模式一方面提高了數據庫產品開發的“效率”,它將源代碼開放,避免了研發人員對基礎程序的重復開發;另一方面它也有助于產品的技術“創新”,開源社區最大程度上匯聚了全球的資源力量,為開發者提供了交流切磋的空間,從而加速創新靈感的誕生。對于廠商而言,盡管從表面上看,企業部署開源并不能獲得直接的利益,但在這個過程中,它們卻可以布局產品的生態建設(包括人才培養、市場教育、實踐反饋、企業文化、產品影響力、配套周邊產品等),從而為自己獲得有利的戰略地位。在當今移動互聯網向產業互聯網發展的轉折點,開源模式未嘗不是各云廠商、傳統廠商、新興廠商擴展市場的破局之刃。
趨勢五:智能化
人工智能延伸DBA的能力半徑,優化數據庫性能
隨著移動互聯網到產業互聯網的發展,數據每日呈指數級的增長,且呈現多模態特性。面對復雜海量的數據,越來越多種類的數據庫出現,需要調試的范圍越來越廣。但大多優化任務仍落在DBA身上,需要其進行手動調優,致使人工能力逐漸跟不上數據庫的發展。而人工智能可以彌補人能力的不足,解決許多存在多年的數據庫問題,例如資源的調度、索引的設計和優化、查詢的優化、負載均衡設計、緩存失效等。AI 通過優化算法,對任務進行有效地預測、分析和自動化,從而減少了人工成本并大大提高數據庫的性能。尤其是未來隨著云上數據庫更大范圍內的普及,智能資源調度將成為各供應商需要面對的下一個課題。