Apache Doris剛“畢業”:為什么應關注這種SQL數據倉庫?
譯文?譯者 | 布加迪
審校 | 孫淑娟
Doris是一種基于SQL的大規模并行處理(MPP)開源分析數據倉庫,正在Apache Incubator(Apache孵化器)進行開發。現在,Doris躋身頂級項目行列,據Apache 軟件基金會(ASF)聲稱,這意味著“它已證明了能夠進行適當的自治”。
該數據倉庫最近迎來了版本1.0,這是它在該孵化器進行開發的第八個版本(還有六個Connector版本)。它旨在支持聯機分析處理(OLAP)工作負載,通常用于數據科學場景。
Doris原名Palo,誕生于中國互聯網搜索巨頭百度,是其廣告業務的數據倉庫系統,2017 年開源,2018年進入Apache 孵化器。
Doris植根于Apache Impala和Google Mesa
據Apache軟件基金會聲稱,Doris基于Google Mesa和Apache Impala集成,Apache Impala是2012年開發的開源MPP SQL查詢引擎,基于Google F1的基礎。
Mesa在2014年左右被設計成一種高度可擴展的分析數據倉庫系統,用于存儲與谷歌互聯網廣告業務相關的關鍵測量數據。
據百度和Apache孵化器的開發人員聲稱,Doris提供了簡單的設計架構,同時提供了很高的可用性、可靠性、容錯性和可擴展性。
“易于(開發、部署和使用),以及單一系統滿足眾多數據服務的需求,這是Doris的兩大特點”,Apache軟件基金會在一份聲明中表示,補充道該數據倉庫支持多維報告、用戶畫像、即席查詢和實時儀表板。
Doris的其他一些功能包括列存儲、并行執行、矢量化技術、查詢優化、ANSI SQL,以及通過面向Apache Flink、Apache Hive、Apache Hudi、Apache Iceberg、Apache Spark、 Elasticsearch及其他系統的連接件與大數據生態系統集成。
開源數據庫的使用量預計將增長
企業級開源數據庫的使用率預計會增長。咨詢公司Gartner在《2019年開源DBMS市場狀況》報告中預測,到2022年底,超過70%的新的內部應用程序將在開源數據庫管理系統(OSDBMS)或基于OSDBMS的數據庫平臺即服務(dbPaaS)上開發。
此外,隨著數據激增和企業越來越需要實時分析,一種簡單的大規模并行處理開源數據庫成為了當下的需要。
Ventana Research研究總監David Menninger說:“隨著數據量不斷增長,MPP數據庫成為了能夠以足夠快的速度或足夠低的成本處理數據以滿足組織需求的唯一實際方法。”
云架構激發了組織對MPP數據庫的興趣
Menninger表示,推動MPP數據庫發展的其他趨勢是現在有了相對廉價的基于云的服務器實例,這些實例可以用作MPP配置的一部分,因而組織不需要采購和安裝這些系統使用的物理硬件。
Menninger認為Doris大有希望,雖然有許多MPP數據庫可選,其中一些是開源的,但實際上沒有一種開源的MPP MySQL替代方案。
“MySQL本身和MariaDB已經過擴展,可支持更龐大的分析工作負載,但它們最初是為事務處理設計的”,Menninger說,補充道可以將開源PostreSQL數據庫Greenplum以及Google BigQuery、Amazon RedShift和Microsoft Synapse等超大規模服務視為Doris的競爭對手。
此外,Gartner大數據和分析前研究副總裁Sanjeev Mohan表示,還可以將ClickHouse、Apache Druid和Apache Pinot視為是競爭對手。
據Apache基金會聲稱,使用Doris可能有諸多優勢,比如架構簡單和更快的查詢時間。
Doris簡單的原因之一是,它不依賴多個組件來完成類管理、同步和通信之類的任務。快速查詢時間可歸因于矢量化,這種方法讓程序或算法可以一次針對多個值而不是單個值進行操作。
據Apache基金會的開發人員聲稱,該數據倉庫的另一個好處是Doris的超高并發支持,這意味著它可以同時處理來自成千上萬用戶提出的處理數據、從數據庫獲取洞察力的請求。
由于大多數組織允許其員工訪問數據,以便促進他們利用數據獲取洞察力,而不是只有高管才能享用分析工具,如今對高并發性的需求已有所增加。
原文標題:??Apache Doris just 'graduated': Why care about this SQL data warehouse???,作者:Anirban Ghoshal?