“極速、統一、開放”,StarRocks開啟企業數據分析新局面
近日,由知名分析型數據庫公司StarRocks主辦的StarRocks Summit 2021在線召開。此次會議以“極速、統一、開放 ”為主題,探討了在新技術、新場景驅動之下數據分析的新機遇和新架構。此次活動吸引了近萬名大數據、數據庫相關的工程師、媒體和分析師在線觀看和互動,還有來自互聯網、房地產、零售、物流等領域的客戶參與并分享觀點。在本次峰會上,StarRocks還發布了全新的2.0產品。
新一代數據架構必然是“極速統一”的
近年來,數據驅動的概念不斷深入人心,企業的數據分析場景也越來越豐富,對數據分析架構的要求也越來高。StarRocks的聯合創始人,COO葉謙在開場的主題演講中分享,企業新的數據分析場景催生的新需求主要包括四個方面:希望數據分析的速度變得更快、希望數據分析更加靈活、希望數據分析更實時、希望數據分析能支持更高的并發。
在這幾方面的需求里,對數據分析的速度要求是一個最根本的需求。現有的同類產品在分析速度上仍然差強人意。雖然有的產品在單表分析上表現優異的產品,但在其他各個分析場景中,特別是在涉及到多表關聯查詢的場景、實時大量寫入并分析場景、高并發查詢分析場景時,當前同類產品的速度仍然不能滿足業務需求。
正是因為速度不達標,企業為了滿足業務需求,只能求助于預計算和大寬表,結果就是造成了數據分析的靈活性下降。葉謙指出“很難想象這樣的數據分析靈活性如何能支持好業務的快速迭代??赡軘祿蟊磉€沒建設好,業務就已經錯過了最佳的拓展窗口期。”
不僅如此,現有數據分析復雜架構還帶來了很高的成本,包括建設成本、開發成本和維護成本。有的公司同時在維護5、6套不同的數據分析系統,而公司的大數據團隊可能才不到10個人。在這種情況下,公司很難深入掌握每一套數據分析系統,導致了線上業務的風險。
StarRocks一直在試圖解決現有復雜數據架構的問題,他們的答案是:新一代極速統一的數據分析架構。StarRocks已經實現了在多種數據分析場景下都能達到極速的分析效果。StarRocks的單表查詢性能和當前業界最好的產品持平,多表查詢性能大幅領先于當前的同類產品。“正是因為這樣全方位的極速,我們才能在業務中應用星型模型、雪花模型等更靈活的建模方式。”葉謙說,“在這個數據架構中,整個OLAP分析層可以統一到StarRocks中。”。
(圖1:基于StarRocks的極速統一的數據架構)
追求極速,直道超車
StarRocks的聯合創始人,CTO趙純的主題演講深度解密了StarRocks極速背后的硬核技術。StarRocks從自主研發的全面向量化引擎出發,在追求極速的路上不斷實現突破。逐漸從追趕者,變成了領跑者。
在分析型數據庫領域,國外著名產品ClickHouse一直是一個業界標桿。這個起源于俄羅斯的產品,最近剛剛以20億美元的估值,融資2.5億美金。其融資速度和其分析速度一樣,震驚了業界。趙純分享,在StarRocks向量化引擎1.0階段,StarRocks的單表查詢性能已經比肩國外著名產品ClickHouse,而多表查詢性能,遠超ClickHouse。
而不久即將發布的StarRocks 2.0將把整個產品推入向量化引擎2.0階段。在這個階段里的,利用全新自主研發的基于代價模型的CBO優化器將發揮巨大的作用。由于新優化器的加持,StarRocks在查詢規劃方面能夠利用全局上下文,這使得有更多的優化手段可以用來加速單表查詢。字符串全局字典就是其中一項重要優化,它適用于線上最普遍的,針對字符串列的多維度聚合分析場景,如連鎖機構針對地域和門店的聚合查詢,針對訂單基于品類和標簽的聚合分析等。在這種場景下StarRocks比ClickHouse還要快一倍以上!
極速統一的力量
截止到當前,StarRocks已經在數百家公司的生產環境上線使用, 其中大公司超過70家。這些客戶里包含了多個不同行業的頭部客戶,包括互聯網,金融,物流,制造,教育,航旅,游戲和房地產等領域。“更讓我們感到自豪的是,我們的每個上線客戶都在不斷擴大StarRocks的線上集群規模。這一方面說明了客戶數據分析需求的旺盛,另一方面也說明了大家對StarRocks的認可。” 葉謙說。
與會的10個行業頭部公司,如:騰訊微信、小米、貝殼找房、攜程、順豐科技等,分享了各自公司基于StarRocks打造新一代數據分析架構的經驗。這其中不乏從ClickHouse切換到StarRocks的實踐案例。
在攜程的案例中,攜程大住宿HData之前是ClickHouse的重度用戶,雖然單表查詢性能優異,但是不能支持高并發查詢,以及運維的復雜性都讓攜程大住宿的工程師深受困擾。在峰會的圓桌討論環節中,攜程大住宿的史文俊還提到,曾經出現過長假訪問高峰期間ClickHouse出現Bug,導致所有服務都受到影響的情況,搞得工程師每逢長假都睡不好覺。在使用了StarRocks之后,高并發查詢的問題,以及運維復雜的問題都得到了很好得解決。后續,攜程大住宿會把實時和離線的數據分析都遷移到StarRocks上來,期望最終實現OLAP數據分析層的統一。
除了攜程之外,貝殼找房、順豐科技、汽車之家等公司也用實際案例,佐證了“極速統一”架構的能力。
開放的生態,無限的未來
自從9月初開放源代碼以來,StarRocks的社區建設進展迅速。目前,已經有近10家知名企業正式加入了StarRocks的建設。當前社區每月有229個commits,月活躍contributors數超過30人,每月產生300多個Pull Request。這個活躍度堪比Flink和Spark等著名的開源社區。據悉的StarRocks即將和幾個著名的頭部云廠商展開合作,共同對外提供基于StarRocks的產品。云廠商也會投入研發力量,加入StarRocks的社區建設。另外,StarRocks面向開發者的Hacker meetup,也將在近期啟動。此舉將一步激活社區,吸引更多的開發者加入StarRocks的建設。
?。▓D2:當前已經加入社區的知名企業)
本次StarRocks Summit 2021是StarRocks舉辦的第一屆年度峰會。它向業界展示了一個鋒利強悍的產品,一個朝氣蓬勃、快速發展的社區。相信在未來的日子里的,StarRocks一定會像它的名字那樣,一面仰望星空,一面腳踏實地,為企業的數據分析發展注入更多的驅動力。