用戶超過10人就玩完:Gartner稱,數據湖搞不定SQL并發機制!
Spark的支持者Databricks宣稱,我們正在努力解決這個問題。
據Gartner聲稱,數據湖在試圖執行SQL查詢時,很難支持10個以上的用戶,而SQL查詢曾經被視為完全適合數據倉庫技術。
處理數據湖時,Apache Spark是使用最廣泛的處理引擎,原因在于它是一種單一的框架,既可以處理機器學習和圖形處理,還可以執行批處理(能夠支持實時處理)。這家知名調研公司表示,然而,Spark不適合同時試圖使用SQL查詢數據的許多企業用戶。
Gartner的分析師兼高級總監Sumit Pal表示:“使用來自數據湖的數據面臨的一些挑戰在于并發機制方面。并發活動密集、甚至并發用戶數量達到兩位數,常常會降低數據湖的速度,這表現在延遲時間變長。”
數據湖技術一直在努力通過支持SQL,使企業用戶更容易訪問所存儲的續流數據。比如說,去年11月,數據管理和機器學習框架廠商Databricks預覽了就為了這個用途的SQL Analytics。Databricks的這個開放格式數據引擎基于Delta Lake,旨在為現有的數據湖確保規范和高性能。
與此同時,AWS的數據湖:Elastic Map Reduce可以通過SQL Workbench或Presto SQL來處理SQL查詢。Azure在其數據湖(HD Insight或Azure Databricks)中支持SQL查詢,而谷歌云平臺(GCP)使用了Bigtable、Dataflow和Bigquery的組合。
但是巨頭們實現的這些系統無法處理“傳統”數據倉庫支持的SQL查詢數量,其中一些可能擴展到成千上萬個并發用戶。
延遲和并發是大問題
Pal告訴參加Gartner數據暨分析峰會的與會人士:“如今數據湖實際上并沒有用于商業智能(BI)工作負載,尤其是并沒有用于需要高并發性和低延遲的大型組織。過去在數據湖上開發出來的SQL引擎其實從未真正滿足過并發性和延遲這兩方面的要求。”
Databricks CEO Ali Ghodsi表示,這家公司已經意識到了并發問題,正在努力改進。“并發是Spark之類的技術未能做好的方面。這一直是我們關注的重點。”
他說:“我們已經在超大數據倉庫方面處于世界一流水平:我們可以處理數量眾多的數據,而且可以比其他任何公司更快速、更出色地處理,但是當數據倉庫很小,同一個倉庫上又有許多不同的并發用戶(比如32個用戶),這未必是我們最擅長處理的。”
Ghodsi表示,最初于去年7月構建的SQL Analytics起初無力支持32個并發用戶,但是2月份的版本表明,它能夠為一個SQL端點每小時處理來自32個用戶的19000個查詢。他表示,為了支持更多的用戶,客戶可能需要在云端啟動更多的端點。