Databricks決定開源其Delta Lake數據湖
為了消除 Databricks 競爭對手的疑慮,Databricks 周二表示,它正在開源所有 Delta Lake API,作為 Delta Lake 2.0 版本的一部分。該公司還宣布將把 Delta Lake 的所有增強功能貢獻給 Linux 基金會。
Cloudera、Dremio、谷歌(Big Lake)、微軟、甲骨文、SAP、AWS Snowflake、HPE(Ezmeral)和 Vertica 等 Databricks的競爭對手對該公司提出了批評,質疑 Delta Lake 是開源的還是專有的,因此搶走了一定份額的潛在客戶。
Ventana Research 研究總監馬特·阿斯萊特(Matt Aslett)說:“新公告應該為用戶提供連續性和清晰度,并有助于消除關于 Delta Lake 是專有還是開源的混淆(部分由競爭對手引發)。”
Constellation Research 首席分析師 Doug Henschen 表示,隨著這些公告的發布,Databricks 正在消除客戶的擔憂和競爭性批評。
“在競爭性交易中,Snowflake 等競爭對手會向潛在客戶指出 Delta Lake 的某些方面是專有的,”Henschen 說,并補充說 Databricks 客戶可以相信他們的數據在一個開放平臺上,而不是鎖定在 Delta Lake 中。
Databricks 將 Delta Lake 稱為數據庫湖,一種同時提供存儲和分析功能的數據架構,這與以原生格式存儲數據的數據湖和存儲結構化數據(通常以 SQL 格式)的數據倉庫的概念形成對比。
商業開源市場競爭加劇
隨著數據湖市場上的商業開源項目越來越多,Databricks 的 Delta Lake 會發現自己面臨新的競爭,包括為超大型分析表提供高性能查詢的 Apache Iceberg。
“還有一些開源項目最近開始商業化,例如用于 Apache Hudi 的 OneHouse 以及 Starburst 和 Dremio 都推出了他們的 Apache Iceberg 產品,”Amalgam Insights 首席分析師 Hyoun Park 說。“隨著這些產品的推出,Delta Lake 面臨著來自其他開源 Lakehouse 格式的壓力,因為 Lakehouse 市場開始分裂并且技術人員有多種選擇,因此在功能上變得更加強大,”Park 補充道。
Ventana 的 Aslett 說,該領域的許多其他參與者都專注于 Apache Iceberg 作為 Delta Lake 表的替代品。與以行和列存儲數據的傳統表相比,Delta 表可以使用 ACID(原子性、一致性、隔離性和持久性)事務來存儲元數據,并幫助加快數據導入。
4 月,Google 宣布支持 Big Lake 和 Iceberg,本月早些時候,Snowflake 宣布在私人預覽版中支持 Apache Iceberg 表。Henschen 說,與 Databricks 的開源戰略一樣,Iceberg 的公告旨在吸引潛在客戶,這些客戶可能擔心向一家供應商承諾,以及未來可能無法訪問自己的數據。
Gartner 前研究副總裁 Sanjeev Mohan 表示,面對新的競爭,Databricks 轉向開源 Delta Lake 是一個很好的舉措。
Delta Lake 2.0 提供更快的查詢性能
該公司表示,Databricks 的 Delta Lake 2.0 將于今年晚些時候全面推出,預計將為數據分析提供更快的查詢性能。
Databricks 周二還發布了第二版 MLflow——一個用于管理端到端機器學習生命周期 (MLOps) 的開源平臺。該公司表示,MLflow 2.0 附帶 MLflow Pipelines,它為數據科學家提供基于他們正在構建的模型類型的預定義、生產就緒模板,使他們能夠加速模型開發,而無需生產工程師的干預。
據分析師稱,MLflow 2.0 將成為數據科學家更成熟的選擇,因為機器學習生產仍然是一個具有挑戰性的過程,并且將算法模型轉換為安全管理資源上的生產級應用程序代碼仍然很困難。
“這個領域有許多供應商解決方案,包括 Amazon Sagemaker、Azure 機器學習、谷歌云 AI、Datarobot、Domino Data、Dataiku 和 Iguazio。但與超大規模和 Databricks 的統一方法相比,Databricks 是一個中立的供應商數據和模型管理是 MLOps 供應商的一個差異化因素,這些供應商專注于模型操作化的編碼和生產挑戰,”Amalgam 的 Park 說。
Henschen 表示,發布 MLflow 2.0 的舉措簡化了將流式傳輸和流式分析引入生產數據管道的途徑,并補充說,許多公司在 MLOps 方面遇到了困難,即使在成功創建機器學習模型后也會失敗。