出品 | 51CTO技術棧(微信號:blog51cto)
編輯 | 言征
本周二,全球知名數據分析軟件供應商Databricks發布了一份聲明稱,Databricks同意收購由Apache Iceberg的創建者領導的存儲平臺提供商Tabular。據華爾街日報透露,這筆交易的規模將超過10億美元。值得注意的是,Snowflake和Confluent也參與了這場競購。
此舉被業界專家視為“提高數據湖中的數據互操作性”的行動。Databricks首席執行官Ghodsi 表示,Tabular 擁有數百名客戶,它將與 Databricks 合作研究如何處理該產品。
1.Databricks支持Iceberg:OLAP和OLTP兩種開源表格式終于走到了一起
Tabular 成立于 2021 年,已籌集超過 3000 萬美元的資金,投資者包括 Altimeter Capital、Andreessen Horowitz 和 Zetta Venture Partners。
Tabular的創始人Ryan Blue和Daniel Weeks于2017年在Netflix開始開發Iceberg,并在2018年將其捐贈給Apache軟件基金會,大約在同一時間,Databricks正在開發Delta Lake,這是一種可用于ACID事務或OLTP處理的開源數據表格式。相比之下,Apache Iceberg主要用于OLAP查詢,因為它在并發寫入方面存在挑戰。
2022年6月,Databricks將其Delta Lake 2.0版本中的所有Delta Lake API開源,并表示將把Delta Lake的所有增強功能貢獻給Linux基金會。
在開源Delta Lake之前,Cloudera、Dremio、Google(Big Lake)、Microsoft、Oracle、SAP、AWS Snowflake、HPE(Ezmeral)和Vertica等競爭對手曾批評該公司,對Delta Lake是否是開源或專有表示懷疑,從而奪走了部分潛在客戶。
通過收購Tabular,Databricks表示將支持數據湖中的兩種主要開源表格式,并擴展對其UniForm Tables的支持。
該公司在聲明中表示:“Databricks打算與Delta Lake和Iceberg社區緊密合作,為數據湖帶來格式兼容性;在短期內,通過Delta Lake UniForm內部實現,在長期內,通過朝著單一、開放和共同的互操作性標準發展來實現。”
UniForm(通用格式)是2023年6月發布的一種新表格式,它提供Delta Lake、Iceberg和Hudi之間的互操作性,并支持Iceberg的RESTful目錄接口。
2.Snowflake和Iceberg表、Databricks和Delta Live表的對比
分析師也將Tabular的收購視為Databricks支持更強大互操作性的手段。
“我們之前也見過,公司通常會收購重要開源項目背后的人才,以此在項目的開源開發者社區中獲得強大的聲音,”Omdia的首席分析師Bradley Shimmin說。
“Tabular的創始人加入Databricks可能會提升Delta Lake和Iceberg標準之間的兼容性,這將使Databricks在支持嚴重依賴Snowflake平臺外部數據的客戶方面優于Snowflake,”Shimmin解釋道。
然而,這位首席分析師指出,此次收購不太可能阻礙Snowflake使用Iceberg,因為Blue和Weeks很久以前就將該項目開源并捐贈給了Apache軟件基金會。
Constellation Research的首席分析師也認為,Apache Iceberg已經超越了所有其他標準,而Databricks為創建表格式互操作性而涉足的舉措將進一步推動它成為主導的表標準。
此外,分析師還指出,這場競爭不僅僅是在兩種開放的表格式之間,還包括Snowflake和Databricks之間的較量。
“這筆交易的時機顯然是為了搶占Snowflake峰會的部分風頭,并試圖通過暗示其對Iceberg標準和Delta Lake的未來將產生巨大影響,在開放性信息方面超越其競爭對手,”Henschen說。
Snowflake本周也展示了其Polaris Catalog,并表示將在接下來的90天內將數據目錄開源。
Polaris Catalog是基于Iceberg構建的數據目錄,旨在滿足企業對于訪問具有數據治理能力且支持可互操作查詢引擎的廠商中立產品的需求。
據分析師稱,Polaris Catalog的發布與Databricks的Unity Catalog類似,是Snowflake為吸引數據目錄用戶遠離競爭對手Databricks,同時增強自身產品吸引力而采用的一種策略。
Amalgam Insights的首席分析師也支持Henschen的觀點,并表示這兩家數據湖倉提供商都在努力證明自己更適合支持跨多種數據格式和類型的企業數據環境。
“Databricks通過此次收購獲得了優勢,因為它表明它可以支持Iceberg,這可以說是支持最廣泛的表格式,”Park解釋道,并補充說,雖然Databricks歷來對其自主開發的項目是良好的開源貢獻者,但Iceberg的貢獻者社區現在比Tabular大得多,擁有來自許多大型廠商的承諾。
然而,Henschen指出,Iceberg有太多感興趣的參與方,任何一家公司都無法單獨主導它,盡管Tabular的收購可能會讓Databricks在Iceberg領域占據優勢。
3.Databricks與Snowflake之間的收購軍備賽
Databricks最近一直在收購公司,今年早些時候的三月,Databricks收購了波士頓的Lilac AI,以幫助企業探索和使用非結構化數據來構建基于生成式AI的應用。
在那之前,Databricks在2023年6月左右以13億美元的價格收購了LLM(大型語言模型)和模型訓練軟件提供商MosaicML,以加強其基于生成式AI的產品。
在收購Lilac AI和MosaicML之前,該公司去年5月以未披露的金額收購了以AI為中心的數據治理平臺提供商Okera。
這筆收購預計將提升Databricks在訓練和管理大型語言模型(如其專有開源Dolly 2.0 LLM)方面的數據治理能力。
Snowflake同樣激進,其收購特點在于,不僅用于加強其生成式AI產品,還用來加強其數據管理能力的公司。
其最近的收購形式是收購了一家名為TruEra的可觀測性平臺提供商的資產——這是一家也專注于提供機器學習和LLM生命周期管理能力的初創公司。
去年5月,這家基于云的數據倉庫公司以未披露的金額收購了位于加州山景城的初創公司Neeva,以將其基于生成式AI的搜索功能添加到其Data Cloud平臺上。
2023年2月,Snowflake收購了LeapYear以增強其“data clean room”的能力。
LeapYear的收購僅發生在Snowflake同意收購基于人工智能的時間序列預測平臺提供商Myst AI的一個月之后,使該公司在三年內收購了七家公司。