解密 OpenAI 為什么收購 RockSet
OpenAI對收購沒有透露很細節的東西,只是強調了會將 RockSet 融合到檢索基礎設施中,將數據轉化成可以操作的智能(actionable intelligenc)。 具體 OpenAI 公開稿可以見公開申明(https://openai.com/index/openai-acquires-rockset/)
今天聊聊,給不了解的同學掃盲一下,另外說一下我的看法。
RockSet 是一家什么公司
RockSet 原來主要是一家主打云上實時數倉的公司,2018年由一群 meta 印度工程師創立。
主要的核心是在云上基于 rocksdb構建了一個全索引的,云原生的,實時數據同步的數倉。
圖片
這個核心優勢就是任意維度查詢比較快,代價是資源各方面占比是比較高的。類似產品國內的阿里云 數據庫團隊的 ADB 也是類似技術,后面的大數據團隊又做了一個 PG 版本的 hologres。
阿里最早做這個是給 Maxcomputer 做加速用的,典型場景有電商里面篩選過濾會用到,但總體而言,純實時的場景還是比較少,所以市場空間不是特別大。
大模型時代帶來, RockSet 又加上了向量檢索的能力,所以現在主推的是混合檢索(文本,向量混合檢索),這個就和 ES,百度的 VDB 類似了。
應該說 Rockset 的技術還是很有特點的,但并不是獨一無二的。
OpenAI 為什么要收購
OpenAI 對收購的原因講得比較少,,只是強調了會將 RockSet 融合到檢索基礎設施中。個人猜測有兩個方面的原因:
首先應用于最新的大模型,Maybe GPT 5.0?
傳統大模型訓練完了之后數據是不會更新的,但這個并不符合客戶的訴求,不管是什么業務都是要結合最新的數據才有價值的。
所以我猜測最新的大模型本身會將 RAG 架構融入到大模型本身去。會有專門的模塊去實時采集和更新互聯網數據,這樣用戶體驗到的一直是最新的數據,大模型的智能水平會上一個臺階。
其次給 2B 客戶提供更完善的方案
OpenAI在 23 年年末的開發者大會上,展示了Assistants API,這個 API 主要的能力就是可以調用外部的能力,包括調用強大的解釋器(Code Interpreter),還可以調用外部函數(Functions Calling), 而且還可以外掛自己的知識庫(Retrieval)。
但是這個 API 的限制是比較大的,包括調用能力比較弱,價格比較高,缺乏一系列安全等高級能力。基本上用戶可以很快的基于 Assistant API 構建一個 demo,但是真的用于生產是比較難的。所以業界有一系列的向量數據庫的方案。
未來 OpenAI 要真的服務復雜場景,給 2B 企業提供更完善的方案,一個強大的可以混合召回引擎是需要的。所以猜測有可能會把Rockset 做成服務,然后結合大模型開放給 2B 的客戶。
好了,基于公開信息,能分析為啥 OpenAI 要收購 Rockset 大概就是這些。