成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

不要輕易押寶“向量數(shù)據(jù)庫”

原創(chuàng) 精選
數(shù)據(jù)庫 其他數(shù)據(jù)庫
放眼如今的數(shù)據(jù)庫市場,堪稱百花齊放。有基于傳統(tǒng)路線的,以MySQL,Oracle為基礎的;有走新理論的,基于Aurora,Spanner等;有面向應用場景的,比如工業(yè)數(shù)據(jù)庫,時序數(shù)據(jù)庫,圖數(shù)據(jù)庫等。更有向量數(shù)據(jù)庫這種以黑馬之姿為繚亂的數(shù)據(jù)庫江湖增添異色的。

編譯丨千山

“為什么你不應該投資向量數(shù)據(jù)庫?”

前段時間,流數(shù)據(jù)庫公司 RisingWave創(chuàng)始人&CEO吳英駿公開發(fā)文,闡述了這一有違“時潮”的觀點。在文中,吳英駿表示,盡管他對向量數(shù)據(jù)庫的前景頗有信心,但目前并不鼓勵進入向量數(shù)據(jù)庫市場。

圖源:medium圖源:medium

今年以來,大模型熱居高不下。而在近幾個月的大模型相關發(fā)布會或研討會上,“向量數(shù)據(jù)庫(Vector Database)”一詞頻頻出現(xiàn),或多或少會成為話題點之一。

回溯一下,在今年3月的NVIDIA GTC Keynote 中, 英偉達CEO黃仁勛首次提及向量數(shù)據(jù)庫,并強調(diào)對于構建專有大型語言模型的組織而言,向量數(shù)據(jù)庫至關重要。此后,在平靜已久的數(shù)據(jù)庫行業(yè),向量數(shù)據(jù)庫就像是突入的石子,攪亂了一池春水。

僅4月,四家向量數(shù)據(jù)庫初創(chuàng)公司Chroma、Qdrant、Weaviate和Pinecone就斬獲了10多億融資,資本市場對這一賽道的看好可見一斑。

  • Chroma:4月6日宣布獲得1800萬美元(當前約合人民幣1.3億元)種子輪融資
  • Qdrant:4月19日宣布獲得 750 萬美元(當前約合人民幣5400萬元)種子輪融資
  • We­a­v­i­a­te:4月22日宣布獲得5000萬美元(當前約合人民幣3.6億元)B輪融資
  • Pi­n­e­c­o­ne:4月28日宣布獲得1億美元(當前約合人民幣7.2億元)B輪融資

那么吳英駿為何提出這一論點?向量數(shù)據(jù)庫的熱度能維持到幾時,此時押注后續(xù)又要擠出多少泡沫?我們不妨冷靜地觀望一下。

1、一夜之間,新范式誕生

數(shù)據(jù)庫發(fā)展已歷經(jīng)半個多世紀,經(jīng)歷了各種不同的階段,可謂發(fā)展迅猛。最古老的類型是SQL或關系型數(shù)據(jù)庫。Web 2.0公司不斷增長的需求引發(fā)了NoSQL革命,其中數(shù)據(jù)庫變得更加靈活,能夠更好地應對爆炸式增長的數(shù)據(jù)量。現(xiàn)在,隨著ChatGPT的出現(xiàn)以及AIGC狂潮的爆發(fā),向量數(shù)據(jù)庫的市場被點燃了。

與傳統(tǒng)數(shù)據(jù)庫不同,向量數(shù)據(jù)庫更擅長在非結構化數(shù)據(jù)中尋找意義。這些數(shù)據(jù)庫使用向量嵌入以數(shù)值表示數(shù)據(jù),并將它們排列在彼此相似的集群中。

傳統(tǒng)數(shù)據(jù)庫,常見的關系數(shù)據(jù)庫(如MySQL,PostgreSQL,Oracle)和NoSQL數(shù)據(jù)庫(如MongoDB,Cassandra),幾十年來一直是業(yè)務數(shù)據(jù)管理的支柱。它們以結構化格式(如表、文檔或鍵值對)存儲和組織數(shù)據(jù),從而更容易使用標準編程語言進行查詢和操作。

這些數(shù)據(jù)庫擅長處理具有固定模式的結構化數(shù)據(jù),但它們經(jīng)常在處理非結構化數(shù)據(jù)或高維數(shù)據(jù)(如圖像、音頻和文本)方面遇到困難。缺少標簽或未對齊的格式意味著非結構化條目可能會在搜索中丟失或錯誤地從過濾中排除。這給許多數(shù)據(jù)庫操作帶來了出錯的風險,必須通過手動構建數(shù)據(jù)來解決這個問題。因此通常需要我們手動審查非結構化條目。但人工審查必然又會耗費大量時間。

此外,隨著數(shù)據(jù)量和速度的增加,它們可能還會面臨性能瓶頸,從而引發(fā)響應時間變慢和可擴展性問題。

而向量數(shù)據(jù)庫不同,它不依賴于結構化格式,不是依靠不同的類別和列表來組織記錄,而是將數(shù)據(jù)作為數(shù)學向量存儲在高維空間中并對其進行索引。這種方法稱為“向量化”,可以更有效地搜索相似性并更好地處理復雜的數(shù)據(jù)類型(圖像、音視頻、自然語言)。某種程度上,向量數(shù)據(jù)庫代表了數(shù)據(jù)存儲和檢索的范式轉變。

2、成為大模型的“海馬體”

一方面,向量數(shù)據(jù)庫簡化了人工智能開發(fā)者對向量數(shù)據(jù)的管理。通過把來源權威可信的圖片、視頻和文本這樣的非結構化數(shù)據(jù)轉換成向量,并儲存到向量數(shù)據(jù)庫中,它就能幫助大模型具有“長期記憶”,進而減少大模型產(chǎn)生“幻覺”的可能性。

另一方面,向量數(shù)據(jù)庫能夠執(zhí)行近似最近鄰 (ANN) 搜索,快速識別大型數(shù)據(jù)集中的類似項目。其主要優(yōu)勢在于它們使用降維和索引算法等技術,向量數(shù)據(jù)庫可以大規(guī)模執(zhí)行這些搜索,提供閃電般的響應時間,這使其成為推薦系統(tǒng)、異常檢測和自然語言處理等應用的理想選擇。

打個比方,如果向量數(shù)據(jù)庫是一個巨大的倉庫,那么人工智能就是熟練的倉庫經(jīng)理。在這個倉庫中,每件物品(數(shù)據(jù))都存儲在一個盒子(向量)中,整齊地組織在多維空間的貨架上。倉庫經(jīng)理(AI)知道每個盒子的確切位置,可以根據(jù)物品的相似性快速檢索或比較物品。

倉庫的組織和優(yōu)化程度越高,倉庫經(jīng)理就能更快、更準確地找到各種任務所需的物品,例如提出建議、識別模式或檢測異常。正如管理良好的倉庫對于順利的業(yè)務運營至關重要一樣,向量數(shù)據(jù)庫在人工智能驅動的應用程序和解決方案的成功中起著至關重要的作用。

向量數(shù)據(jù)庫創(chuàng)業(yè)公司Qdrant的CEO兼聯(lián)合創(chuàng)始人Andre Zayarni曾提到,絕大多數(shù)人工智能研發(fā)項目從未投入生產(chǎn)的關鍵因素是缺乏正確的工具。(如果能)將大模型連接到實時的非結構化數(shù)據(jù)可以為任何希望構建更有用AI應用的人打開大量機會。顯然,向量數(shù)據(jù)庫在這里充當了這樣的橋梁作用。

3、熱錢涌入,挑戰(zhàn)依舊

值得一提的是,向量技術并不新鮮,但在ChatGPT橫空出世之前,向量數(shù)據(jù)庫非常小眾。前文提到的兩家初創(chuàng)公司Pinecone和Weaviate都成立于2019年,但此前無論是融資還是營收都是乏善可陳的狀態(tài)。

Pinecone聯(lián)合創(chuàng)始人兼首席執(zhí)行官Edo Liberty曾坦率地提到,如果沒有ChatGPT的出現(xiàn),我們根本不可能獲得巨額融資。

如今大量開發(fā)者涌入AIGC開發(fā)領域,這些向量數(shù)據(jù)庫廠商也等到了黎明。風口常有,而時代不常有。軟件服務初創(chuàng)公司Heltar的創(chuàng)始人Avyukt Aggarwal也談到,AIGC的爆火成就了向量數(shù)據(jù)庫。“每次淘金熱都會有人賣鏟子。對于生成式AI,鏟子是什么?向量數(shù)據(jù)庫。幾乎每一個LLM支持的應用程序都在使用它們或即將使用它們。”

隨著部署到企業(yè)生產(chǎn)中的AI應用程序與日俱增,對向量數(shù)據(jù)庫的需求必定會直線上升。所以稱向量數(shù)據(jù)庫為鏟子或許也并不算太過夸張。

但是在這蒸蒸日上的發(fā)展態(tài)勢下,向量數(shù)據(jù)庫依然面臨著不可忽視的幾項挑戰(zhàn)。騰訊云數(shù)據(jù)庫副總經(jīng)理羅云在接受媒體采訪時表示,其一,成本。向量化數(shù)據(jù)有著高昂的計算成本,尋求存儲成本替代是必要的。另外,在檢索層面成本也非常高昂。據(jù)他判斷,短期內(nèi)在成本方面不會發(fā)生數(shù)量級差異。其二,平臺產(chǎn)品與開源社區(qū)之間的關系。向量化技術目前已十分成熟,并存在大量開源解決方案,在不同的領域也存在不同的向量化方案,先發(fā)者與后來者,老牌廠商與新生力量之間的競爭正在持續(xù)升溫。

4、現(xiàn)在押注,為時尚早

與任何有效的新技術一樣,熱度的攀升到底是基于炒作還是潛力,旁觀者其實很難辨別。向量數(shù)據(jù)庫到底是大模型時代的天選之子,還是正在經(jīng)歷曇花一現(xiàn)式的虛假繁榮,很多投資者也極難判斷。

但有一點可以明確的是,向量數(shù)據(jù)庫的出現(xiàn)并不代表大模型時代已經(jīng)將像Postgres或NoSQL這樣的傳統(tǒng)數(shù)據(jù)庫拒之門外了。事實上,Postgres本身就有一個內(nèi)置的Pgvector功能可以進行向量或相似性搜索。

除了PostgreSQL之外,包括OpenSearch,ClickHouse和Cassandra在內(nèi)的幾個開源數(shù)據(jù)庫已經(jīng)實現(xiàn)了自己的向量搜索功能。如果你已經(jīng)使用這些系統(tǒng),則無需采用新的向量數(shù)據(jù)庫。

此外,還有老牌數(shù)據(jù)庫公司為了不落伍,正在通過與人工智能相關的服務來鞏固自己。甲骨文提供了一系列人工智能算法,同時也以“數(shù)據(jù)庫內(nèi)學習的速度”提供它們。IBM的老式Db2也已更名為“AI數(shù)據(jù)庫”,現(xiàn)在有ML來提高查詢性能和“基于信心的查詢”。

在《為什么你不應該投資向量數(shù)據(jù)庫?》一文中,吳英駿表示,現(xiàn)在入局向量數(shù)據(jù)庫可能并非合適的時機。其理由主要集中于以下幾點:

其一,先發(fā)優(yōu)勢明顯。市場上已經(jīng)充斥著大量的向量數(shù)據(jù)庫產(chǎn)品,潛在用戶可以很容易地在現(xiàn)有市場中找到合適的選擇。

其二,需求層次不同。如果一家公司已經(jīng)采用了Elastic,Redis,SingleStore或Rockset等商業(yè)數(shù)據(jù)庫,并且不需要高度先進的向量搜索功能,則可以充分利用這些數(shù)據(jù)庫的現(xiàn)有功能。盡管在向量數(shù)據(jù)處理方面的表現(xiàn)不如專業(yè)的向量數(shù)據(jù)庫,但依然可以滿足多數(shù)用戶的一般要求。

其三,技術在不斷前進。隨著數(shù)據(jù)庫領域技術的進步,越來越多的數(shù)據(jù)庫會考慮納入向量搜索功能,以滿足當前用戶群的需求。對于目前缺乏向量搜索功能的數(shù)據(jù)庫,實現(xiàn)這些功能或許只是時間問題。

簡言之,“與其投資新的向量數(shù)據(jù)庫項目,不如集中精力于現(xiàn)有數(shù)據(jù)庫,并探索利用向量引擎增強這些數(shù)據(jù)庫的機會,使其更加健壯和強大”。

5、寫在最后

放眼如今的數(shù)據(jù)庫市場,堪稱百花齊放。有基于傳統(tǒng)路線的,以MySQL,Oracle為基礎的;有走新理論的,基于Aurora,Spanner等;有面向應用場景的,比如工業(yè)數(shù)據(jù)庫,時序數(shù)據(jù)庫,圖數(shù)據(jù)庫等。更有向量數(shù)據(jù)庫這種以黑馬之姿為繚亂的數(shù)據(jù)庫江湖增添異色的。

“于無聲處聽驚雷”。每一次表層應用需求的轉變,都會推動底層基礎設施技術的更新。數(shù)據(jù)庫同樣如是。大模型時代的到來,生成式AI的日新月異,牽引著數(shù)據(jù)量和數(shù)據(jù)類型發(fā)生質的變化。這催生了對于向量數(shù)據(jù)庫的需求。向量數(shù)據(jù)庫十分契合AI大模型非結構化場景,仿佛天選,但長遠來看,其市場需求尚處于初期,中遠期規(guī)模還不到夸張之時。在若干輪優(yōu)勝劣汰之后,我們或許才能看清誰是真正的執(zhí)棋者。

參考鏈接:

https://thenewstack.io/vector-databases-long-term-memory-for-artificial-intelligence/

https://www.yicai.com/news/101799505.html

https://analyticsindiamag.com/why-are-investors-flocking-to-vector-databases/

https://venturebeat.com/ai/how-vector-databases-can-revolutionize-our-relationship-with-generative-ai/

https://medium.com/data-engineer-things/why-you-shouldnt-invest-in-vector-databases-c0cd3f59d23c

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2023-11-27 00:58:00

數(shù)據(jù)庫AI

2024-05-22 12:07:12

向量數(shù)據(jù)庫AI

2025-05-26 02:44:00

向量數(shù)據(jù)庫傳統(tǒng)數(shù)據(jù)庫向量化

2023-07-28 08:00:00

人工智能向量數(shù)據(jù)庫

2023-01-05 08:00:00

2023-10-09 14:51:53

向量數(shù)據(jù)庫

2022-12-05 08:00:00

數(shù)據(jù)庫向量化數(shù)據(jù)庫性能

2025-04-03 16:02:14

2023-11-17 07:30:30

線段pgvector實踐

2019-06-11 15:05:51

數(shù)據(jù)庫數(shù)據(jù)庫技巧SQL調(diào)優(yōu)

2023-08-30 09:00:00

向量數(shù)據(jù)庫大語言模型

2025-04-02 00:00:00

2025-04-03 11:04:40

2011-05-10 10:07:53

Windows

2019-03-25 14:53:35

人工智能AI開發(fā)者

2021-03-03 20:43:17

ChromeXPathHTML

2020-04-02 11:06:47

數(shù)據(jù)庫Docker容器

2023-12-10 20:37:48

Kafka數(shù)據(jù)庫工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区视频在线观看 | 久草视频网站 | 国产视频久久久 | 五月激情久久 | 国产精品久久久久久久久久久久久 | 国产激情片在线观看 | 狠狠干狠狠插 | 成人不卡 | 免费网站国产 | 久久久久一区 | 国产精彩视频 | av喷水| 日韩免费| 成人在线亚洲 | 国内精品在线视频 | 国产精品一区二区三区在线播放 | 欧美精品一区二区三区在线四季 | 久久精品毛片 | 密室大逃脱第六季大神版在线观看 | 夜夜爽99久久国产综合精品女不卡 | 亚洲国产一区在线 | 国产精品久久久久久久久免费软件 | 视频一区在线观看 | 91色网站| 亚洲欧美在线一区 | 日韩视频一区二区在线 | 97超级碰碰 | av在线成人| 中文字幕亚洲区一区二 | 日韩精品免费在线观看 | av特级毛片 | 色综合久久88色综合天天 | 日韩欧美视频 | 国外成人在线视频 | 久久亚洲国产 | 久久日韩精品 | 成人精品视频在线观看 | 一区精品在线观看 | 成年人在线观看 | 亚洲精品国产电影 | 国产农村一级国产农村 |