成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

為何向量數(shù)據(jù)庫對LLM很重要?

譯文
數(shù)據(jù)庫 其他數(shù)據(jù)庫 人工智能
大語言模型(LLM)目前在人工智能界唱主角。有必要了解為何向量數(shù)據(jù)庫對LLM很重要。

譯者 | 布加迪

審校 | 重樓

瀏覽TwitterLinkedIn或新聞上的時間軸時,可能會看到一些關于聊天機器人、LLMGPT的內(nèi)容。因為每周都有新的LLM發(fā)很多人都在談論LLM

我們目前置身于一場人工智能革命,許多新應用都依賴于向量嵌入。不妨讓我們更多地了解向量數(shù)據(jù)庫以及為什么它們對LLM很重要。

向量數(shù)據(jù)庫的定義

不妨先定義向量嵌入(Vector Embedding)。向量嵌入是一種數(shù)據(jù)表示,它攜帶語義信息,幫助人工智能系統(tǒng)更好地理解數(shù)據(jù),并能夠保持長期記憶。對于任何想學的新東西,最重要的部分是理解并記住主題。

嵌入是由人工智能模型生成的,比如大量特征的LLM,這使得它們的表示難以管理。嵌入表示數(shù)據(jù)的不同維度,以幫助AI模型理解不同的關系、模式和隱藏結構。

使用基于標量的傳統(tǒng)數(shù)據(jù)庫的向量嵌入是一個挑戰(zhàn),因為它無法處理或跟上數(shù)據(jù)的規(guī)模和復雜性。鑒于向量嵌入具有種種復雜性,不難想象它需要專門的數(shù)據(jù)庫。這時候向量數(shù)據(jù)庫就有了用武之地

向量數(shù)據(jù)庫為向量嵌入的獨特結構提供了經(jīng)過優(yōu)化的存儲和查詢功能。它們提供簡單的搜索、高性能、可擴展性和數(shù)據(jù)檢索,這一切都是通過比較值和查找彼此之間的相似性來實現(xiàn)的。

是不是聽起來很棒有一種方法可以處理向量嵌入的復雜結構。不過向量數(shù)據(jù)庫很難實現(xiàn)。

就在不久前,向量數(shù)據(jù)庫只被那些不僅有能力開發(fā)而且有能力管理的科技巨頭使用。向量數(shù)據(jù)庫成本高昂,因此確保它們經(jīng)過正確校準對于提供高性能非常重要。

向量數(shù)據(jù)庫是如何工作的

現(xiàn)在我們對向量嵌入向量數(shù)據(jù)庫有了一定的了解,不妨看看它是如何工作的。

不妨從一個處理ChatGPT等LLM的簡單示例開始。該模型有大量的數(shù)據(jù)和大量的內(nèi)容,它們?yōu)槲覀兲峁┝?/span>ChatGPT應用程序。

不妨看看這些步驟。

1. 作為用戶,您將往該應用程序輸入查詢。

2. 然后您的查詢插入到嵌入模型中,該模型基于我們想要索引的內(nèi)容創(chuàng)建向量嵌入。

3. 然后向量嵌入移動到向量數(shù)據(jù)庫中

4. 向量數(shù)據(jù)庫生成輸出,并將其作為查詢結果發(fā)給用戶。

當用戶繼續(xù)進行查詢時,它將通過相同的嵌入模型來創(chuàng)建嵌入,以查詢該數(shù)據(jù)庫中類似的向量嵌入。向量嵌入之間的相似性基于創(chuàng)建嵌入的原始內(nèi)容。

想知道更多關于在向量數(shù)據(jù)庫中的工作原理嗎?不妨了解更多。

傳統(tǒng)數(shù)據(jù)庫以行和列的形式存儲字符串數(shù)字等內(nèi)容。從傳統(tǒng)數(shù)據(jù)庫查詢時,我們查詢的是與查詢匹配的行。然而,向量數(shù)據(jù)庫處理的是向量而不是字符串等內(nèi)容向量數(shù)據(jù)庫還運用相似度度量指標該指標用于幫助找到與查詢最相似的向量。

向量數(shù)據(jù)庫由不同的算法組成,這些算法都有助于進行近似最近鄰(ANN搜索。這是通過散列、基于圖的搜索或量化來完成的,它們被組裝管道中,以檢索所查詢向量的鄰居。

結果取決于它與查詢的接近程度,因此考慮的主要因素是準確性和速度。如果查詢輸出慢,結果就比較準確。

向量數(shù)據(jù)庫查詢要經(jīng)歷三個主要階段

1. 索引

如上例所述,一旦向量嵌入進入到向量數(shù)據(jù),它就會使用各種算法將向量嵌入映射到數(shù)據(jù)結構,以便更快地進行搜索。

2. 查詢

一旦完成了搜索,向量數(shù)據(jù)庫將查詢的向量與索引的向量進行比較,并運用相似性度量指標來查找最鄰。

3. 后處理

根據(jù)您使用的向量數(shù)據(jù)庫,向量數(shù)據(jù)庫將對最后的最近鄰進行后處理,以生成查詢的最終輸出另外還可能重新排列最近鄰,將來引用

結語

隨著人工智能的不斷發(fā)展和新系統(tǒng)的每周發(fā)布,向量數(shù)據(jù)庫的發(fā)展起到了重要作用。向量數(shù)據(jù)庫使公司能夠更有效地與精確的相似度搜索進行交互,為用戶提供更好更快的輸出。

所以下次ChatGPTGoogle Bard中輸入查詢時,想想它為的查詢輸出結果所經(jīng)歷的過程。

原文標題:What are Vector Databases and Why Are They Important for LLMs?,作者:Nisha Arya


責任編輯:華軒 來源: 51CTO
相關推薦

2016-11-16 13:51:46

數(shù)據(jù)庫NoSQL大數(shù)據(jù)

2023-02-15 08:00:00

2020-09-08 12:48:19

數(shù)據(jù)分析圖表互聯(lián)網(wǎng)

2013-11-13 10:24:53

Xbox微軟

2019-10-08 15:54:42

SQL數(shù)據(jù)庫技術

2023-05-04 17:24:37

數(shù)據(jù)安全數(shù)據(jù)庫

2022-05-16 14:33:52

區(qū)塊鏈數(shù)據(jù)共享安全

2015-10-19 17:57:33

容器OpenStack微服務

2012-11-21 16:15:00

數(shù)據(jù)中心總體擁有成本選址

2011-06-22 16:58:10

數(shù)據(jù)庫命名

2023-11-27 00:58:00

數(shù)據(jù)庫AI

2023-09-18 16:46:07

2022-11-06 17:48:39

Linux系統(tǒng)命令

2016-10-19 14:15:45

2022-01-06 22:05:35

Linux物聯(lián)網(wǎng)容器

2022-03-12 10:00:49

零信任數(shù)據(jù)安全

2018-11-28 09:00:00

人工智能AI敵對式AI

2021-01-28 23:35:37

Python開發(fā)數(shù)據(jù)

2017-11-20 08:13:26

大數(shù)據(jù)大數(shù)據(jù)技術數(shù)據(jù)
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品国产99国产精品亚洲 | 久久成人免费视频 | 午夜网址 | 午夜国产羞羞视频免费网站 | 午夜欧美 | 天天干.com | 国产日韩欧美 | 国产一区二区三区四区 | 孕妇一级毛片 | 中文字幕一区在线 | 99免费视频 | 视频一区 国产精品 | 精品一区二区三区中文字幕 | www日韩欧美 | 欧美高清成人 | 国产欧美在线观看 | 免费视频一区二区三区在线观看 | 国产精品一区二区三区久久 | 午夜免费福利影院 | 日韩毛片在线免费观看 | 欧美一区二区三区在线播放 | 亚洲九色 | 91豆花视频 | 亚洲精品一区二区三区蜜桃久 | 中文字幕亚洲区 | 成人精品一区二区三区中文字幕 | 99久久精品国产毛片 | www.jizzjizz| 国产精品自产拍在线观看蜜 | 日本中文字幕日韩精品免费 | 亚洲欧洲成人av每日更新 | 久久久久久综合 | 成在线人视频免费视频 | www亚洲免费国内精品 | 久久出精品 | 91精品国产91久久久久久吃药 | 青青草原综合久久大伊人精品 | 欧美 日韩精品 | 一区中文字幕 | 国产夜恋视频在线观看 | 久久精品小视频 |