成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RAG與本地知識庫,向量數據庫,以及知識圖譜的聯系與區別 原創

發布于 2024-11-29 20:54
瀏覽
0收藏

?“ RAG的本質是高效檢索,而知識庫,向量數據庫和知識圖譜只是組織數據的一種形式”

這兩天在之前的一篇關于RAG檢索增強的文章中有一個評論,問RAG和知識圖譜的區別;這時才發現,原來很多人對RAG技術還沒有一個本質的認識,以及與其相關的本地知識庫,向量數據庫等。

所以,今天就來介紹一下上面的這些概念,以及其聯系與區別。

RAG——檢索增強生成

前面寫過好幾篇關于RAG的文章,但可能到現在很多人還不明白什么是RAG——檢索增強生成。

先說RAG技術產生的背景,RAG技術是基于大模型文本生成而產生的一種技術;目的是解決大模型的缺陷問題,因此就有了RAG技術來幫助大模型,簡單來說RAG就相當于給大模型配備了一個資料庫,遇到不懂的問題不要胡扯,先去查查資料。

大模型主要缺陷:

知識更新不及時:大模型的知識僅限于訓練數據的截止時間,無法獲取之后的知識

大模型幻覺問題:大模型一本正經的胡說八道,

大模型知識不足:大模型的知識有限,很多垂直領域的知識它都不知道

RAG技術的運作流程是什么樣的呢?

RAG與本地知識庫,向量數據庫,以及知識圖譜的聯系與區別-AI.x社區

如上圖所示,完整呈現了RAG的運作流程;RAG技術主要分為三個部分:

1. 創建資料庫

2. 查資料

3. 帶著資料問問題

舉個生活中的例子,你是一個學生,有一天遇到一個你不懂的問題;然后,你爸媽就讓你去問鄰居家上大學的哥哥姐姐;如果是一些常識性的問題,那么他們可以直接告訴你結果。

但你這個問題比較特殊,涉及到具體的專業知識,比如說化學,物理等;這時上大學的哥哥姐姐可能也不知道該怎么回答你的問題,但以他多年的學習經驗,他覺得這個問題他可以解決,但需要先看一下你的課本或資料。

這個步驟就是RAG中的第三步,你就是用戶,大模型就是鄰家的哥哥姐姐;而你比較聰明,在來的時候就怕哥哥姐姐需要看你的課本,你隨身就把課本和資料給帶著了;這個就是第二步。

然后,鄰家的哥哥姐姐看了一會你的課本,然后告訴你這個問題應該怎么巴拉巴拉的給你講,然后你的問題就解決了。

現在回到RAG的問題,為什么需要這三步?

因為大模型上面的缺陷,所以導致大模型能力并不是很強,因此有些東西需要查資料才能知道;但怎么才給大模型建一個資料庫呢?

這就是第一步,比如需要從不同的文檔加載數據,如word,pdf,txt,音頻,視頻等;然后需要把這些文檔中有關聯的數據放到一塊,這個就叫做嵌入(embedding),最后把這些數據存儲到一個地方,比如向量數據庫。

第二步就是檢索,有了這些資料之后,怎么才能根據不同的問題,從中找到相關聯的資料;比如,你不可能因為一個歷史問題就去翻閱整個永樂大典;所以這就需要一種檢索技術,比如目錄/索引。

接著是第三步,你帶著第二步檢索到的數據給到大模型,然后大模型就可以根據這些數據來回答你的問題;這時你可能會說,既然有了這些資料我自己看不就行了,還要大模型干什么;那如果你是公司客服,你會為每個用戶都重新介紹一下你們公司的產品和企業文化嗎? 

RAG與本地知識庫,向量數據庫,以及知識圖譜的聯系與區別-AI.x社區

而這就是整個RAG技術的實現流程,每個環節又涉及到不同的技術;比如第一步創建資料庫,需要文檔加載技術,分詞技術,嵌入技術等;第二步需要向量化技術,準確高效的檢索技術等;第三步需要提示詞技術,大模型調用技術等,因為第二步查到的資料需要放到提示詞中讓大模型自己去“看”。

所以,從這里也可以看出,嚴格來說RAG技術和大模型沒太大直接關系(這里的沒關系是指進行業務處理的大模型,而文檔嵌入本質上使用的也是嵌入大模型);大模型不管你使用的是什么資料庫,也不關心你查到了哪些資料,大模型關心的只是你最后在提示詞中攜帶的資料。

大模型與本地知識,向量數據和知識圖譜

那么,RAG和本地知識庫,向量數據庫,還有知識圖譜有什么關系呢?

什么是本地知識庫?

本地知識庫說白了就是資料庫的一種,比如說你們公司的技術檔案,銷售記錄,公司的規章制度等都屬于本地知識庫的范圍;本地知識庫的作用是把一個組織內部的資料梳理出來方便大家使用。

所以,本地知識庫的本質是資料庫;而這個資料庫可以有多種不同的組織形式,比如以文檔,書籍,或者網頁,視頻,甚至是會議記錄等形式存在,也可能是多種形式的混合。

而向量數據庫是一種存儲數據的方式,只不過由于大模型的出現,導致基于以前的字符存儲變成了基于語義的向量存儲;向量數據庫從功能上來說和傳統的數據庫沒有本質區別,不論是mysql,還是redis;只不過傳統的數據庫是基于字符匹配,而向量數據庫基于語義匹配(本質上一種數學模型,如歐式距離和余弦函數)。

向量數據庫既然是數據庫,那么它就具備數據庫的特性,存儲數據和查詢數據;它是數據存儲的載體,就類似于工作中的文件夾。

而知識圖譜又是什么? 

所謂的知識圖譜是由谷歌推出的一種搜索引擎技術,面對互聯網中日益增長的數據,怎么表示這些數據,以及這些數據之間的關系成為了一個難題;因此,谷歌就推出了知識圖譜技術,用這個方式去記錄這些數據以及其關聯關系。說白了知識圖譜就是一種組織數據的方式,比如我們日常工作和生活中,會按照日期,地點,任務名稱等來存放不同的文件,資料。


RAG與本地知識庫,向量數據庫,以及知識圖譜的聯系與區別-AI.x社區

所以,本地知識庫,向量數據庫,還有知識圖譜有什么關系?

本地知識庫即可以使用簡單的日期,部門,工作任務來組織資料,也可以使用知識圖譜這種更加專業的方式來搭建本地知識庫;而搭建的本地知識庫存儲在什么地方?

即可以存儲在傳統的關系性數據庫中,也可以存儲在文本文件中,當然也可以存儲在向量數據庫中。

這就是其三者之間的關系。

那么它們和RAG又有什么關系?

前面說了,RAG是為了解決大模型本身存在的幾個缺陷;大模型需要的是你在提示詞中拼接的最終資料,而不會關心你這個資料從哪里來。而RAG就是從外部檢索資料然后拼接到大模型提示詞中的一種方法論。

RAG最終的目的就是準確,高效的檢索到相關的資料;而不管是去知識圖譜中檢索,還是去本地知識庫中檢索,還是去向量數據庫中檢索,亦或者是從傳統的關系型數據庫中檢索,或者直接去網絡上搜索。

比如說,你想讓大模型告訴你怎么做西紅柿炒蛋,你需要的是使用RAG技術檢索到做番茄炒蛋的內容,而不是告訴大模型哪里大米產量高,哪里發生了自然災害,原子彈怎么造。

而至于你這個資料是從哪家餐廳的菜譜中找到的,還是從網絡上搜索到的,或者還是路邊聽說的都可以。

問題,傳統數據庫可以用來做RAG嗎?

答案是可以,比如說價格表這種精確的不需要語義檢索的數據;使用傳統數據庫效果會更好。一般企業場景中是把語義檢索和字符匹配同時使用,需要語義理解的就使用語義檢索庫,比如向量數據庫;精確的數據就放到傳統數據庫中。

總結

RAG是一種從外部檢索數據的方式;本地知識庫相當于一個資料庫;而知識圖譜是組織數據的一種更加科學的方式;向量數據庫是用來存儲向量化數據的一個載體。

所以,本地知識庫,向量數據庫和知識圖譜和RAG沒什么直接關系,如果說有關系就是它們三者可以作為RAG技術的一種具體實現;但RAG也可以使用其它的實現方式。

RAG,本地知識庫,向量數據庫,知識圖譜是四個完全獨立的技術,它們之間沒有任何直接關系,但又可以互相合作以達到某種效果。

?

本文轉載自公眾號AI探索時代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/07N-0FXwFFxoZI-WbJHs8g??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日韩视频一区二区 | 人人做人人澡人人爽欧美 | 免费看av大片 | 成人视屏在线观看 | 亚洲免费在线 | 盗摄精品av一区二区三区 | 亚洲美女天堂网 | 日本a∨精品中文字幕在线 亚洲91视频 | 国产亚洲网站 | 亚洲欧美日韩精品久久亚洲区 | 亚洲一区二区三区在线视频 | 久久国内精品 | 日韩在线观看一区 | 亚洲高清av | 成人在线观看免费视频 | 国产一区二区在线视频 | 欧美色综合一区二区三区 | 中国一级大毛片 | 欧美激情视频一区二区三区免费 | 国产精品久久久 | 91精品国产综合久久婷婷香蕉 | 久久久久久久久久久久久久久久久久久久 | 综合久久综合久久 | 久久成人av电影 | 一区二区日韩 | 1204国产成人精品视频 | 台湾佬成人网 | 在线婷婷 | 天天干天天操天天看 | 在线日韩中文字幕 | 一级毛片视频在线 | 亚洲欧美v | 北条麻妃99精品青青久久 | 久久区二区 | 91欧美 | 国产一区二区电影 | 久久久69| 精品成人69xx.xyz | 欧美激情久久久 | 在线观看国产视频 | 午夜视频在线免费观看 |