爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關(guān)系原創(chuàng)

AI探索時代

發(fā)布于 2024-7-2 11:52

瀏覽

0收藏

“ 本地知識庫就相當于大模型的外部資料庫。”

很多人應(yīng)該都聽過本地知識庫項目，它是當今人工智能領(lǐng)域爆火的項目之一，那么到底什么是本地知識庫？它和大模型有什么關(guān)系？怎么構(gòu)建本地知識庫？

01、為什么需要本地知識庫？

其實本地知識庫和大模型本身沒有什么直接關(guān)系，可以說它們是兩個完全獨立的技術(shù)。

但因為大模型的幻覺問題和大模型的數(shù)據(jù)更新遲緩，因此才把知識庫技術(shù)與大模型技術(shù)相結(jié)合，產(chǎn)生了大模型知識庫技術(shù)。

什么是知識庫？

知識庫簡單來說就是資料庫，比如國家圖書館收錄了我國幾千年來的歷史書籍和資料；每家企業(yè)都會有一些內(nèi)部數(shù)據(jù)；各個領(lǐng)域都有自己領(lǐng)域內(nèi)的數(shù)據(jù)和資料。

而怎么管理這些資料和數(shù)據(jù)，就是知識庫技術(shù)，知識庫的核心有兩點，一是數(shù)據(jù)的存儲，二是數(shù)據(jù)的檢索。

在互聯(lián)網(wǎng)技術(shù)出現(xiàn)之前，知識庫都是以檔案室或資料室的形式存在；而計算機技術(shù)出現(xiàn)之后，特別是大數(shù)據(jù)技術(shù)出現(xiàn)之后，知識庫就可以從線下走到了線上。

而大數(shù)據(jù)技術(shù)也為處理大量復(fù)雜數(shù)據(jù)提供了可能。

大模型技術(shù)是當前人工智能領(lǐng)域爆火的技術(shù)之一，但它有一個致命的缺陷就是，它的訓(xùn)練數(shù)據(jù)是有時間限制的，比如chatGPT的數(shù)據(jù)還是兩年前的，它對近兩年的情況就什么都不知道了。

解決這個問題其實有多種方式，比如用最新的數(shù)據(jù)對大模型進行重新訓(xùn)練，或者使用微調(diào)技術(shù)比如lora，用最新的數(shù)據(jù)進行微調(diào)。

但這兩種方式一來成本太高，二來門檻太高，對很多小公司是不可接受的。其次就是，哪怕重新訓(xùn)練出來的大模型，在一些垂直領(lǐng)域的問題上經(jīng)常會出現(xiàn)“幻覺”問題。

爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關(guān)系-AI.x社區(qū)

所以，大模型知識庫技術(shù)就出現(xiàn)了，大模型就類似于一個大學(xué)生；它有足夠的基礎(chǔ)知識，然后在一些沒有接觸過的領(lǐng)域或者不懂的問題，就去圖書館查資料。

更形象的表達應(yīng)該是類似于學(xué)生期末考試之前，會發(fā)考前資料，然后告訴你考試內(nèi)容在資料里。

這樣既解決了大模型的時間限制問題，也解決了成本和門檻問題，也大大減少了幻覺的產(chǎn)生。

02、怎么實現(xiàn)大模型知識庫？

實現(xiàn)大模型知識庫理論上很簡單，就是在問大模型的時候，帶上“資料”，大模型根據(jù)資料內(nèi)容進行回答。

但這里需要解決幾個問題：

第一，資料的加載問題，隨著技術(shù)的發(fā)展資料的類型也是多種多樣，比如有文本文檔，圖片，視頻，聲音等等；文本文檔還有txt，word，excel等多種格式，還有很多格式化及非格式化數(shù)據(jù)，因此文檔的加載是一個非常麻煩的事情。

爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關(guān)系-AI.x社區(qū)

第二，資料的存儲問題，有了資料之后，需要把資料進行加載然后統(tǒng)一處理，而如果這些資料是給人看，那么只需要把文檔按照原本的格式保存即可。但因為大模型只認識向量格式的數(shù)據(jù)，因此需要把文檔轉(zhuǎn)化為向量格式存儲，而這就是向量數(shù)據(jù)庫。

第三，數(shù)據(jù)的檢索問題，數(shù)據(jù)加載到向量數(shù)據(jù)庫之后，應(yīng)該怎么檢索就是一個問題。因為如果資料庫比較小問題還不大，如果資料庫很龐大，怎么快速的檢索，也是一個值得思考的問題。

爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關(guān)系-AI.x社區(qū)

大模型知識庫的使用流程

大模型知識庫加載流程如下：

文檔加載，通過加載工具把各種格式的文檔加載到向量數(shù)據(jù)庫中；其次，需要對文檔進行轉(zhuǎn)換拆分，比如按照固定長度進行拆分；然后，通過embedding大模型，把拆分后的文檔根據(jù)語義轉(zhuǎn)換為向量格式；最后存儲到向量數(shù)據(jù)中。

然后使用的時候，從向量數(shù)據(jù)庫中檢索數(shù)據(jù)。

embedding模型的作用是為了把文檔進行有意義的語義轉(zhuǎn)換，否則文檔數(shù)據(jù)直接存儲到數(shù)據(jù)庫中就會出現(xiàn)資料錯誤的問題。

流程如下圖所示：

爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關(guān)系-AI.x社區(qū)

上一步加載完文檔之后，就可以進行使用了。

使用的步驟是，用戶對大模型進行提問，然后通過embedding把用戶提問轉(zhuǎn)化為向量格式，然后根據(jù)提問從向量數(shù)據(jù)庫中檢索和提問內(nèi)容有關(guān)的資料。如下圖8-11步所示。

檢索到資料之后，根據(jù)用戶提問和檢索資料，構(gòu)建prompt template(提示詞模板)，最后輸入到大模型中，獲得結(jié)果。

整個知識庫的流程如下圖所示：

爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關(guān)系-AI.x社區(qū)

本文轉(zhuǎn)載自公眾號AI探索時代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/Dd-vshBMUNDAoE7IFdWCtg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標簽

RAG

大模型

已于2024-7-3 05:53:26修改

贊

回復(fù)

舉報

回復(fù)

相關(guān)推薦

怎么看大模型、RAG、Agent、知識庫、向量數(shù)據(jù)庫、知識圖譜、AGI的區(qū)別和聯(lián)系？

玄姐聊AGI ? 6054瀏覽 ? 0回復(fù)
一文搞懂大模型、RAG、函數(shù)調(diào)用、Agent、知識庫、向量數(shù)據(jù)庫、知識圖譜、AGI的區(qū)別和聯(lián)系！！

玄姐聊AGI ? 1.4w瀏覽 ? 0回復(fù)
企業(yè)級智能知識庫搜索問答技術(shù)與應(yīng)用

51CTO技術(shù)棧 ? 2595瀏覽 ? 0回復(fù)
一文搞懂大模型、RAG、函數(shù)調(diào)用、Agent、知識庫、向量數(shù)據(jù)庫、知識圖譜、AGI的區(qū)別和聯(lián)系！！

玄姐聊AGI ? 3863瀏覽 ? 0回復(fù)
搭建大模型知識庫流程，以及基于Langchain實現(xiàn)大模型知識庫案例

AI探索時代 ? 3838瀏覽 ? 0回復(fù)
爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關(guān)系

AI探索時代 ? 3381瀏覽 ? 0回復(fù)
大模型檢索增強(RAG)技術(shù)之——GraphRAG，知識庫產(chǎn)品必不可少的技術(shù)

AI探索時代 ? 2986瀏覽 ? 0回復(fù)
【AI開源項目】FastGPT - 快速部署FastGPT以及使用知識庫的兩種方式！

唐克 ? 9194瀏覽 ? 0回復(fù)
RAG與本地知識庫，向量數(shù)據(jù)庫，以及知識圖譜的聯(lián)系與區(qū)別

AI探索時代 ? 5777瀏覽 ? 0回復(fù)
本地知識庫優(yōu)化，讓 AI 回答更精準

wsp_ping ? 3985瀏覽 ? 0回復(fù)
怎么解決大模型知識庫的檢索問題，RAG檢索增強之ReRank(重新排序)

AI探索時代 ? 3705瀏覽 ? 0回復(fù)
大模型時代的知識工程：企業(yè)級智能知識庫構(gòu)建與增強指南

九歌AI大模型 ? 3047瀏覽 ? 0回復(fù)
【人工智能】AI如何精準匹配RAG知識庫？揭秘混合檢索的奧秘！

唐克 ? 2023瀏覽 ? 0回復(fù)
RAGFlow 入門指南：解鎖你的智能知識庫引擎

云原生AI百寶箱 ? 5285瀏覽 ? 0回復(fù)
MCP 實踐：基于 MCP 架構(gòu)實現(xiàn)知識庫系統(tǒng)

玄姐聊AGI ? 2549瀏覽 ? 0回復(fù)
一文剖析大模型、RAG、Agent、MCP、Function Calling、知識庫、向量數(shù)據(jù)庫、知識圖譜、AGI 的區(qū)別和聯(lián)系

玄姐聊AGI ? 1556瀏覽 ? 0回復(fù)
告別傳統(tǒng) RAG，私有知識庫 + DeepSeek，打造本地版 Deep Research

玄姐聊AGI ? 1453瀏覽 ? 0回復(fù)
圖像也能通過 RAG 加入知識庫啦！

機器學(xué)習(xí)與數(shù)學(xué) ? 973瀏覽 ? 0回復(fù)
Dify 知識庫外接 RAGFlow 喂飯教程！附避坑指南

AI博物院 ? 1449瀏覽 ? 0回復(fù)

AI探索時代

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學(xué)堂

爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關(guān)系原創(chuàng)

01、為什么需要本地知識庫？

什么是知識庫？

02、怎么實現(xiàn)大模型知識庫？

大模型知識庫的使用流程

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學(xué)堂

爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關(guān)系 原創(chuàng)

01、為什么需要本地知識庫？

什么是知識庫？

02、怎么實現(xiàn)大模型知識庫？

大模型知識庫的使用流程

目錄

爆火的本地知識庫項目是什么？什么是RAG？本地知識庫與大模型的關(guān)系原創(chuàng)