成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一文讓你搞懂什么是 RAG

人工智能
當(dāng)用戶提出一個(gè)問題或給出一段提示時(shí),RAG 系統(tǒng)首先會(huì)從外部的知識(shí)庫中檢索相關(guān)信息。這個(gè)知識(shí)庫可以包含各種數(shù)據(jù),例如公司的內(nèi)部文檔、產(chǎn)品手冊、最新的新聞文章、數(shù)據(jù)庫記錄等等。

雞哥是一個(gè)優(yōu)秀且苦逼的程序員,每天都被領(lǐng)導(dǎo)無情地摧殘著,就在他感覺身體即將被掏空時(shí),領(lǐng)導(dǎo)又讓他充當(dāng)交際花,利用美色從某個(gè)女老板手里拿到投資。正所謂工欲善其事,必先利其器,領(lǐng)導(dǎo)給雞哥一份文檔,是從女老板秘書手里買來的,里面記錄了女老板近一年的生活軌跡等,讓雞哥在腦海中構(gòu)建女老板的畫像。

沒過多久,女老板要求在飯桌上洽談合作的事情,那么雞哥自然要打扮一番,可是該穿什么樣的衣服呢?于是他詢問大語言模型。

繪圖2_backup_06221e_backup_09049_backup_111758.png繪圖2_backup_06221e_backup_09049_backup_111758.png

雞哥發(fā)現(xiàn)大模型的回答很官方,都是一堆正確的廢話,不是自己想要的答案。但雞哥很快又想到了新的辦法,把文檔和問題一起發(fā)給大語言模型不就行了。

圖片圖片

雞哥按照大模型的建議,一上來就給女老板留下了好印象,然后又憑借三寸不爛之舌侃侃而談,哄得女老板面色紅潤、手舞足蹈,最終順利拿下了 1000 萬的投資。而領(lǐng)導(dǎo)為了表揚(yáng)雞哥的功績,大手一揮,送給他一面錦旗和 500 塊錢獎(jiǎng)金。

正所謂逮住蛤蟆攥出尿,領(lǐng)導(dǎo)又讓雞哥去從另一個(gè)女老板手里拿到投資。雞哥還是像之前一樣先從穿搭入手,但這次大語言模型卻沒有給出精確的回答,因?yàn)槲臋n太大了,信息太多、太雜,而答案可能只隱藏在文檔的一個(gè)不起眼的角落,導(dǎo)致大模型沒有抓住重點(diǎn)。

于是聰明的雞哥又想到了,那能否不把整個(gè)文檔發(fā)過去,而是只發(fā)和問題相關(guān)的部分呢?顯然是可以的,這就是 RAG(Retrieval Augmented Generation)要解決的問題。所以 RAG 的中文翻譯是檢索增強(qiáng)生成,它是一種結(jié)合了信息檢索和文本生成的 AI 技術(shù)架構(gòu),其核心思想是在生成回答之前,先從外部知識(shí)庫中檢索相關(guān)信息,然后基于這些檢索到的信息來生成更準(zhǔn)確、更有根據(jù)的回答。

簡單來說,RAG 的工作原理如下:

  • 檢索 (Retrieval): 當(dāng)用戶提出一個(gè)問題或給出一段提示時(shí),RAG 系統(tǒng)首先會(huì)從外部的知識(shí)庫中檢索相關(guān)信息。這個(gè)知識(shí)庫可以包含各種數(shù)據(jù),例如公司的內(nèi)部文檔、產(chǎn)品手冊、最新的新聞文章、數(shù)據(jù)庫記錄等等。
  • 增強(qiáng) (Augmented): 檢索到的相關(guān)信息會(huì)和用戶的原始問題一起,被 "增強(qiáng)" 或 "補(bǔ)充" 到輸入給大語言模型的內(nèi)容中。
  • 生成 (Generation): 大語言模型在接收到這些增強(qiáng)的上下文信息后,會(huì)生成一個(gè)更加準(zhǔn)確、相關(guān)和基于事實(shí)的答案。

那么問題來了,只發(fā)和問題相關(guān)的部分說起來簡單,但相關(guān)這兩個(gè)字要如何量化呢?或者說我們要怎么判斷一段文字和用戶的問題是否有關(guān)系呢?如果你對機(jī)器學(xué)習(xí)有所了解的話,很容易想到可以像 k 近鄰算法一樣,將文本抽象成空間中的一個(gè)點(diǎn),通過計(jì)算兩個(gè)點(diǎn)的距離,來判斷它們之間是否相關(guān)。

比如有以下四句話:

  • "雞哥的穿衣風(fēng)格咋樣?",將這句話映射之后的點(diǎn)記作 A。
  • "雞哥穿衣很時(shí)尚、很有品味",將這句話映射之后的點(diǎn)記作 B。
  • "雞哥很注重穿搭",將這句話映射之后的點(diǎn)記作 C。
  • "雞哥的寶劍也未嘗不鋒利",將這句話映射之后的點(diǎn)記作 D。

顯然 AB 的距離最近,其次是 AC,最后是 AD。

所以我們需要一種新的模型,它的輸入也是一段文字,但輸出是一個(gè)數(shù)組,存儲(chǔ)了映射之后的點(diǎn)在空間中的坐標(biāo),這種模型叫做 Embedding 模型。比如 OpenAI 的 text-embedding-3-small 模型會(huì)將文本映射成長度為 1536 的數(shù)組,text-embedding-3-large 模型會(huì)將文本映射成長度為 3072 的數(shù)組,而數(shù)組的長度就是空間的維度,維度越高,理論上能夠捕捉到的語義信息就越豐富和細(xì)致。

不難發(fā)現(xiàn),數(shù)組就是文本的一種量化,當(dāng)然這個(gè)過程是有損失的,數(shù)組長度越短,損失的信息就越多。

圖片圖片

文本越相似,它們在空間中的距離就越近,通過兩段文字的距離即可判斷它們是否相關(guān)。

回到之前的問題,如果文檔太長了,大語言模型不好處理該怎么辦?顯然這個(gè)問題的解決方案已經(jīng)有了。

  • 1)將文檔進(jìn)行切分,至于方式可以按字?jǐn)?shù)切分、按段落切分、按句子切分等等,這個(gè)過程叫做 Chunking。
  • 2)對 Chunking 后的每一段文字都做 Embedding,得到固定長度的數(shù)組,更專業(yè)的說法叫向量,因此這個(gè)過程叫做"向量化"或"嵌入"。
  • 3)將原始文本和對應(yīng)的向量保存在向量數(shù)據(jù)庫中,當(dāng)輸入一個(gè)向量時(shí),數(shù)據(jù)庫就會(huì)返回和輸入向量最近的 n 條數(shù)據(jù)。

這樣當(dāng)用戶輸入問題時(shí),先用同樣的 Embedding 模型將問題轉(zhuǎn)成向量,然后再從向量數(shù)據(jù)庫中選擇距離最近的 n 條數(shù)據(jù),將對應(yīng)的內(nèi)容和問題一起發(fā)給大模型。到此,一個(gè)完整的 RAG 架構(gòu)就完成了。

責(zé)任編輯:武曉燕 來源: 古明地覺的夢幻小屋
相關(guān)推薦

2025-05-22 06:23:48

2024-09-26 07:27:27

2025-03-18 10:00:00

Embedding向量嵌入

2021-10-20 08:49:30

Vuexvue.js狀態(tài)管理模式

2021-01-21 14:26:56

大數(shù)據(jù)互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用

2022-09-29 10:26:59

iOSScaffoldflutter

2022-03-24 08:51:48

Redis互聯(lián)網(wǎng)NoSQL

2024-04-12 12:19:08

語言模型AI

2025-05-21 09:32:28

2024-06-24 08:05:00

人工智能AI

2022-03-18 09:45:43

Git分支Linux

2021-03-22 10:05:59

netstat命令Linux

2023-09-15 12:00:01

API應(yīng)用程序接口

2023-09-08 08:20:46

ThreadLoca多線程工具

2023-03-10 22:08:20

2025-05-20 11:55:22

人工智能Vision RAGLLM

2023-11-01 15:52:35

2023-11-03 12:29:48

Java虛擬線程

2023-09-02 21:27:09

2021-02-28 20:53:37

Cookie存儲(chǔ)瀏覽器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品a久久久久 | 国产在线精品一区二区三区 | 精品视频一区二区三区在线观看 | 在线免费观看毛片 | 黄网免费看 | 国产精品久久久久久久7电影 | 国产精品美女久久久久久久久久久 | 日韩第一页 | 视频一区在线观看 | 日本天天操 | 午夜av一区二区 | 日韩欧美在线观看视频网站 | 亚洲视频在线观看免费 | 女人一区| 视频精品一区二区三区 | 99成人在线视频 | 在线观看国产www | 亚洲美女在线视频 | 亚洲中午字幕 | 欧美一级片a | 精品国产乱码久久久久久a丨 | 国产二区视频 | 亚洲综合色自拍一区 | 鲁视频| 日韩精品一| 色婷婷国产精品 | 久久91 | 日韩欧美亚洲一区 | 亚洲在线视频 | 久久综合一区二区 | 91精品国产综合久久精品 | 欧美激情亚洲 | 98久久| 激情五月婷婷 | 欧美一级全黄 | 黄色大片在线视频 | 超碰97干 | 日本精品视频 | 91精品国产一二三 | 日本精品免费 | 久草青青 |