成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

再談大模型檢索增強生成——RAG 原創(chuàng)

發(fā)布于 2024-11-19 12:45
瀏覽
0收藏

“ RAG的核心部件有大模型,embedding模型和檢索系統(tǒng);而RAG的重點和難點都在于檢索系統(tǒng)”

RAG檢索增強生成——也是很多人理解的本地知識庫,但RAG和本地知識庫還是有很大區(qū)別的;但這不是今天討論的重點,重點是為什么會有RAG技術(shù),以及RAG技術(shù)解決了哪些問題? 

大模型存在的幾個主要問題,知識的局限性 實時性和幻覺問題 以及隱私數(shù)據(jù)

RAG并不能完全解決幻覺問題,但可以減少幻覺的發(fā)生

in context learning 語境學(xué)習(xí)/上下文學(xué)習(xí)

RAG與大模型

想知道為什么會有RAG技術(shù),首先要知道大模型的幾個缺陷。

大模型主要有以下幾個問題:

  • 知識的局限性
  • 知識的實時性
  • 大模型的幻覺

目前的大模型都是基于預(yù)訓(xùn)練模式,也就是說設(shè)計出來的模型需要經(jīng)過大量數(shù)據(jù)訓(xùn)練之后才能夠使用;但預(yù)訓(xùn)練有一個很嚴重的缺點就是,訓(xùn)練的數(shù)據(jù)都是之前,大模型無法獲取訓(xùn)練數(shù)據(jù)之后的信息。

比如說,昨天訓(xùn)練了一個新的模型,那這個模型就不可能知道今天發(fā)生了哪些事情;所以模型的知識是截止到其訓(xùn)練數(shù)據(jù)收集的那一天。而這就是大模型知識的實時性問題。

其次是知識的局限性,大模型預(yù)訓(xùn)練的數(shù)據(jù)基本上來自于互聯(lián)網(wǎng)中;但互聯(lián)網(wǎng)中只有很小一部分數(shù)據(jù)是公開的,大部分數(shù)據(jù)都是不公開的;因此,訓(xùn)練模型就很難獲取到這些不公開的數(shù)據(jù),因此大模型的知識是有局限的。

這也是為什么,在問到大模型一些比較專業(yè)的問題時,大模型只能泛泛而談,而無法給出一個詳細的答案;原因就是因為它自己也不知道。

最后就是大模型的幻覺問題,幻覺問題其實也可以理解為一種特殊的知識局限性;那就是大模型在遇到一些不懂的問題時,它會根據(jù)自己的經(jīng)驗,然后一本正經(jīng)的胡說八道。

再談大模型檢索增強生成——RAG-AI.x社區(qū)

這就是大模型的幻覺問題,產(chǎn)生幻覺問題的原因有很多,知識不足只是其中的一個原因而且也不是本質(zhì)上的原因。眾所周知,大模型的本質(zhì)是一種數(shù)學(xué)模型,其是用概率和高維向量之間的運算來得到具體的結(jié)果。

但不論是概率還是向量之間的運算,都無法保證絕對的正確性,因此這就導(dǎo)致大模型會出現(xiàn)一本正經(jīng)的胡說八道的現(xiàn)象,也就是幻覺的問題。

還有一個問題就是,數(shù)據(jù)的隱私性問題,比如說公司內(nèi)部的經(jīng)營數(shù)據(jù),財務(wù)數(shù)據(jù)和科研數(shù)據(jù)等;這都屬于公司的絕密信息,因此一般不能直接用來進行大模型的訓(xùn)練;但有時候又需要大模型使用這些隱私數(shù)據(jù)。

所以,為了解決以上問題業(yè)內(nèi)就提出了一種補償措施,那就是RAG技術(shù)。RAG技術(shù)主要包括兩個方面,檢索與生成;所謂的檢索就是在向大模型提問之前,先從外部資料中檢索到相關(guān)的資料,然后一起帶給大模型;大模型就可以根據(jù)這些資料進行更加精準的回答。

再談大模型檢索增強生成——RAG-AI.x社區(qū)

而大模型使用RAG技術(shù)的原理就是In Context Learning(語義學(xué)習(xí)/上下文學(xué)習(xí))技術(shù);本質(zhì)上來說就是一種提示詞技術(shù),通過RAG技術(shù)從外部資料中檢索到數(shù)據(jù)之后,把這些數(shù)據(jù)當做上下文拼接到提示詞中,然后大模型就可以理解這些提示詞,然后做出正確的回答。

不過RAG技術(shù)雖然能夠解決大模型以上的幾個問題,但并不是完全解決;主要依賴于以下幾個方面:

  • embedding模型
  • 外部資料的質(zhì)量問題
  • 檢索的準確性問題
  • 大模型的質(zhì)量問題

后面兩個應(yīng)該很好理解,主要就是embedding模型,所謂的embedding模型就是,RAG的檢索并不是傳統(tǒng)的數(shù)據(jù)庫方式的字符匹配,而是基于向量模型的語義匹配的方式。

因此,就需要一種方式把資料從文本/視頻/語音等多種格式的數(shù)據(jù)轉(zhuǎn)化為向量模式,而這個就是embedding模型的作用;而embedding模型本質(zhì)上也是一個大模型。

再談大模型檢索增強生成——RAG-AI.x社區(qū)

還有就是,大模型并沒有解決幻覺問題,只是減少了幻覺的發(fā)生;以目前的技術(shù)來看,大模型幻覺問題還無法徹底解決,只能盡量地減少。

所以,一個好的RAG系統(tǒng),不但需要一個好的大模型和embedding模型,更重要的是要有一個強大的檢索系統(tǒng);能夠更加高效和準確地檢索到準確的數(shù)據(jù)。

否則,就像你拿著一個錯誤的復(fù)習(xí)資料,即使你成績再好,你又能考多少分。


本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/UBcbUw22aVcjyifqGYEAjw??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 精品国产乱码久久久久久闺蜜 | 欧美在线一区二区三区 | 亚洲在线 | 综合色播| 亚洲成人a v | 高清国产午夜精品久久久久久 | 国产电影一区 | 极品一区 | 成人免费区一区二区三区 | 欧美片网站免费 | 狠狠做六月爱婷婷综合aⅴ 国产精品视频网 | 久草视频在 | 99re视频| 人人性人人性碰国产 | 久久成人av电影 | 成人免费在线播放 | 精品视频成人 | 男女免费观看在线爽爽爽视频 | 午夜免费网 | 在线视频国产一区 | 亚洲欧美日韩精品久久亚洲区 | 欧美网站一区 | 2019精品手机国产品在线 | 国产精品片 | 精品无码三级在线观看视频 | 国产91丝袜在线播放 | 国产成人精品综合 | 成人av在线大片 | 在线中文字幕亚洲 | www.99精品 | 免费看一区二区三区 | 午夜激情影院 | 精品国产乱码久久久久久老虎 | 无码一区二区三区视频 | 三级黄色网址 | 亚洲欧美日韩精品久久亚洲区 | 亚洲狠狠爱| 久久精品久久久久久 | 99精品久久久久久中文字幕 | 国产一区二区久久 | 玖玖国产精品视频 |