成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福新研究:RAG能幫助LLM更靠譜嗎? 精華

發布于 2024-5-29 13:36
瀏覽
0收藏

大語言模型(LLM)雖然功能強大,但容易出現幻覺。


此外,它們受限于其訓練語料庫中包含的知識,因此無法回答有關近期事件或公開受限信息的查詢。


為了解決上述問題,檢索增強生成(RAG)是一種常用的框架,它在LLM的提示中提供相關檢索內容,獲得相關信息的參考文檔或數據庫,并可以顯著提高模型的準確性。


大多數商業LLM,如ChatGPT、Gemini和Perplexity.ai,已經在它們的Web界面中采用了某種版本的RAG。

例如,ChatGPT使用Bing搜索,而Gemini訪問Google搜索結果。


但當語言模型內部知識與通過RAG提供的信息之間的不一致時,或者當網絡結果不斷變化,并且可能包含過時、錯誤或有害的信息時,這個問題就變得更加復雜了。


因此,對啟用RAG的LLM行為進行客觀評估,與對它們的非RAG對應物進行基準測試同樣重要,特別是目前RAG系統越來越依賴于在眾多領域提供事實信息。


量化LLM和RAG之間的關系


在斯坦福的最新研究中,研究工作旨在量化LLM的內部知識與RAG設置中呈現的檢索信息之間的緊張關系。

斯坦福新研究:RAG能幫助LLM更靠譜嗎?-AI.x社區

沒有上下文(即沒有RAG),測試的語言模型平均只能正確回答34.7%的問題。有了RAG,準確率提高到了94%。

斯坦福新研究:RAG能幫助LLM更靠譜嗎?-AI.x社區

「先前」指的是沒有上下文的GPT-4響應,「帶RAG」指的是在提示中包含了相關檢索到的上下文的響應。


此外,還包括了先驗概率與RAG偏好率之間關系的斜率。例如,平均斜率為-0.23,這意味著每當先驗token的概率增加10%,RAG偏好率的下降可能性為2.3%。


為了區分這兩種相互競爭的力量,研究人員對GPT-4和其他大語言模型(LLM)進行了測試,使用了六組不同的問題,總共超過1200個問題。


當提供正確的參考信息時,這些模型正確回答了94%的問題。


然而,當參考文檔逐漸被錯誤的值修改時,如果模型自身在該主題上的預訓練知識較弱,LLM重復錯誤信息的可能性就更高。


當預訓練知識更強時,模型更能抵抗錯誤的參考信息。

斯坦福新研究:RAG能幫助LLM更靠譜嗎?-AI.x社區

根據參考文檔中信息的錯誤程度,大語言模型(LLM)會通過檢索增強生成(RAG)引用或從其知識庫中輸出錯誤答案。


當修改后的信息與模型認為合理的情況偏離得更厲害時,出現了類似的模式:偏離越不切實際,大語言模型(LLM)就越依賴于自己的預訓練知識。


盡管RAG系統可以顯著提高語言模型的事實準確性,但它們并不是對抗錯誤信息的萬能藥。


上述實驗說明使用高質量參考數據的RAG可以顯著提高LLMs的準確性。


此外,模型的良好訓練先前知識有助于識別和忽略不切實際的信息。


RAG提示強度和模型先驗知識之間的博弈


另外遵守參考信息的提示強度也產生了影響:更強烈的提示導致模型更有可能遵循參考信息。


相反,當提示不那么嚴格,模型有更多的自由度來衡量其先前知識與參考信息時,遵循參考信息的可能性就會降低。

斯坦福新研究:RAG能幫助LLM更靠譜嗎?-AI.x社區

大語言模型(LLM)訪問檢索增強生成(RAG)數據的方式會影響從參考中提取信息的準確性。


為了實現盡可能高的準確性,必須非常清楚地告知LLM,它應該只從參考中獲取數據。


讓RAG能更好地輔助LLM


RAG系統相對于傳統搜索引擎具有獨特的吸引力,它們可以結合先驗知識來填補空白并推斷檢索到的信息。


但這伴隨著權衡——即,這樣的先驗知識可以覆蓋文檔中提供的信息。


雖然強大的先驗知識本身并不是問題(通??梢员Wo模型),但缺乏關于模型如何混合RAG參考文檔和它們先驗知識的明確預期,可能導致下游結論不準確的問題。


例如,RAG系統被用來提取嵌套的財務數據以用于算法,如果財務文檔中有一個錯別字會發生什么?模型會注意到錯誤嗎?如果是,它會提供什么數據來代替?


鑒于LLM即將在包括醫學和法律在內的許多領域廣泛部署,用戶和開發者都應該意識到它們的意外效果,并給出預案。


用戶需要更加了解模型如何處理潛在的沖突或錯誤信息,以及RAG系統和LLM一樣,也可能出錯。


本文轉自新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/0o6VQ6ISWLlDvbgHJaNdbg??

標簽
已于2024-5-29 13:38:35修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲综合国产精品 | 国产欧美日韩精品一区二区三区 | 精品一区二区久久久久久久网精 | 天天拍天天操 | 99免费在线视频 | 亚洲精品日本 | 欧美在线视频一区二区 | 久草视频在线播放 | 日日日日日日bbbbb视频 | 99福利网 | 亚洲综合在线网 | 国产精品99久 | 亚洲欧美另类在线 | 日韩免费高清视频 | 欧美一区二区三区四区视频 | 午夜影晥 | 久久性色 | 毛片网站免费观看 | 欧美99 | 欧美精品一区二区三区四区 在线 | 亚洲成人三级 | 超碰导航| 中文字幕一区二区三区四区 | 99精品视频免费在线观看 | 亚洲va欧美va人人爽午夜 | 欧美性吧 | 欧美国产中文 | 午夜不卡一区二区 | 成人免费黄视频 | 久久久精彩视频 | 国产精品久久久乱弄 | 成人日韩 | 操操日| 99精品国产一区二区三区 | 欧美一区二区在线观看视频 | 91大神在线资源观看无广告 | 欧美色性 | 浴室洗澡偷拍一区二区 | 精品中文字幕视频 | 美国a级毛片免费视频 | 国产成人在线免费 |