成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RAG生成任務:Base LLM竟然比Instruct LLM高出20%

發布于 2024-6-26 15:30
瀏覽
0收藏

檢索增強生成(RAG)將檢索階段與生成階段結合起來,后者通常由大型語言模型(LLMs)驅動,RAG中的當前常見實踐是使用“指導”的LLMs,這真的是最優選擇嗎?

對RAG系統中的“instruct”模型及其模板與基礎版本(base)進行了原則性評估。這些“instruct”模型通常經過監督訓練來提高遵循指令的能力,并使用最先進技術與人類偏好對齊。使用了兩個任務指令來評估模型,任務指令I要求模型從未提供的文檔中提取答案,任務指令II要求模型提供證據來支持其答案。

在TriviaQA上的任務指令I下,基礎版與指導+模板版之間的比較。該圖展示了兩個版本的Llama 2 7B模型生成的回答之間的比較:基礎版和指導+模板版。每個版本都被賦予了基于提供文檔回答同一問題的任務。基礎模型正確地識別出答案為“Burgess Meredith”,而指導+模板版錯誤地將答案歸因于“Danny DeVito”。斜體文本表示模板

RAG生成任務:Base LLM竟然比Instruct LLM高出20%-AI.x社區

在TriviaQA上的任務指令II下,基礎版與指導+模板版之間的比較。這種比較展示了Llama 2 7B的基礎版和指導+模板版生成的回答之間的一個例子,其中基礎模型正確地識別了答案,而指導+模板版錯誤地將答案歸因于不同的演員。盡管如此,在兩種情況下,答案都與證據“一致”,因為每項證據都包含了生成的答案。斜體文本表示模板。

RAG生成任務:Base LLM竟然比Instruct LLM高出20%-AI.x社區

實驗結果顯示,在RAG任務中,基礎模型在沒有額外的指令特定微調的情況下,平均性能比“instruct”模型高出20%。這一發現挑戰了關于“instruct”LLMs在RAG應用中優越性的普遍假設。進一步的調查揭示了更復雜的情況,提出了對RAG和評估程序的更廣泛討論的需求。

在NQ和TriviaQA上任務指令I的準確度。縮寫C和I分別表示指導模型的聊天版和指導版。后綴T表示使用模板來構建其回答的指導模型。準確度是在不同檢索文檔級別的報告。除了部分例外的Mistral,所有基礎模型在性能上都大幅度超過了它們的指導版本。


在NQ和TriviaQA上,需要提供證明的任務指令II的準確度。縮寫C和I分別表示指導模型的聊天版和指導版。后綴T表示使用模板來構建其回答的指導模型。準確度是在不同檢索文檔級別的報告。在所有考慮的情況下,基礎模型在性能上都大幅度超過了它們的指導版本。

RAG生成任務:Base LLM竟然比Instruct LLM高出20%-AI.x社區

盡管“instruct”模型在遵循任務指令方面更為有效,但它們在準確拒絕回答(即當檢索文檔中不包含答案時回答NO-RES)方面的表現不如基礎模型(備注:這地方的結論貌似與實驗數據不匹配,有需要小伙伴自行評測哈)。此外,當不要求模型在答案不出現在檢索文檔中時回答NO-RES時,基礎模型仍然表現更好,這表明監督微調和對齊過程可能對模型在RAG任務中的能力產生了負面影響。

從參數化記憶中回憶 - Llama 2 7B - TriviaQA。報告的是參數化記憶回憶率,定義為模型在檢索文檔不包含正確答案的情況下仍能正確回答的實例數,除以答案不在上下文中出現的次數。(左)如圖1所示的任務指令I;(右)無拒絕設置,即不指定在檢索文檔中不包含答案時回答NO-RES(如圖6所示的示例)。在這種情況下,兩個模型版本的參數化記憶回憶率都有所提高。

RAG生成任務:Base LLM竟然比Instruct LLM高出20%-AI.x社區

圖6:在NQ上,任務指令I下的基礎版與指導版,不允許拒絕回答。這張圖展示了在不允許拒絕回答的設置下的回答情況,即模型不需要在檢索文檔中不包含答案時回答NO-RES。它比較了Falcon 7B的基礎版和指導版。基礎模型準確地識別出“Rocky”(洛奇)是1976年奧斯卡最佳影片獎的獲獎者,而指導版錯誤地引用了“Network”(電視臺)。

RAG生成任務:Base LLM竟然比Instruct LLM高出20%-AI.x社區


在整個RAG流程中,除了Generation,還涉及Embedding、Indexing等等,PaperAgent團隊RAG專欄進行過詳細的歸納總結:高級RAG之36技(術),可私信留言試看:RAG專欄。

A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems
https://arxiv.org/pdf/2406.14972
https://github.com/florin-git/Base-vs-Instruct-LLMs-in-RAG-Systems

本文轉載自??PaperAgent??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 青久草视频| 欧美久久视频 | 精品国产欧美一区二区 | 不卡欧美| 国产免费视频 | 欧美性受xxxx白人性爽 | 一二三四在线视频观看社区 | 日韩中文字幕在线观看 | 国产成人一区在线 | 国产九九精品视频 | 亚洲天堂久久新 | 亚洲第一免费播放区 | 国产成人免费视频网站高清观看视频 | 国产精品自拍啪啪 | 亚洲成人一区二区三区 | 中文字幕在线剧情 | 黄网站涩免费蜜桃网站 | 日韩电影中文字幕 | 久久久久国产精品一区二区 | 午夜精品久久久久久久99黑人 | 久久午夜国产精品www忘忧草 | 国产亚洲欧美日韩精品一区二区三区 | 国产成人精品高清久久 | 九九九久久国产免费 | 亚洲高清电影 | 久久久精品综合 | 欧美影院| 色综合久久天天综合网 | 成在线人视频免费视频 | 久久精品一级 | 91久久精品日日躁夜夜躁欧美 | 日韩精品在线网站 | 国产福利在线视频 | 久久香蕉精品视频 | 国产精品一区二区三区久久 | 黑人巨大精品欧美一区二区一视频 | 99精品国产一区二区三区 | 中文字幕成人av | 亚洲婷婷一区 | 国产欧美在线播放 | 国产99热在线|