成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

【LLM】CRAG - 綜合性RAG基準測試

發布于 2024-6-17 10:18
瀏覽
0收藏

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

一、結論寫在前面

論文來自Meta Reality Labs、FAR、Meta、HKUST、HKUST (GZ)

論文標題:CRAG -- Comprehensive RAG Benchmark

論文鏈接:??https://arxiv.org/pdf/2406.04744???


檢索增強生成(Retrieval-Augmented Generation ,RAG)最近作為一種有前景的解決方案出現,以緩解大型語言模型(LLM)在知識缺乏方面的不足。然而,現有的RAG數據集并未充分代表真實世界問答(QA)任務的多樣性和動態性。


為了彌合這一差距,論文引入了綜合性RAG基準測試(CRAG),這是一個包含4,409個問答對的事實問答基準,并模擬了網絡和知識圖譜(KG)搜索的API。這包括每個問題最多可從現實世界的搜索引擎——Brave Search API [4]返回的50個完整HTML頁面,以及包含260萬個實體的模擬知識圖譜(KGs)。對于模擬的KGs,論文設置了詳細的實體和關系以模擬真實情況。

CRAG包含來自五個領域(金融、體育、音樂、電影和開放領域)的4,409個問答對。除了簡單事實問題(詢問實體的屬性),CRAG還包含七種類型的復雜問題,以涵蓋真實的用戶查詢:帶有條件的問題、比較問題、聚合問題、多跳問題、集合查詢、后處理繁重的問題和錯誤前提問題。CRAG反映了從流行到長尾的實體多樣性和從秒到年的時間跨度,便于深入洞察。在論文生成問題時,論文參考了智能助手的用例,確保問題現實,通過改寫問題增加表達的多樣性,并手動驗證事實真相以確保可靠性。    

論文對這一基準的評估突顯了完全可信賴的QA之間的差距。盡管大多數先進的LLMs在CRAG上的準確率低于34%,但簡單地加入RAG僅將準確率提升至44%。業界最先進的RAG解決方案在不產生任何幻覺的情況下僅能回答63%的問題。CRAG還揭示了在回答涉及更高動態性、較低流行度或更高復雜度事實的問題時準確率顯著降低,這為未來的研究方向提供了建議。CRAG基準為2024年KDD Cup挑戰賽奠定了基礎,吸引了數千名參賽者并在比賽的前50天內提交了作品。

二、論文的簡單介紹

2.1 論文的背景

檢索增強生成(Retrieval-Augmented Generation,RAG)最近被視為緩解大型語言模型缺乏知識這一缺陷的有前景解決方案,吸引了來自學術界和工業界的大量關注。給定一個問題,RAG系統會搜索外部資源以檢索相關信息,然后提供有根據的答復。盡管具有潛力,RAG仍然面臨諸多挑戰,例如選擇最相關的信息、減少問答延遲以及綜合信息來回答復雜問題。

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

              圖1:使用LLMs進行QA(a)無RAG與(b)有RAG的對比

目前,為了推動這一領域的持續研究,一個全面的基準尚未建立。傳統的QA基準,如Natural Questions 、TriviaQA和MS MARCO,在過去十年中推動了QA的發展,但并未充分代表RAG面臨的多樣化和動態挑戰。專注于LLM或RAG的新基準,如FreshQA 和RGB ,通常針對LLM的某些能力,并且只包含幾百個查詢。論文工作的目標是建立一個全面的基準,以推動該領域的發展。

表1:CRAG與現有事實問答基準的比較

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

論文的第三個貢獻是對直接的RAG解決方案和行業內最先進的RAG解決方案進行了全面的評估(第5節)。盡管大多數先進的LLMs在CRAG上達到34%的準確率,但以直接方式添加RAG僅將準確率提升至44%。行業內最先進的RAG解決方案在回答問題時僅有63%的準確率,且在處理動態性更高、流行度更低或復雜度更高的事實相關問題時,準確率仍然較低。這些評估具有雙重作用:首先,它們證明了CRAG具有適當的難度水平,并允許從基準所包含的不同維度的多樣性中得出見解;其次,它們突出了實現完全可信賴的QA系統的差距和研究方向。

CRAG基準為KD Cup 2024挑戰奠定了基礎,吸引了數千名參與者并在比賽的前50天內提交了大量作品。論文承諾將持續維護CRAG,以服務于研究社區,推動RAG解決方案和通用QA解決方案的發展。

與現有基準的比較。表1將CRAG與現有的事實問答基準進行了比較,展示了CRAG基準的幾個優勢:全面覆蓋、真實測試與模擬API、動態問題處理、多樣的事實流行度以及廣泛超越維基百科。

這些特點使得CRAG成為一個強大且多功能的基準,用于測試RAG系統和廣泛的QA系統,為評估這些系統如何處理現實世界、動態和多樣化的信息檢索與合成挑戰提供了共享測試平臺,以實現基于可靠LLM的問答。

2.2 問題描述

一個RAG QA系統接收一個問題Q作為輸入,并輸出一個答案A;答案由LLMs根據從外部來源檢索的信息或直接從模型內化的知識生成。答案應提供有用的信息以回答問題,而不添加任何幻覺。    

論文設計了三個任務。它們共享相同的一組(問題,答案)對,但在用于增強QA的可檢索外部數據方面有所不同。在此,論文提供可在QA中利用的內容,以確保公平比較。論文將在第3節中描述數據生成的方式。

任務1:檢索摘要。在任務1中,論文為每個問題提供最多五個網頁。這些網頁可能與問題相關,但不保證一定相關。此任務旨在測試RAG系統的答案生成能力。

任務2:知識圖譜和網絡檢索增強。在任務2中,論文還額外提供了模擬API以訪問底層模擬知識圖譜中的信息。模擬知識圖譜存儲與問題相關的結構化數據;問題的答案可能存在于也可能不存在于模擬知識圖譜中。模擬API接受輸入參數,通常是從問題解析得到的,并從模擬的知識圖譜中提供結構化數據以支持答案生成。此任務測試RAG系統如何有效地查詢結構化數據源以及如何綜合不同來源的信息。

表2:CRAG問題類型的定義

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

任務3:端到端RAG。與任務2類似,任務3也同時提供網絡搜索結果和模擬API作為檢索候選,但提供50個網頁作為候選,而不是5個。更大數量的網頁更可能提供回答問題所需的必要信息,但同時更可能包含噪音。因此,任務3還測試RAG系統如何對更大數量的檢索結果進行排序。

2.3 數據集描述

CRAG包含兩部分數據:問答對和用于檢索的內容。論文現在描述每一部分的數據。

2.3.1 問答對

CRAG涵蓋五個領域:金融、體育、音樂、電影和開放領域,以及八種類型的英語問題。問題類型列于表2中。論文構建的問答對既來自底層知識圖譜(KGs)也來自網頁內容。

來自KGs的問答對。論文通過收集一組基于公開可用數據的實體,并根據選定的實體類型和關系創建了600多個問題模板。接下來,論文按照[2l]從KGs中抽取不同流行度(頭部、軀干和尾部)的實體來填充模板,并生成完整的問題和答案。

來自網頁內容的問答對。論文要求標注者寫下用戶可能提出的問題(例如,“2023年最受歡迎的動作電影”),并從相應的網頁搜索結果中創建問答對。

使用上述方法,論文收集了2,425個Web問題和1,984個KG問題,其中661個、658個和665個KG問題分別包含頭部、軀干和尾部實體。表3和表4總結了問題在不同維度上的分布情況。每個維度切片的大小(例如,快速變化的事實)使論文能夠在大多數情況下獲得小于5%的誤差范圍(置信度為95%)的指標。動態分布大致反映了領域的性質(例如,金融領域的實時問題比其他領域多得多)。

表3:每個動態類別的問題數量和百分比(括號內為百分比),手動確定。金融和體育領域擁有最多的實時和快速變化的問題

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

表4:每個問題類型的問題數量和百分比(括號內為百分比),手動確定。簡單和帶有條件的問題構成所有問題的43%    

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

2.3.2 檢索內容

為了模擬RAG的實際應用場景,論文包含了兩種類型的檢索內容:網頁搜索和知識圖譜(KG)搜索。

網頁搜索結果。對于每個問題,論文使用問題文本作為搜索查詢,并從Brave搜索API [4] 中存儲最多50個HTML頁面。論文采用基于啟發式的方法估算網頁搜索的召回率(50個網頁):首先檢查50個頁面中是否包含標準答案URL;如果不包含,則搜索頁面摘要或內容中是否包含標準答案中的事實。估算的召回率在Web Questions中為84%,在KG Questions中為63%(見附錄A.1.5中的表9),這與論文的直覺一致,即KG問題中的主體和尾部實體可能未包含在返回的50個頁面中。

模擬知識圖譜(Mock KGs)。論文創建了包含公開可用KG數據、隨機選擇的同類型實體以及具有相似名稱的“硬負例”實體(例如,“phantom”對應“phantom of the opera”)的模擬KG。

模擬API。論文創建了具有預定義參數的模擬API,以支持在模擬KG中的結構化搜索。例如,對于詢問股票價格的查詢,一個模擬API的示例形式為get-price history(ticker)。    

2.4 評價指標與評估

2.4.1評價指標

論文采用一種評分方法來評估RAG系統的性能。對于評估集中的每個問題,論文首先根據以下標準將答案標記為完美、可接受、缺失或不正確。

完美。該響應正確回答了用戶的問題,并且沒有包含幻覺內容。

可接受。該響應為用戶的問題提供了一個有用的答案,但可能包含一些不影響答案有用性的輕微錯誤。

缺失。該響應為“不知道。”“對不起,找不到。”,或者是空白響應,或者是系統請求澄清原始問題。

不正確。該響應提供了錯誤的或與回答用戶問題無關的信息。

然后,論文使用一種評分方法Score,對于完美、可接受、缺失和不正確的答案分別給予1分、0.5分、0分和-1分,其中論文懲罰幻覺答案,并更傾向于缺失答案而不是不正確的答案。對于給定的RAG系統,論文計算評估集中所有示例的平均分數作為最終分數。

2.4.2 評估

與先前的工作[26]類似,論文采用了人類評估(human-eval)和模型自動評估(auto-eval)兩種方法。在前者中,論文使用人工評分來判斷每個答案是完美、可接受、缺失還是不正確。在后者中,論文將完美和可接受合并,稱之為準確,并使用三向評分Scorea,對于準確、不正確和缺失的答案分別給予1分、-1分和0分。

論文設計了一種兩步法來自動評估:如果答案完全匹配標準答案,則視為準確;否則,使用大型語言模型(LLMs)來判斷響應是準確、錯誤還是缺失。為避免自我偏好問題,論文采用兩個LLM評估器:ChatGPT(gpt-3.5-turbo)和Llama 3(1lama-3-70B-instruct),并對每個RAG系統報告這兩個模型的平均準確率、幻覺率、缺失率和得分。論文的離線實驗顯示,這種兩步法相較于人工評估,ChatGPT的平均F1分數為94.7%,Llama 3為98.9%。

測試數據分割。論文將數據隨機分為驗證集、公開測試集和私有測試集,比例為30%、30%和40%,并發布了驗證集和公開測試集供KDD Cup挑戰使用。    

2.5 基準測試

,論文將展示LLMs和RAG系統在CRAG上的性能,證明CRAG具有合理的難度水平,并能幫助在開發RAG技術時提供洞察和方向。

2.5.1 直接的RAG解決方案

實驗設置:論文首先在CRAG公開測試集上運行僅LLM的解決方案,該測試集包含1,335個問題,使用簡單的提示鼓勵簡短答案,并在信心不足時給出“我不知道”的答案。論文采用了Llama 2 Chat(llama-2-7b-chat和llama-2-70b-chat)、Llama 3 Instruct(llama-3-8B-instruct和llama-3-70B-instruct)和GPT-4 Turbo 。論文評估的僅基于網頁的RAG解決方案(任務1)使用固定長度的網頁上下文窗口(Llama 2 Chat為2K token,Llama 3 Instruct和GPT-4 Turbo為4Ktoken);論文按照數據中的原始順序連接網頁片段作為參考文本,直至填滿窗口。

論文的基于知識圖譜(KG)的解決方案(任務2、3)還額外使用固定長度的KG上下文窗口(Llama 2 Chat為1Ktoken,Llama 3 Instruct和GPT-4 Turbo為2Ktoken)以包含Mock API的結果;論文使用llama-3-8B-instruct進行上下文學習來提取相關查詢實體,并連接所有適用的Mock API返回的結果(基于提取的實體),直至填滿窗口。本節論文討論Llama 3 70B Instruct和GPT-4 Turbo的結果。

表5:直接RAG解決方案的性能。所有數字均為百分比。僅LLM解決方案的準確率最高可達34%,直接RAG解決方案的準確率最高可達44%

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

    

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

              圖2展示了僅使用LLM和任務3解決方案在不同領域、動態性、流行度和問題類型下的自動評估得分(以百分比表示)

表5顯示了來自兩個自動評估器(ChatGPT和Llama 3)的平均評估得分,并說明CRAG基準并非易事:

?首先,最佳的LLM-only解決方案(GPT-4 Turbo)僅達到349%的準確率,得分僅為20%,顯示出巨大的改進空間。

?其次,直接的RAG解決方案最高可達44%%的準確率,表明額外的信息確實有助于更可靠地回答更多問題。有趣的是,沒有任何RAG解決方案的得分超過20%%;這是因為所有RAG解決方案都引入了更多由無關檢索結果產生的幻覺,顯示出RAG中的一個重大挑戰——如何審慎地使用檢索結果而不被檢索噪音干擾?

?第三,論文發現任務2的得分高于任務1,表明KG知識有助于提高準確率,且幻覺率相似甚至更低,因為KG知識通常簡潔而精確。遺憾的是,這種改進并不顯著,顯示出RAG中的第二個挑戰——如何最大限度地利用KG數據的力量?最后,任務3的得分也高于任務2,這是由于更好的搜索排名(回想任務1和2提供的是從前10搜索結果中隨機選擇的五頁)和更好的搜索召回。這表明搜索排名在RAG中的重要性。

圖2展示了在領域、動態性、流行度和問題類型維度上的自動評估分數。結果揭示了許多有趣的觀察,并表明CRAG基準允許更深入的結論。    

?首先,它展示了基準中哪些部分更難。例如,論文發現在金融和體育領域,對于實時和快速變化的事實,對于尾部實體,以及對于需要集合答案、后處理和具有錯誤前提的復雜問題的RAG分數顯著較低。

?其次,它顯示了在哪些方面更難利用檢索結果。以流行度切片為例,論文觀察到GPT-4 Turbo的分數從頭部(21%)下降到表6:使用行業最先進的RAG系統對CRAG問題進行基準測試。完美、可接受(Acc.)、幻覺(IHall.)、缺失(Miss.)率和分數n,以百分比表示。最佳系統達到51%的分數,并為高達63%的問題提供完美答案。

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

【LLM】CRAG - 綜合性RAG基準測試-AI.x社區

圖3:SOTA系統在不同維度上的人類評估得分(百分比)    

2.5.2 工業界最先進的解決方案

接下來,論文在CRAG公共測試集上評估了工業界最先進(SOTA)的RAG解決方案。論文選擇了四個基于SOTA LLMs和搜索引擎構建的RAG系統,使用CRAG問題查詢它們,收集了響應,并應用了手動評分。

此外,論文為問題應用了流量權重,以理解實際使用場景中的解決方案。流量權重來自一個真實的QA用例,并按如下方式生成。在每個領域內,論文首先將問題聚類到子領域(例如,當前游戲積分、體育隊伍),然后從反映用戶交互的聚合數據中導出子領域權重。論文將子領域權重應用于每個CRAG問題,以將結果與用戶體驗相對應,并在表6中報告了所有領域的宏觀平均得分(即,給予所有領域相同的權重)。

表6和圖3展示了SOTA系統的整體性能及其在不同維度上的表現。評估結果證實了論文的觀點,即CRAG基準揭示了有趣的見解,并為現有的RAG解決方案提供了改進空間。

?首先,SOTA解決方案的得分遠高于直接解決方案(最高達51%)。然而,加權幻覺率在17%至25%之間,因此答案仍不可靠。需要注意的是,SOTA解決方案與直接解決方案之間的得分不完全可比,因為它們訪問檢索內容的方式不同,前者使用自動評估,而后者使用人工評估;但趨勢是有效的。

?其次,在直接解決方案中觀察到的多數難點對于SOTA解決方案仍然具有挑戰性:實時快速變化的查詢,以及涉及軀干和【LLM】CRAG - 綜合性RAG基準測試-AI.x社區實體的問題,表明系統在依賴檢索結果回答問題時處理檢索噪聲方面需要改進;另一個例子是,對于需要多跳推理或后處理的查詢,得分較低,顯示了問答中推理能力的提升空間

?第三,第三SOTA系統的加權準確率(完美+可接受)略高于第二系統(73%和70%),但幻覺率顯著更高(25.19%和16.6%),表明構建RAG系統時,在無法找到確信答案的情況下明智地回答“我不知道”的必要性。

?最后,在集合和錯誤前提問題上的得分,SOTA解決方案相比直接解決方案有了顯著提升,展示了RAG系統在提供準確完整集合答案和檢測錯誤前提方面的進步。    

最后,論文觀察到非常不同的延遲,范圍從2.5秒到11.6秒,這反映了在延遲和質量之間權衡的不同設計選擇。需要注意的是,延遲結果來自于與Perplexity.ai的API以及與其他系統的網頁界面的交互。

本文轉載自 ??AI帝國??,作者: 無影寺

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 天天综合网91 | 91免费福利视频 | 欧美一区二区三区日韩 | 欧美日韩综合一区 | 国产成人福利在线 | av片免费 | 久久成人精品一区二区三区 | 久久精品视频网站 | 国产日韩视频 | 在线中文一区 | 色吧综合网 | 日本欧美黄色片 | 精品久久久精品 | 欧美精品欧美精品系列 | 福利视频一区二区 | 99色视频| 国产精品视频一区二区三 | 国产欧美一级 | 久久av一区| 国产精品毛片一区二区三区 | 日韩亚洲一区二区 | 欧美亚洲另类丝袜综合网动图 | 成人免费视频 | 成人三区| www.日韩免费| 日韩av成人在线观看 | 特黄色一级毛片 | 欧美日韩在线观看视频 | 久久精品国产免费 | 国产91丝袜 | 日韩精品免费一区二区在线观看 | 国产一区二区三区四 | 精品产国自在拍 | 国产精品99久久久久久动医院 | 91黄色片免费看 | 玖玖免费| 国产一二三区在线 | 国产精品亚洲片在线播放 | 国产日韩欧美在线观看 | 欧美国产亚洲一区二区 | 日日夜夜天天 |