Knowing You Don't Know:通過自我練習學習何時在多輪 RAG 中繼續搜索 原創
摘要
檢索增強生成(RAG)在增強語言模型知識和減少 AI 生成幻覺方面表現出強大能力,推動了其廣泛應用。然而,需要多輪檢索的復雜任務仍然具有挑戰性,早期嘗試往往過于樂觀,缺乏良好的自我懷疑意識。當前的多輪 RAG 系統可能在已經檢索到足夠信息時繼續搜索,或者在沒有足夠信息或知識時提供錯誤答案。現有解決方案要么需要大量昂貴的人工標注過程監督數據,要么導致性能不佳。
本文旨在通過引入新框架 SIM-RAG 來解決這些限制,明確增強 RAG 系統的自我意識和多輪檢索能力。為了訓練 SIM-RAG,我們首先讓 RAG 系統自我練習多輪檢索,通過中間內心獨白推理步驟擴展現有問答對,生成合成訓練數據。對于每對數據,系統可能探索多條檢索路徑,成功找到正確答案的路徑標記為成功,否則為失敗。利用這些數據,我們訓練一個輕量級信息充分性評論家(Critic)。在推理時,評論家評估 RAG 系統在每一輪是否已檢索到足夠信息,通過上下文中的強化學習指導檢索決策,提高系統級自我意識。
在多個著名 RAG 基準上的實驗表明,SIM-RAG 是一種有效的多輪 RAG 解決方案。此外,該框架系統高效,只需向 RAG 添加輕量級組件,無需修改現有大型語言模型(LLMs)或搜索引擎;數據高效,無需昂貴的人工標注中間步驟檢索過程監督數據。
1、引言
大型語言模型(LLMs)在數學競賽等多步推理基準測試中表現出色 [25],但檢索增強生成(RAG)系統在涉及多輪檢索的復雜任務中仍落后于人類表現 [36]。RAG 的主要挑戰之一是需要對其知識邊界有強烈的自我意識。在閉卷推理環境中,所有知識都嵌入在 LLM 內部,并且本質上是靜態的,無論問題如何分解或思維鏈(CoT)如何構建。相比之下,RAG 涉及通過檢索訪問的外部增強信息,可能改變系統的內部知識邊界。此外,檢索增加了額外的復雜性和不確定性,這些可能在多輪 RAG 系統的長推理序列中累積。
人類智能通過元認知(即知道自己不知道)來解決這個問題 [4,21]。人類可以在動態信息環境中(如使用搜索引擎時)持續評估自己的知識邊界,并根據需要調整搜索行為。每次查看檢索結果后,人類會評估是否已收集到足夠信息,決定是否需要進一步搜索,并發出新查詢以更好地滿足當前信息需求。
由于對噪聲敏感和對知識邊界的自我意識有限,元認知對 LLMs 來說具有挑戰性 [10,21]。如圖 1 所示,依賴 LLM 決定檢索輪數的系統會犯兩種錯誤:過度自信(由于信息不足導致錯誤答案)和過度檢索(過多干擾信息使 LLM 困惑并導致錯誤答案)。因此,多輪 RAG 的核心問題是 “知道自己不知道”,以便系統僅在必要時繼續搜索,或在可用信息不足以支持可信回答時避免回答。作為一個未充分探索的問題,最近的研究要么需要大量昂貴的人工標注監督數據 [45],要么產生次優性能 [1]。
圖1:多輪RAG系統的核心挑戰——確定檢索的最佳停止點并生成答案。#注釋:展示多輪RAG系統因過度自信(信息不足時停止)或過度檢索(冗余信息干擾)導致錯誤的典型案例,以北美高峰查詢為例說明“何時停止檢索”的關鍵問題。
RAG 系統的優化通常采用結果監督,直接將初始輸入與最終輸出對齊 [7,18]。雖然帶有簡單問答(QA)對的結果監督已被證明對單步 RAG 有效 [2,11],但當 LLM 可以快速學習將問題映射到其直接答案或查詢時,這似乎不足以學習多輪 RAG 環境中的最佳推理路徑,因為答案或下一輪查詢依賴于各輪的上下文。
機器學習研究人員最近發現,過程監督是在推理階段增強復雜推理任務自我意識的有前途的替代結果監督方法 [17,20,25]。通過從人工標注的 CoT 數據中訓練良好的獎勵模型,可以通過參數調整或無訓練的語言強化學習(RL)顯式監督中間推理步驟 [23,31,44]。信息檢索(IR)社區的早期嘗試 IM-RAG [45] 通過模擬人類內心獨白推理過程(即大腦中的多輪自我對話)探索了多輪 RAG 的過程監督。它通過演員 - 評論家 RL [16] 優化每個中間步驟的查詢或答案。盡管性能強大,但其訓練依賴昂貴的人工標注支持文檔來生成多輪推理和檢索訓練數據(即帶標簽的信息尋求鏈)。
標注訓練數據的缺乏是將過程監督廣泛應用于 RAG 的主要挑戰。與編碼或數學推理等其他 LLM 任務不同,RAG 任務中標注黃金推理鏈很困難,因為不同的 LLM 可能有不同的內部知識,即使在相同上下文中也會導致不同的信息需求。因此,人工標注的、與 LLM 無關的信息尋求鏈可能與 LLM 的行為和知識不一致,使得高質量的多輪 RAG 訓練數據標注成本高昂。
本工作解決了將過程監督應用于多輪 RAG 系統時的標注數據短缺問題。我們提出 SIM-RAG(基于內心獨白的檢索增強生成自我練習),這是一個實用的多輪框架,可以通過兩個階段學習。首先,在自我練習階段,我們通過提煉系統的內心獨白和相應的過程標簽來生成合成過程監督數據。這種內心獨白捕捉了系統各組件之間的內部復雜推理軌跡,也可以解釋為一種動態推理鏈。與使用最強模型生成接近人類質量數據的合成數據生成不同 [37],自我練習生成的數據反映了給定 AI 系統的能力。然后,在評論家訓練階段,我們使用生成的數據訓練一個特定于系統且上下文感知的評論家。當 SIM-RAG 系統在推理時使用時,評論家根據可用信息反復檢查知識邊界,并通過上下文中的 RL [31] 提供過程監督以優化 LLM 的行為,緩解過度自信和過度檢索問題。總之,我們的貢獻如下:
?為了在復雜推理中模擬類似人類的元認知,我們提出了 SIM-RAG 框架,該框架持續評估系統的知識邊界并相應調整搜索行為。通過使用信息充分性作為過程監督的指導原則,SIM-RAG 增強了 LLMs 的推理時思維能力,實現了復雜任務的動態多輪檢索和推理。
?為解決 RAG 系統訓練的數據挑戰,我們引入了自我練習算法(算法 1)。該算法生成合成訓練數據,為人工標注支持文檔或帶標簽的信息尋求鏈提供了低成本替代方案,并生成更準確反映給定 AI 系統當前能力的訓練數據。
?我們在三個標準基準上的實驗表明,SIM-RAG 是一種輕量級且有效的解決方案,能夠在各種問答場景中的復雜推理任務上實現穩健性能。
2、相關工作
2.1 檢索增強生成
檢索增強生成(RAG)通過在推理過程中檢索外部知識來增強大型語言模型(LLMs),解決了依賴固定預訓練知識庫和易產生幻覺等限制 [5]。預訓練 LLMs 通常缺乏最新或領域特定信息,而幻覺則在模型生成看似合理但錯誤的內容時出現。通過結合外部檢索,RAG 能夠提供更準確和有根據的響應。在標準 RAG 系統(也稱為單輪 RAG)中,檢索過程涉及使用用戶的問題或 LLM 生成的查詢來搜索知識庫 [2,11,28]。這些系統對于信息需求簡單的任務有效,所需信息可在單個檢索步驟中完全獲取,無需迭代推理或多輪交互。
然而,許多現實世界任務涉及動態和復雜推理,所需信息無法在單個步驟中檢索到。例如,回答問題可能需要綜合多個文檔的信息、澄清歧義或填補初始檢索中的空白。在這種情況下,單輪 RAG 系統無法滿足需求,因為它們缺乏迭代優化檢索和推理策略的機制 [38]。這推動了多輪檢索和推理系統的發展。
2.2 多輪 RAG
多輪 RAG 在處理需要與外部知識源進行迭代交互以優化響應的動態和復雜推理任務方面顯示出巨大潛力。然而,多輪 RAG 的核心挑戰是確定信息充分性 —— 決定何時檢索到的信息足以回答查詢,或是否需要進一步檢索步驟 [35,45]。現有關于多輪 RAG 的工作已經探索了各種技術來解決這一挑戰。
無訓練系統。無訓練方法因其靈活性和易于部署而受到歡迎,因為它們不需要特定于任務的優化,可以無縫集成到現有管道中。這些系統依賴 LLMs 的固有能力來決定何時停止檢索。一種方法涉及基于反思的自我批判 [31,38],其中模型通過精心設計的提示或上下文中的學習來評估自己的知識 [39,41]。該技術利用 LLMs 強大的預訓練知識,并允許使用任何 LLM 作為推理主干。然而,它本質上受到基礎模型限制的約束,包括產生幻覺或過度自信但錯誤響應的傾向 [33,46]。一些方法利用 LLMs 的內部狀態,如標記級注意力權重 [35] 或置信度分數 [48],來決定檢索充分性。這些信號可以提供對模型推理過程的洞察,但通常需要訪問模型權重,因此無法與閉源 LLMs 一起使用。此外,潛在表示缺乏可解釋性破壞了可信度,使得這些信號不太適合醫療保健等需要可信度的應用 [42]。
最近的研究探索了使用訓練良好的模型(如 GPT-4)作為獎勵模型 [24]。然而,由于缺乏特定于任務的優化,這種方法仍然受到獎勵模型固有預訓練偏差的限制 [34]。更廣泛地說,缺乏訓練是一把雙刃劍:雖然它簡化了部署并提高了易用性,但同時也限制了進一步性能提升的潛力。
可學習框架。過去兩年中提出了幾種多輪 RAG 的學習框架。最近的一項工作訓練了一個分類器,將用戶查詢的難度分為三類 [12],并對每類應用不同的檢索策略:簡單查詢無需檢索,中等難度查詢單步檢索,復雜查詢使用 IR-CoT [38]。由于該方法主要側重于選擇不同的檢索策略,因此與我們的工作不直接可比。相反,我們使用 IR-CoT 作為基線之一。Self-RAG [1] 受人類反饋強化學習(RLHF)[26] 概念的啟發。它首先使用高質量數據訓練一個單獨的評論家模型來評估信息充分性,然后對完整大小的 LLM 模型進行微調,使其具備自我批判能力。此外,Self-RAG 使用結果監督 [20] 而不是標準在線 RLHF 來生成包含觸發檢索操作的特殊標記的文本序列。盡管該方法顯示出潛力,但其巨大的數據和計算成本限制了其在部署和特定領域適應中的實用性 [43]。
最近,機器學習社區表明,監督中間推理步驟的過程監督 [20] 與結果監督相比,可以顯著改善多步推理任務 [17]。受這些發現的啟發,IR 研究人員提出了 IM-RAG [45],該框架通過近端策略優化(PPO)[29] 進行強化學習,以聯合優化多輪 RAG 中的推理鏈和檢索查詢(即學習模型的內心獨白)。IM-RAG 已顯示出顯著的性能改進。然而,該方法由于依賴昂貴的標注支持文檔來定義特定于數據集的基于規則的獎勵函數,且缺乏確定何時終止檢索過程的原則性機制,在更廣泛的適用性方面面臨挑戰。
2.3 復雜推理的 LLM 自訓練
隨著對新數據需求的增加,訓練后的最新進展已轉向使用模型生成的數據來改善推理(即自訓練)[9,32,50]。在這種范式中,LLMs 為給定輸入生成多個輸出,并使用獎勵信號來識別高質量樣本并對其進行訓練 [52]。這種迭代過程使模型能夠在不單純依賴人工標注數據的情況下提高推理能力。
與依賴 LLM 內部靜態知識的純語言任務(如常識推理)相比,將自訓練適應 RAG 存在一些新的復雜性。在多輪 RAG 環境中,新檢索到的信息會在每一輪改變知識邊界,附加信息可能支持或阻礙后續推理,并且由于 LLMs 對噪聲上下文的敏感性 [27],早期檢索中的錯誤可能會傳播到后續階段。優化 RAG 系統的自我意識需要確定當前知識是否足夠(何時檢索),并發出有效的查詢以獲取滿足當前需求的附加信息(檢索什么)。由于知識邊界隨輪次變化且添加了噪聲,與具有靜態知識的多步推理任務相比,多輪 RAG 在認知層次結構中需要更高水平的自我意識 [21]。這項工作試圖解決 RAG 系統在自訓練過程中面臨的這些獨特挑戰。
從業者在自訓練時使用 LLM 進行自我批判,將批判能力內在化。然而,研究界正在質疑 LLM 是否真正有足夠的自我意識來滿足自我批判 [10,33,34]。受這些發現的啟發,我們選擇使用外部評論家而不是自我批判。SIM-RAG 采用輕量級評論家,與 LLM 分離,并針對單一任務進行訓練:檢查信息充分性。
3、方法
本節介紹 SIM-RAG 框架,概述其在 3.1 節中的設計。然后,我們深入解釋框架訓練的兩個核心階段:內心獨白提煉和標注的自我練習(3.2 節)以及評論家訓練(3.3 節)。最后,我們闡述框架設計的總體原理及其推理方法(3.4 節)。
3.1 SIM-RAG
SIM-RAG 框架的概述如圖 2 所示,遵循推理時思維過程中的信息流。該系統包括三個主要組件:(1)推理器(Reasoner,LLM),根據上下文生成查詢或提供答案;(2)檢索器(Retriever,如搜索引擎),根據推理器的查詢檢索文檔;(3)可學習的評論家(Critic,輕量級判別模型),識別推理器當前的知識和推理何時不足。作為一個完全模塊化的系統,SIM-RAG 將這些組件組織成三個功能模塊,按推理時使用順序描述如下:
圖2:推理階段的SIM-RAG框架概覽(包含三個主要組件...)。#注釋:圖示SIM-RAG的推理器、檢索器、評論家三大組件及“答案生成-充分性檢查-信息檢索”迭代流程,用橙色和藍色路徑區分信息收集與答案生成的信息流。
1.答案生成:推理器(LLM)接收用戶的初始問題或任務 Q 以及先前檢索步驟中的任何可用上下文 c(第 0 輪時為空字符串)。推理器生成答案 A' 和相應的推理 r。盡管上下文最初為空,但推理器在后續輪次中受益于包含先前搜索查詢和檢索文檔的累積上下文。推理器在此階段的目標是基于當前所有可用信息生成最佳猜測答案。因此,為推理器選擇的模型可以是任何能夠回答問題的語言模型,前提是它能夠生成自然語言的答案和推理,供評論家后續評估。
2.充分性檢查:在復雜推理問題中,人類可以在進行長推理鏈時持續評估自己是否有足夠的信息和正確的答案。這種能力稱為元認知,使個體能夠在思維過程中監控和支持自己的推理。SIM-RAG 使用評論家來模擬類似的元認知功能。在收到推理器提出的答案 - 推理對(A', r)后,評論家將其與初始問題 Q 和當前上下文中的檢索文檔 c 一起檢查。如果評論家確定答案 A' 得到(Q, c, r)證據的充分支持,系統將 A' 作為最終答案返回給用戶。如果評論家判斷 A' 由于信息不足、檢索數據支持不足、與已知事實不一致或類似問題而不充分,系統將放棄當前嘗試并進入信息檢索模塊。這種設計通過確保僅向用戶返回充分支持的答案,幫助防止有缺陷的推理路徑傳播。
3.信息檢索:在評論家確定推理器無法基于所有可用信息回答問題后,系統觸發信息檢索模塊。推理器根據用戶的問題和當前上下文生成搜索查詢 q。然后將該查詢傳遞給檢索器,檢索器返回最相關的外部知識。搜索查詢和返回的文檔都附加到 c,c 將被輸入到下一輪答案生成。通過集成新檢索到的信息,推理器可能在后續迭代中更好地收斂到充分支持的答案。值得注意的是,此階段的推理器可以是與答案生成塊中相同或不同的 LLM。為簡單起見,在實驗中我們使用相同的 LLM 來生成查詢和答案,且不失一般性。然而,實際上,針對每個功能優化的 LLM 可能會產生更好的性能,因為生成好的答案可能需要與發出好的查詢不同的能力 [45]。
迭代框架:更新上下文 c 后,系統循環回答案生成階段,新檢索到的信息幫助擴展推理器的知識邊界。這個由每輪三個步驟組成的迭代過程模擬了類似人類的搜索和推理循環,不斷重新評估當前解釋的充分性,并在需要時動態尋求附加信息。答案生成、充分性檢查和信息檢索步驟重復進行,直到評論家確定答案充分可靠,或達到最大迭代次數以防止無限循環。這種循環的元認知設計旨在最大化最終響應的正確性和完整性。
3.2 自我練習
我們的訓練管道從收集用于評論家監督學習的訓練數據開始。考慮到評論家的任務,訓練數據應包含帶準確標簽的信息尋求鏈,并具有足夠的數量和多樣性,使評論家能夠學習如何評估中間步驟的信息充分性,并在現實場景中評估當前答案的正確性。然而,如第 1 節所述,信息充分性取決于 LLM 的知識和其他可用信息。因此,人工標注的、與模型無關的信息尋求鏈可能與內部知識范圍與標注者不一致的 LLM 的真實信息尋求行為不匹配。為解決這個問題,我們提出一種生成特定于模型且上下文感知的合成數據的方法,而非真實的人工標注數據。具體來說,我們讓 RAG 系統自我練習多輪檢索過程,為已知目標答案的給定問題找到正確答案。在這個練習過程中,推理器和檢索器之間的真實交互使我們能夠收集和標注內心獨白數據。
?算法 1 自我練習算法描述:該算法通過使 RAG 系統進行自我練習來生成帶標簽的內心獨白數據。它自動搜索、嘗試生成答案,并檢查每個動作序列生成的答案是否正確。
3.3 推理增強的評論家學習
通過任務特定微調,評論家從大量標注的內心獨白蒸餾數據中快速學習預測。
3.4 推理增強的推理
本節的目標是證明并詳細說明 3.2 和 3.3 節中引入的機制如何通過利用評論家的元認知反饋改進 RAG 的輸出。訓練后的評論家與推理器和檢索器的集成將 SIM-RAG 轉換為迭代推理框架,使其能夠基于反饋動態優化響應。基于 LLM 的推理器在多輪中的監督是語言強化學習(RL),其中評論家以自然語言(接受或拒絕)提供監督,而非數值獎勵或梯度更新。與傳統的基于策略的 RL 設置類似,這種語言強化將策略定義為代理的記憶編碼和所選 LLM 參數的組合 [31]。在我們的框架中,這種方法利用了上下文中學習的優勢 [3],因為推理器可以通過將評論家的反饋附加到其輸入來直接解釋并將其納入推理過程。這種上下文 RL 機制使推理器能夠根據??和??(包括評論家提供的監督)動態調整其行為和決策過程,而無需顯式參數更新。這保留了系統的模塊化并保持訓練輕量級。通過將迭代優化基于文本反饋,框架鼓勵推理路徑和檢索策略的有針對性改進。
從系統設計的角度來看,SIM-RAG 將評論家與推理器分離以避免自我批判偏差。在推理時,反饋和上下文更新的迭代循環反映了不確定性下的人類推理,其中知識缺口被逐步識別和解決。
4、實驗
4.1 任務和數據集
為了全面評估 SIM-RAG 在不同推理復雜度任務上的表現,我們在三個高度不同的數據集上進行實驗,涵蓋單跳和多跳 QA 任務。對于單跳 QA,我們使用 TriviaQA [15],這是一個廣泛使用的基準,專注于需要從維基百科單一證據片段進行推理的事實性問題。對于多跳 QA,我們使用 HotpotQA [47] 和 2WikiMultiHopQA [8]。HotpotQA 需要綜合多個文檔的信息來回答復雜問題,而 2WikiMultiHopQA 側重于區分密切相關的實體并納入細粒度證據。這些數據集挑戰了 SIM-RAG 在信息不足時的多輪檢索和推理能力。遵循標準評估方法,我們報告所有數據集的精確匹配(EM)和 F1 分數,使用每個數據集提供的維基媒體轉儲作為檢索語料庫。
4.2 實現細節
我們評估了使用 Llama3-8B 和 GPT-4 作為推理器的兩個版本的 SIM-RAG。為了微調評論家,我們使用兩種不同大小的 Flan-T5 模型,對應兩個版本的 SIM-RAG:完整版本(SIM-RAG_full)使用 Flan-T5-2.85B,輕量級版本(SIM-RAG_lite)使用 Flan-T5-783M。為了與其他知名 RAG 框架保持一致,我們在所有實驗中使用帶 Elasticsearch 的 BM25 作為檢索器。我們的管道可以用兩塊 NVIDIA 3090 GPU 或等效硬件復制。我們將提示、上下文中的示例和檢索的文檔數量視為超參數,并在我們的開源代碼庫中報告它們以促進可重復性。
4.3 基線
我們將 SIM-RAG 與八種基線方法進行比較(表 1)。Naive Generation [14] 和 Standard RAG [14] 是兩種基本方法。Naive Generation 完全依賴 LLM 的內部知識,不使用任何檢索,而 Standard RAG 使用初始問題作為查詢來檢索文檔,然后通過提示增強 LLM 的響應。我們報告了這兩種方法的 Llama3 和 GPT-4 版本基線,作為性能比較的參考點。SEAKR [48]、DRAGIN [35]、Self-RAG [1]、Auto-RAG [49]、FLARE [13]、IR-COT [38] 是更先進的多輪 RAG 方法。一些基線是基于提示的,另一些是可學習的。
基線包括兩組:(a)需要訪問 LLM 內部權重和開源模型的方法,(b)可以使用基于 API 的閉源模型的方法。在(a)組中,SEAKR [48] 和 DRAGIN [35] 不涉及微調;然而,它們依賴模型內部(如隱藏層 Gram 矩陣(SEAKR)或標記級注意力權重(DRAGIN))進行檢索。Self-RAG [1] 和 Auto-RAG [49] 微調 LLMs 以支持多輪檢索。雖然 Self-RAG 最初使用 Llama2,但我們根據其最近使用 Llama3 的復現 [14] 報告結果以進行公平比較。與需要訪問模型權重的 SEAKR、DRAGIN、Self-RAG 和 Auto-RAG 方法相比,SIM-RAG 提供了更大的靈活性,無需開源模型。
(b)組側重于適用于基于 API 的閉源 LLMs 的方法,主要依賴提示。FLARE [13] 利用下一個生成標記的概率或置信度分數來指導檢索,而 IR-CoT [38] 將檢索與中間 CoT 推理步驟交織,實現有效的多步問答。為了更好地比較,我們納入了使用 Llama3 的復現結果 [14]。使用 E5-base-v2 [40] 作為檢索器的基線可能由于更高質量的檢索引擎而具有優勢;然而,它們也需要更多 GPU 資源。
4.4 結果
表 1 總結了各種方法在三個廣泛使用的 RAG 數據集上的性能。使用 GPT-4 的 SIM-RAG_full 在所有三個數據集中始終表現最佳,大幅優于所有基線方法,包括需要對 LLMs 進行廣泛全模型微調的 Self-RAG 和 Auto-RAG。分組比較進一步突出了 SIM-RAG 的優勢。
對于多跳 QA 數據集,使用閉源 GPT-4 模型時,SIM-RAG_full 在 HotPotQA 和 2Wiki 上均實現最高性能。使用開源 Llama 模型時,Auto-RAG 在 2Wiki 上表現最佳,而 SIM-RAG_full 在 HotPotQA 上最高。Auto-RAG 微調 Llama3-8B 進行檢索決策,并使用學習的 E5 檢索器,而我們的方法僅微調較小的評論家并使用更簡單的 BM25 檢索器。如果優先考慮降低計算成本或使用閉源 LLM 模型,SIM-RAG 將是最佳選擇。
相比之下,對于單跳 QA,一個關鍵觀察是所有針對多輪 RAG 優化的高級基線在簡單的 TriviaQA 數據集上表現不佳。它們都無法匹配 Standard RAG 的性能,只有 Auto-RAG 和 FLARE 優于 Naive Generation。這暴露了這些方法的一個關鍵限制:優化復雜的多輪檢索任務似乎削弱了 LLM 在簡單任務上的能力。這可能是由于 LLM 的固有偏差,尤其是它們難以進行有效自我批判,如 2.2 節所述。這些挑戰導致過度自信或過度檢索,使 LLM 在簡單任務上的競爭力低于即使是具有固定檢索步驟數的標準 RAG 方法。相比之下,SIM-RAG 使用專門判斷 “何時停止迭代系統” 的外部模型。這一區別使使用 Llama3 的 SIM-RAG_full 在 EM 指標上顯著優于使用 Llama3 的 Standard RAG(70.7% vs. 58.9%)。同樣,使用 GPT-4 的 SIM-RAG_full 比 Standard RAG 基線實現了 16.0% 的絕對改進,相對改進 26.1%。
對評論家大小的研究進一步表明,即使使用輕量級評論家(783M),SIM-RAG 也是有效的。例如,在 HotPotQA 上,SIM-RAG_lite 顯著優于 Self-RAG(27.8% vs. 17.1%),同時僅使用十分之一的訓練參數(783M vs. 7B)。這些發現表明,即使是輕量級評論家也可以改善系統性能,盡管 SIM-RAG 可能從更大、更強大的評論家中受益,尤其是在復雜的多跳推理任務中。
4.5 評論家預測分析
為了進一步評估評論家的預測準確性,我們報告了使用 GPT-4 的 SIM-RAG 在 TriviaQA、HotPotQA 和 2Wiki 數據集上的二元分類性能混淆矩陣(圖 3)。清晰的對角線(真正例和真反例)突出了評論家基于真實答案正確預測是否接受推理器輸出的能力。結果顯示,評論家在所有數據集上均表現出強大的分類性能,尤其是在拒絕錯誤答案方面具有顯著高的準確性,HotPotQA 為 63.9%,2Wiki 為 65.0%。
圖3:使用GPT-4的SIM-RAG評論家預測混淆矩陣。#注釋:呈現評論家在TriviaQA、HotPotQA、2Wiki數據集上的分類性能,對角線顯示其正確接受/拒絕答案的能力,尤其在拒絕錯誤答案(真反例)上表現優異(HotPotQA 63.9%,2Wiki 65.0%)。
然而,單跳和多跳 QA 任務的真正例和真反例率差異顯著。在 TriviaQA 上,評論家正確接受答案的準確率為 60.3%,而在 HotPotQA 和 2Wiki 上,這一準確率降至 13.6%。這些差異是預期的,反映了數據集的不同特點。SIM-RAG 展示了跨數據集的適應能力,這可能歸因于合成訓練數據的分布,其中 TriviaQA 的正例比例高于多跳數據集。
4.6 消融研究和分析
評論家模型選擇的影響:我們進行了消融研究,探索更強大的通用模型(具有強問答能力)是否能成為更好的評論家。為此,我們在 SIM-RAG_lite 系統中用 GPT-4 替換 Flan-T5-783M 作為評論家,同時使用 GPT-4 作為推理器。在這種配置中,GPT-4 通過不同的提示設置同時充當推理器和評論家,這種方法在文獻中通常被稱為自我批判 [6]。比較結果如圖 4 所示。值得注意的是,與表 1 中討論的其他基線不同,作為評論家的 GPT-4 在 TriviaQA 上取得了強結果。這表明,對于簡單任務,SIM-RAG 可能使用像 GPT-4 這樣更通用、更強大的模型來實現可比的結果。然而,對于更復雜的多跳任務,差距顯著。如圖所示,作為評論家的 GPT-4 在 EM 和 F1 指標上均顯著低于 Flan-T5。這一發現與數學推理領域的觀察結果一致 [10],即 LLMs 在涉及復雜推理的任務中往往難以提供可靠的自我批判。我們懷疑,通用 LLM 作為評論家可能過于自信,并產生過多假正例。對于多輪 QA 任務,這是一個更嚴重的問題,因為推理器的實際 “正確” 預測百分比很低(如圖 3 的混淆矩陣所示)。
圖4:不同評論家模型選擇的消融研究。#注釋:對比Flan-T5與GPT-4作為評論家的性能,發現GPT-4在簡單任務(TriviaQA)表現接近,但在復雜多跳任務中因過度自信導致EM/F1顯著低于Flan-T5。
內心獨白輪數分析:如 3.1 節所述,SIM-RAG 自我練習算法(算法 1)在自我練習和推理過程中定義了一個任意的最大檢索輪數 T。然而,在實踐中,輪數通常保持相對較低,以平衡推理成本(時間和計算資源)與性能,同時考慮 LLM 能力的固有局限性(第 5 節有更多細節)。為了更好地理解超參數 T 的影響,我們進行了消融研究,將 T 從 0 到 6 進行變化。為了節省計算時間,該實驗在 HotPotQA 開發集的子集上進行,該子集包含來自先前建立的 RAG 評估基準的 500 個問題 [53]。
圖 5 顯示,較大的 T 導致更好的性能,并且通過優化該超參數,SIM-RAG 的性能有很大提升空間。綠線代表 Naive Generation 基線,為 LLM 的零樣本性能提供了參考點。藍線顯示了 SIM-RAG_lite 在不同輪次設置下的實際性能,反映了系統迭代優化答案的能力。最后,紅線表示使用 Oracle 評論家可實現的性能上限,該評論家可以訪問真實標簽以確定是否接受當前答案作為系統輸出。
圖5:HotPotQA數據集上不同內心獨白輪數的消融研究。#注釋:分析最大檢索輪數T對性能的影響,顯示T越大SIM-RAG性能越好,T=6時較基線(Naive Generation)EM提升10.1%,紅線(Oracle評論家)標注理論上限,表明優化T值的潛力。
在最后一輪,SIM-RAG 比 Naive Generation 提高了 10.1%,對應 50.5% 的相對增益。值得注意的是,使用 Oracle 評論家達到 47.2%,這代表了在不修改推理器的情況下 SIM-RAG 的理論上限。這凸顯了通過更好或更大的評論家進一步改進 SIM-RAG 的潛力,如 4.4 節所述。
當 T=0 時,SIM-RAG 產生的精確匹配答案少于 Naive Generation,主要是因為評論家偶爾會拒絕正確答案。這一結果是預期的,因為 SIM-RAG 旨在在證據不足時避免提供答案,從而減少幻覺(即假正例),但代價是偶爾抑制正確響應(即真正例或精確匹配答案)。由于評論家的上下文長度限制,我們在實驗中將 T 限制為 6。然而,隨著擴展語言模型上下文窗口的不斷進步,這一限制預計在未來會變得不那么嚴格。
自我練習數據分析:圖 1 可視化了自我練習期間生成的內心獨白軌跡。這些軌跡有助于形成豐富多樣的訓練集,自然涵蓋信息不足和過度檢索的情況。特別是,自我練習數據捕捉了檢索決策如何影響推理結果。如四個示例所示,0 輪和 1 輪軌跡由于缺少證據而顯示錯誤預測,而 2 輪軌跡在檢索到足夠信息時顯示正確預測。此外,3 輪軌跡顯示過度檢索如何引入無關信息,使模型無法正確預測。與人類不同,人類可以選擇性地關注相關信息,而 LLMs 對噪聲 [30]、誤導性 [51] 甚至過長 [22] 的輸入高度敏感。因此,檢索更多信息并不總是對 LLMs 有益。這一特性凸顯了信息充分性檢查的重要性,并解釋了為什么自我練習數據在 SIM-RAG 中具有價值。
5、討論
5.1 優勢與不足
任務表現:如 4.4 節所示,SIM-RAG 在處理從簡單單輪檢索到多輪推理的不同復雜度 RAG 任務時表現出色。其靈活性使其能夠持續優于傳統基線。
領域適應性:與大多數 LLM 的無訓練領域適應方法一樣,SIM-RAG 在與推理器預訓練語料庫一致的任務上表現良好,但可能在領域特定行話或高度專業術語方面面臨挑戰。另一方面,評論家是特定于系統的。行為驅動的訓練(5.2 節討論)確保其與生成合成訓練數據的系統(算法 1)良好對齊。然而,如果 RAG 系統的任何主要組件(如推理器或檢索器)被替換或顯著更新,評論家可能需要重新訓練以保持最佳性能。
計算成本:SIM-RAG 的計算成本包括兩個主要部分:訓練和推理。對于訓練,主要計算開銷來自數據生成和評論家學習。數據生成階段需要 (T×N) 次大型模型推理,其中 T 代表預定義的最大檢索輪數,N 表示源數據集的大小。評論家訓練階段遵循監督學習的標準資源需求。在推理期間,效率取決于推理器的能力。如果問題與 LLM 的預訓練知識一致,SIM-RAG 效率較高。然而,對于不熟悉的領域,SIM-RAG 可能需要更多輪次,這凸顯了領域適應對于優化性能和減少推理時間的重要性。
失敗案例:圖 1 提供了一個示例,說明我們的系統如何因評論家拒絕響應而受益或受阻,如 3 輪示例中的過度檢索導致的錯誤拒絕。除了評論家的行為外,如圖 5 所示,即使是 Oracle 評論家也準確率較低,這表明失敗還源于更廣泛的限制,包括數據集的固有難度(挑戰推理器的知識和生成有效搜索查詢的能力)以及檢索器的質量。
5.2 評論家學習
從我們的實證研究中,我們發現引入評論家是一個比解決任務本身更簡單的問題。先前的研究表明,Flan-T5-783M(SIM-RAG_lite 中的評論家)通過在訓練數據集上直接微調難以處理復雜任務 [19]。Flan-T5-783M 通過微調在 HotPotQA 數據集上僅實現 14.7% 的 EM 分數,而零樣本 Llama3 實現 20.1%。然而,Flan-T5-783M 可以在 SIM-RAG 中訓練,為更強大的 LLMs(Llama3 和 GPT-4)充當評論家。一種可能的原因是,評論家只需建模問題、查詢、檢索文檔、LLM 的預測答案和推理依據與該預測的正確性之間的關系。也就是說,評論家不一定需要 “知道” 正確答案或如何生成正確答案;相反,它的任務更簡單,即學習評估 LLM 輸出的連貫性和有效性。
6、結論與未來工作
在本文中,我們提出了 SIM-RAG 框架,這是一種輕量級但有效的方法,通過添加評論家模塊優化多輪 RAG。該框架可以與閉源和開源 RAG 系統配合使用,在實際應用中提供了極大的靈活性。由于 SIM-RAG 不修改 LLM 的參數,它作為 RAG 系統的推理時增強,目標類似于 OpenAI 的 o1,但通過根本不同的機制實現。特別是,這項工作引入了一種新的自我練習算法來生成合成數據,解決了特定于系統的多輪推理和檢索訓練數據標注的短缺問題。在三個標準基準上的實驗驗證了 SIM-RAG 的有效性。
這項工作為生成式 AI 的未來增強開辟了額外的機會。盡管 SIM-RAG 是一種無需訪問 LLM 權重的輕量級方法,但我們認識到,訓練后的評論家有可能在未來的工作中用作獎勵模型,通過基于策略的演員 - 評論家強化學習(如 RLHF)優化 RAG 的其他組件(檢索器、推理器等)。此外,AI 系統識別自身局限性的能力 ——“知道自己不知道”—— 對于減少幻覺并增強可信度和可靠性至關重要。盡管本文側重于多輪 RAG,但我們期望新的自我練習和評論家訓練技術將廣泛應用于其他 AI 問題。
本文轉載自??AIRoobt?? ,作者:Diji Yang等
