Search-R1:強化學習增強大語言模型推理+搜索能力
研究背景是大語言模型雖然厲害,但在做復雜推理和獲取最新信息時不太給力?,F(xiàn)有的和搜索引擎結(jié)合的方法,像檢索增強生成和把搜索引擎當工具用,都有各自的問題。重要意義在于提出的SEARCH - R1框架能讓大語言模型在推理的時候更好地利用搜索引擎,提高解決復雜問題的能力,而且還對相關訓練策略有新的發(fā)現(xiàn),對大語言模型的發(fā)展有很大幫助。
文章針對大語言模型(LLMs)在復雜推理和獲取外部最新信息方面的不足,提出SEARCH - R1強化學習框架。該框架將搜索引擎融入大語言模型的推理過程,通過多輪搜索交互優(yōu)化模型輸出,采用檢索令牌掩碼穩(wěn)定訓練,并設計簡單有效的結(jié)果獎勵函數(shù)。在七個問答數(shù)據(jù)集上的實驗顯示,與基線模型相比,SEARCH - R1使用不同大語言模型時性能均有顯著提升。同時,文章還對強化學習方法、模型選擇和響應長度等方面進行了分析,為搜索增強推理的強化學習訓練策略提供了見解 。
摘要&解讀
高效獲取外部知識和最新信息對于大語言模型(LLMs)進行有效的推理和文本生成至關重要。將搜索引擎視為工具的檢索增強和工具使用訓練方法,缺乏復雜的多輪檢索靈活性,或者需要大規(guī)模的監(jiān)督數(shù)據(jù)。在推理過程中,促使具有推理能力的先進大語言模型使用搜索引擎也并非最優(yōu)選擇,因為大語言模型并未學會如何以最優(yōu)方式與搜索引擎進行交互。本文介紹了SEARCH - R1,這是DeepSeek - R1模型的擴展,其中大語言模型僅通過強化學習(RL),在逐步推理過程中自主生成(多個)搜索查詢,并進行實時檢索。SEARCH - R1通過多輪搜索交互優(yōu)化大語言模型的滾動輸出,利用檢索到的令牌掩碼來穩(wěn)定強化學習訓練,并使用基于簡單結(jié)果的獎勵函數(shù)。在七個問答數(shù)據(jù)集上的實驗表明,與最先進的基線模型相比,SEARCH - R1使性能提高了26%(Qwen2.5 - 7B)、21%(Qwen2.5 - 3B)和10%(LLaMA3.2 - 3B)。本文進一步對強化學習優(yōu)化方法、大語言模型的選擇以及檢索增強推理中的響應長度動態(tài)提供了實證見解。代碼和模型檢查點可在https://github.com/PeterGriffinJin/Search - R1獲取。
?研究背景:大語言模型在自然語言處理領域取得顯著成果,但在復雜推理和獲取外部最新信息方面存在不足?,F(xiàn)有整合搜索引擎的方法,如檢索增強生成和將搜索引擎視為工具,存在檢索不準確、缺乏多輪檢索靈活性或依賴大規(guī)模監(jiān)督數(shù)據(jù)等問題。強化學習雖已用于提升大語言模型推理能力,但在搜索與推理場景的應用面臨框架和穩(wěn)定性、多輪交錯推理和搜索、獎勵設計等挑戰(zhàn)。
?創(chuàng)新貢獻:提出SEARCH - R1強化學習框架,將搜索引擎建模為環(huán)境一部分,支持大語言模型滾動輸出和強化學習優(yōu)化;引入檢索令牌掩碼穩(wěn)定訓練,實現(xiàn)多輪交錯推理和搜索以處理復雜任務;設計簡單有效的基于結(jié)果的獎勵函數(shù)。實驗證明SEARCH - R1能顯著提升大語言模型在復雜推理任務中的性能,且在不同基礎大語言模型上具有通用性,并對強化學習訓練策略提供見解。
?實現(xiàn)設計:
結(jié)合搜索引擎的強化學習:基于近端策略優(yōu)化(PPO)和組相對策略優(yōu)化(GRPO),通過引入檢索交錯推理和檢索令牌掩碼,優(yōu)化大語言模型在搜索與推理任務中的決策。
交錯多輪調(diào)用搜索引擎的文本生成:大語言模型在文本生成和搜索引擎查詢間交替,用特定令牌標識搜索查詢、檢索結(jié)果和推理步驟,實現(xiàn)結(jié)構(gòu)化迭代決策。
訓練模板:設計簡單模板引導大語言模型按推理、搜索、回答的結(jié)構(gòu)輸出,避免內(nèi)容偏差,保證模型學習動態(tài)的可觀察性和無偏差性。
獎勵建模:采用基于規(guī)則的結(jié)果獎勵系統(tǒng),以精確字符串匹配等方式評估模型響應正確性,避免復雜格式獎勵和神經(jīng)獎勵模型帶來的問題。
?實驗結(jié)果:在七個問答數(shù)據(jù)集上對SEARCH - R1進行評估,與多種基線方法對比。結(jié)果顯示,SEARCH - R1在使用Qwen2.5 - 7B、Qwen2.5 - 3B和LLaMA3.2 - 3B模型時,平均相對提升分別為26%、21%和10%,在域內(nèi)和域外評估中均表現(xiàn)出色。不同強化學習方法中,GRPO收斂快但在部分模型上不穩(wěn)定,PPO更穩(wěn)定,二者最終獎勵相當且GRPO整體性能更優(yōu)。指令調(diào)整模型收斂更快,基礎模型和指令調(diào)整模型最終性能相似。對響應長度和檢索令牌損失掩碼的研究也得到相應結(jié)論,案例研究展示了SEARCH - R1在推理和自我驗證方面的優(yōu)勢。
1.引言
近年來,大語言模型(LLMs)在自然語言理解和生成方面展現(xiàn)出了卓越的能力(Hendrycks等人,2020;Clark等人,2018)。盡管取得了這些成就,但大語言模型在處理復雜推理(Wei等人,2022)以及從外部來源檢索最新信息(Jin等人,2024)時,常常會遇到挑戰(zhàn)。為了解決這些限制,有必要整合先進的推理能力(Huang和Chang,2022)以及與搜索引擎有效交互的能力(Schick等人,2023)。
現(xiàn)有的將大語言模型與搜索引擎整合的方法通常分為兩類:(1)檢索增強生成(RAG)(Gao等人,2023;Lewis等人,2020)和(2)將搜索引擎視為工具(Yao等人,2023;Schick等人,2023)。檢索增強生成(RAG)根據(jù)輸入查詢檢索相關段落,并將其整合到大語言模型的上下文以進行生成(Lewis等人,2020)。這使得大語言模型在回答問題時能夠利用外部知識。然而,檢索增強生成(RAG)受到檢索不準確的限制(Jin等人,2024),并且缺乏多輪、多查詢檢索的靈活性,而這對于復雜推理任務至關重要(Yang等人,2018)。另外,大語言模型可以在推理過程中被促使或訓練去使用包括搜索引擎在內(nèi)的工具(Qu等人,2025;Trivedi等人,2022a)。然而,基于提示的方法通常在泛化方面存在困難,因為某些任務可能在大語言模型預訓練期間未遇到過。另一方面,基于訓練的方法具有更強的適應性,但依賴于大規(guī)模、高質(zhì)量的搜索與推理交互的帶注釋軌跡,這使得它們難以有效擴展(Schick等人,2023)。
強化學習(RL)(Sutton等人,1999;Kaelbling等人,1996)已成為增強大語言模型推理能力的有力范式(Guo等人,2025;Hou等人,2025;Xie等人,2025;Kumar等人,2024)。值得注意的是,像OpenAI - o1(Jaech等人,2024)和DeepSeek - R1(Guo等人,2025)這樣的模型已經(jīng)利用強化學習技術(例如近端策略優(yōu)化(PPO)(Schulman等人,2017)和組相對策略優(yōu)化(GRPO)(Shao等人,2024)),通過從經(jīng)驗和反饋中學習來提高邏輯推理和問題解決能力。經(jīng)過強化學習后,即使僅在結(jié)果獎勵上進行訓練,模型也能學習到復雜的推理能力,包括自我驗證(Weng等人,2022)和自我修正(Kumar等人,2024)。
然而,將強化學習應用于搜索與推理場景存在三個關鍵挑戰(zhàn):(1)強化學習框架和穩(wěn)定性——目前尚不清楚如何在確保穩(wěn)定優(yōu)化的同時,有效地將搜索引擎整合到大語言模型強化學習框架中,特別是在整合檢索到的上下文時。(2)多輪交錯推理和搜索——理想情況下,大語言模型應該能夠進行迭代推理和調(diào)用搜索引擎,根據(jù)問題的復雜性動態(tài)調(diào)整其檢索策略。(3)獎勵設計——為搜索與推理任務設計一個有效的獎勵函數(shù)并非易事,因為傳統(tǒng)的獎勵公式可能無法很好地適用于這一新范式。
為了解決這些挑戰(zhàn),我們引入了SEARCH - R1,這是一種新穎的強化學習框架,使大語言模型能夠在自身推理過程中與搜索引擎進行交錯交互。具體而言,SEARCH - R1引入了以下關鍵創(chuàng)新:(1)我們將搜索引擎建模為環(huán)境的一部分,實現(xiàn)了將大語言模型令牌生成與搜索引擎檢索交錯進行的滾動輸出序列。SEARCH - R1與各種強化學習算法兼容,包括近端策略優(yōu)化(PPO)和組相對策略優(yōu)化(GRPO),并且我們應用檢索到的令牌掩碼來確保穩(wěn)定的優(yōu)化。(2)SEARCH - R1支持多輪檢索和推理,其中搜索調(diào)用由??<search>?
??和??</search>?
??令牌明確觸發(fā)。檢索到的內(nèi)容包含在??<information>?
??和??</information>?
??令牌內(nèi),而大語言模型的推理步驟則包含在??<think>?
??和??</think>?
??令牌內(nèi)。最終答案使用??<answer>?
??和??</answer>?
?令牌進行格式化,從而實現(xiàn)結(jié)構(gòu)化的迭代決策。(3)我們采用簡單的基于結(jié)果的獎勵函數(shù),避免了基于過程的獎勵的復雜性。我們的結(jié)果表明,這種極簡的獎勵設計在搜索與推理場景中是有效的。SEARCH - R1可以看作是DeepSeek - R1(Guo等人,2025)的擴展,后者主要側(cè)重于參數(shù)推理,而SEARCH - R1通過引入搜索增強的強化學習訓練,來增強檢索驅(qū)動的決策能力。總之,我們的主要貢獻有三點:
- ? 我們明確了將強化學習應用于大語言模型調(diào)用搜索引擎進行推理時所面臨的挑戰(zhàn)。
- ? 我們提出了SEARCH - R1,這是一種新穎的強化學習框架,支持大語言模型的滾動輸出和與搜索引擎的強化學習優(yōu)化,包括使用檢索到的令牌掩碼來穩(wěn)定強化學習訓練、多輪交錯推理和搜索以支持復雜任務的解決,以及一個簡單而有效的結(jié)果獎勵函數(shù)。
- ? 我們進行了系統(tǒng)的實驗,證明了SEARCH - R1的有效性,在使用三種大語言模型時,相較于最先進的基線模型,平均相對提升分別為26%、21%和10%。此外,我們對用于推理和搜索設置的強化學習提供了見解,包括強化學習方法的選擇、不同大語言模型的選擇以及響應長度的研究。
2.相關工作
2.1 大語言模型與檢索
盡管大語言模型(LLMs)(Zhao等人,2023;團隊,2024;Achiam等人,2023)已展示出卓越的推理(Guo等人,2025)和編碼(Guo等人,2024)能力,但它們?nèi)匀蝗狈μ囟I域的知識(Peng等人,2023;Li等人,2023),并且容易產(chǎn)生幻覺(Zhang等人,2023)。為了解決這些限制,搜索引擎(Zhao等人,2024)被廣泛用于提供外部信息。將搜索引擎與大語言模型整合主要有兩種方式:(1)檢索增強生成(RAG)(Gao等人,2023)和(2)將搜索引擎視為工具(Schick等人,2023)。檢索增強生成(RAG)(Lewis等人,2020;Yue等人,2024;Xiong等人,2025)通常遵循一輪檢索和順序生成的流程,搜索引擎根據(jù)輸入查詢獲取相關信息,然后將其與查詢連接并輸入到大語言模型中。然而,這種流程存在諸如檢索到不相關信息(Jin等人,2024)以及無法提供足夠有用的上下文(Jiang等人,2023)等問題。另一種方法是將搜索作為工具,即促使或微調(diào)大語言模型與搜索引擎進行交互。IRCoT(Trivedi等人,2022a)和ReAct(Yao等人,2023)使用提示來指導迭代推理和搜索引擎調(diào)用,而Toolformer(Schick等人,2023)則利用監(jiān)督微調(diào)來增強搜索能力。然而,這些方法依賴于高質(zhì)量的帶標簽軌跡,難以擴展。最近的研究(Guo等人,2025)表明,強化學習可以使大語言模型僅使用結(jié)果獎勵就開發(fā)出先進的推理技能,但其在調(diào)用搜索引擎場景中的潛力仍有待探索。
2.2 大語言模型與強化學習
強化學習(RL)(Kaelbling等人,1996)是一種學習范式,智能體通過與環(huán)境交互并以獎勵的形式接收反饋來學習進行順序決策,旨在最大化隨時間累積的獎勵(Sutton等人,1999)。Ouyang等人(2022)通過人類反饋強化學習(RLHF)(Kaufmann等人,2023)將強化學習引入大語言模型的微調(diào)。這種方法首先使用人類偏好數(shù)據(jù)訓練一個獎勵模型(Lambert等人,2024),然后通常通過近端策略優(yōu)化(PPO)算法指導基于強化學習的策略大語言模型的微調(diào)。然而,近端策略優(yōu)化(PPO)涉及多輪大語言模型優(yōu)化,實施起來具有挑戰(zhàn)性。為了簡化基于強化學習的微調(diào),已經(jīng)提出了直接優(yōu)化方法,如直接偏好優(yōu)化(DPO)(Rafailov等人,2023)和SimPO(Meng等人,2024)。雖然這些方法提供了計算效率,但它們存在離策略問題(Pang等人,2024),并且性能并不總是能與純強化學習方法相媲美。其他替代解決方案包括組相對策略優(yōu)化(GRPO)(Shao等人,2024),它通過從組分數(shù)估計基線來消除對評論家模型的需求,以及RLOO(Ahmadian等人,2024),它引入了一種簡化的REINFORCE風格(Williams,1992)優(yōu)化框架。盡管取得了這些進展,但強化學習在大語言模型驅(qū)動的搜索引擎交互和推理中的應用在很大程度上仍未得到探索。
3.Search-R1
在以下部分,我們將介紹SEARCH - R1的詳細設計,包括:(1)結(jié)合搜索引擎的強化學習;(2)交錯多輪調(diào)用搜索引擎的文本生成;(3)訓練模板;(4)獎勵模型設計。
3.1 結(jié)合搜索引擎的強化學習
我們的方法基于兩種成熟的策略梯度強化學習方法:近端策略優(yōu)化(PPO)(Schulman等人,2017)和組相對策略優(yōu)化(GRPO)(Shao等人,2024;Guo等人,2025),利用它們各自的優(yōu)勢來優(yōu)化檢索增強推理。
檢索令牌的損失掩碼
在近端策略優(yōu)化(PPO)和組相對策略優(yōu)化(GRPO)中,令牌級損失是在整個滾動輸出序列上計算的。在SEARCH - R1中,滾動輸出序列既包含大語言模型生成的令牌,也包含從外部文本中檢索到的令牌。雖然優(yōu)化大語言模型生成的令牌可以增強模型與搜索引擎交互和進行推理的能力,但對檢索到的令牌應用相同的優(yōu)化可能會導致意外的學習動態(tài)。為了解決這個問題,我們引入了檢索令牌的損失掩碼,確保策略梯度目標僅在大語言模型生成的令牌上計算,同時將檢索到的內(nèi)容排除在優(yōu)化過程之外。這種方法在保持搜索增強生成靈活性的同時,穩(wěn)定了訓練。
PPO+搜索引擎
近端策略優(yōu)化(PPO)(Schulman等人,2017)是一種流行的演員 - 評論家強化學習算法,通常用于在強化學習階段對大語言模型(LLMs)進行微調(diào)(Ouyang等人,2022)。在我們的推理加搜索引擎調(diào)用場景中,它通過最大化以下目標來優(yōu)化大語言模型:
3.2 交錯多輪調(diào)用搜索引擎的文本生成
我們的方法遵循迭代框架,大語言模型在文本生成和外部搜索引擎查詢之間交替進行。具體來說,每當需要外部檢索時,系統(tǒng)指令會引導大語言模型在兩個指定的搜索調(diào)用令牌??<search>?
??和??</search>?
??之間封裝其搜索查詢。系統(tǒng)在生成的序列中檢測到這些令牌后,會提取搜索查詢,查詢搜索引擎,并檢索相關結(jié)果。檢索到的信息隨后被封裝在特殊的檢索令牌??<information>?
??和??</information>?
??內(nèi),并附加到正在進行的展開序列中,作為下一個生成步驟的額外上下文。這個過程會迭代繼續(xù),直到滿足以下條件之一:(1)搜索引擎調(diào)用預算耗盡;(2)模型生成最終響應,該響應被封裝在指定的答案令牌??<answer>?
??和??</answer>?
?之間。完整的工作流程如算法1所示。
3.3 訓練模板
為了訓練SEARCH - R1,我們首先創(chuàng)建一個簡單的模板,指導初始大語言模型遵循我們預定義的指令。如表1所示,這個模板以迭代的方式將模型的輸出結(jié)構(gòu)化為三個部分:首先是推理過程,然后是搜索引擎調(diào)用函數(shù),最后是答案。我們特意將約束限制在這種結(jié)構(gòu)格式上,避免任何特定內(nèi)容的偏差,例如強制進行反思性推理和搜索引擎調(diào)用,或者支持特定的問題解決方法。這確保了在強化學習過程中,模型的自然學習動態(tài)保持可觀察且無偏差。
回答給定的問題。每次獲得新信息時,你必須首先在??<think>?
??和??</think>?
??內(nèi)進行推理。推理之后,如果你發(fā)現(xiàn)自己缺少某些知識,可以通過??<search>查詢</search>?
??調(diào)用搜索引擎,它將在??<information>?
??和??</information>?
??之間返回搜索到的頂級結(jié)果。你可以根據(jù)需要多次進行搜索。如果你認為不再需要外部知識,可以直接在??<answer>?
??和??</answer>?
??內(nèi)給出答案,無需詳細說明。例如,??<answer>北京</answer>?
?。問題:[具體問題]
表1:SEARCH - R1的模板。在訓練和推理過程中,“問題”將被具體問題替換。
3.4 獎勵建模
獎勵函數(shù)是強化學習中指導優(yōu)化過程的主要訓練信號。為了訓練SEARCH - R1,我們采用基于規(guī)則的獎勵系統(tǒng),該系統(tǒng)僅由最終結(jié)果獎勵組成,用于評估模型響應的正確性。例如,在事實推理任務中,可以使用基于規(guī)則的標準(如精確字符串匹配)來評估正確性。其中是從響應中提取的最終答案,是真實答案。與Guo等人(2025)不同,我們不納入格式獎勵,因為我們訓練的模型已經(jīng)表現(xiàn)出很強的結(jié)構(gòu)遵循性。我們將更復雜格式獎勵的探索留作未來工作。此外,我們有意避免訓練用于結(jié)果或過程評估的神經(jīng)獎勵模型,這與Guo等人(2025)的做法一致。做出這一決定的原因是,在大規(guī)模強化學習中,神經(jīng)獎勵模型容易受到獎勵作弊的影響,同時重新訓練這些模型會帶來額外的計算成本和復雜性。
4 主要結(jié)果
4.1 數(shù)據(jù)集
我們在七個基準數(shù)據(jù)集上評估SEARCH - R1,這些數(shù)據(jù)集分類如下:
?通用問答:自然問題(NQ)(Kwiatkowski等人,2019)、瑣事問答(TriviaQA)(Joshi等人,2017)和流行文化問答(PopQA)(Mallen等人,2022)。
?多跳問答:火鍋問答(HotpotQA)(Yang等人,2018)、2維基多跳問答(2WikiMultiHopQA)(Ho等人,2020)、音樂問答(Musique)(Trivedi等人,2022b)和Bamboogle(Press等人,2022)。
這些數(shù)據(jù)集涵蓋了各種搜索與推理挑戰(zhàn),能夠在單輪和多跳檢索場景中全面評估SEARCH - R1。
4.2 基線
為了評估SEARCH - R1的有效性,我們將其與以下基線方法進行比較:
?無檢索推理:直接推理和思維鏈(CoT)推理(Wei等人,2022)。
?有檢索推理:檢索增強生成(RAG)(Lewis等人,2020)、IRCoT(Trivedi等人,2022a)和Search - o1(Li等人,2025)。
?基于微調(diào)的方法:監(jiān)督微調(diào)(SFT)(Chung等人,2024)和基于強化學習但不使用搜索引擎的微調(diào)(R1)(Guo等人,2025)。
這些基線涵蓋了廣泛的檢索增強和微調(diào)方法,能夠在零樣本和學習檢索設置中全面評估SEARCH - R1。為了在不同方法之間進行公平比較,我們使用相同的檢索器、知識語料庫、訓練數(shù)據(jù)和大語言模型。更多細節(jié)見4.3節(jié)。
4.3 實驗設置
我們使用三種類型的模型進行實驗:Qwen - 2.5 - 3B(基礎/指令)和Qwen - 2.5 - 7B(基礎/指令)(Yang等人,2024),以及Llama - 3.2 - 3B(基礎/指令)(Dubey等人,2024)。對于檢索,我們使用2018年的維基百科轉(zhuǎn)儲(Karpukhin等人,2020)作為知識源,并使用E5(Wang等人,2022)作為檢索器。為確保公平比較,我們遵循Lin等人(2023)的方法,將所有基于檢索的方法中檢索到的段落數(shù)量設置為三個。
在訓練方面,我們將自然問題(NQ)和火鍋問答(HotpotQA)的訓練集合并,為SEARCH - R1和其他基于微調(diào)的基線方法形成一個統(tǒng)一的數(shù)據(jù)集。在所有七個數(shù)據(jù)集的測試集或驗證集上進行評估,以評估域內(nèi)和域外性能。遵循Yu等人(2024)的方法,使用精確匹配(EM)作為評估指標。對于推理風格的基線方法,我們使用指令模型,因為基礎模型無法遵循指令。對于強化學習微調(diào)方法,在基礎模型和指令模型上都進行實驗。
在SEARCH - R1訓練中,近端策略優(yōu)化(PPO)訓練時,策略大語言模型的學習率設置為,價值大語言模型的學習率設置為。廣義優(yōu)勢估計(GAE)參數(shù),。在組相對策略優(yōu)化(GRPO)訓練中,策略大語言模型的學習率設置為,每個提示采樣五個響應。我們使用精確匹配(EM)計算結(jié)果獎勵。除非另有說明,近端策略優(yōu)化(PPO)作為默認的強化學習方法,5.1節(jié)將提供近端策略優(yōu)化(PPO)和組相對策略優(yōu)化(GRPO)之間的詳細比較。
4.4 性能
表2展示了在七個數(shù)據(jù)集上SEARCH - R1與基線方法比較的主要結(jié)果。從結(jié)果中,我們得出以下關鍵觀察:
? SEARCH - R1始終優(yōu)于強大的基線方法。使用Qwen2.5 - 7B、Qwen2.5 - 3B和LLaMA3.2 - 3B時,我們分別實現(xiàn)了26%、21%和10%的平均相對提升。這些提升在分布內(nèi)評估(即自然問題(NQ)和火鍋問答(HotpotQA))和分布外評估(即瑣事問答(TriviaQA)、流行文化問答(PopQA)、2維基多跳問答(2WikiMultiHopQA)、音樂問答(Musique)和Bamboogle)中均成立。
? SEARCH - R1優(yōu)于不進行檢索的大語言模型推理的強化學習訓練方法(R1)(Guo等人,2025)。這符合預期,因為將搜索納入大語言模型推理可以獲取相關的外部知識,從而提高整體性能。
? SEARCH - R1對基礎模型和指令調(diào)整后的模型均有效。這表明,基于結(jié)果獎勵的DeepSeek - R1 - Zero風格強化學習(Guo等人,2025)可以成功應用于結(jié)合搜索的推理,擴展了其先前在純推理場景中已證實的有效性。
? SEARCH - R1在不同的基礎大語言模型(包括Qwen2.5和LLaMA3.2)上具有通用性。這與數(shù)學推理中強化學習的研究結(jié)果形成對比,在數(shù)學推理中,強化學習僅對某些基礎大語言模型有效(Zeng等人,2025)。我們的結(jié)果表明,搜索增強的強化學習在不同模型系列中具有更廣泛的適用性。
5 分析
5.1 不同的強化學習方法:PPO與GRPO
我們使用近端策略優(yōu)化(PPO)和組相對策略優(yōu)化(GRPO)作為基礎強化學習方法對SEARCH - R1進行評估,并在LLaMA3.2 - 3B和Qwen2.5 - 3B模型上進行實驗。圖2展示了訓練動態(tài)的比較,揭示了以下見解:
? GRPO在所有情況下都比PPO收斂得更快。這是因為PPO依賴于評論家模型,該模型在有效訓練開始前需要幾個熱身步驟。
? PPO表現(xiàn)出更高的訓練穩(wěn)定性。如圖2(b)所示,當應用于LLaMA3.2 - 3B - Instruct模型時,GRPO導致獎勵崩潰,而PPO在不同的大語言模型架構(gòu)中保持穩(wěn)定。
? PPO和GRPO的最終訓練獎勵相當。盡管收斂速度和穩(wěn)定性存在差異,但兩種方法都實現(xiàn)了相似的最終獎勵值,表明它們都可用于優(yōu)化SEARCH - R1。
評估結(jié)果如表3所示,揭示了以下關鍵發(fā)現(xiàn):
? GRPO通常優(yōu)于PPO。在Qwen2.5 - 3B和LLaMA3.2 - 3B上,GRPO均取得了更高的平均性能,證明了其在優(yōu)化檢索增強推理方面的有效性。
? 指令變體的表現(xiàn)優(yōu)于基礎變體。對于Qwen2.5 - 3B,SEARCH - R1 - Instruct(GRPO)實現(xiàn)了最高的總體平均得分(0.365),優(yōu)于所有其他配置。對于LLaMA3.2 - 3B,表現(xiàn)最佳的變體是SEARCH - R1 - Base(GRPO),平均得分0.324,緊隨其后的是SEARCH - R1 - Instruct(PPO),平均得分0.322。
5.2 基礎大語言模型與指令調(diào)整后的大語言模型
我們分析了SEARCH - R1在基礎大語言模型和指令調(diào)整后的大語言模型上的訓練動態(tài)。在三個模型變體(LLaMA3.2 - 3B、Qwen2.5 - 3B和Qwen2.5 - 7B)上進行實驗。如圖3所示,我們觀察到指令調(diào)整后的模型比基礎模型收斂得更快,并且初始性能更高。然而,經(jīng)過訓練后,兩種模型類型的最終性能仍然非常相似。這一發(fā)現(xiàn)表明,雖然一般的訓練后調(diào)整在推理加搜索場景中加速了學習,但隨著時間的推移,強化學習可以有效地彌合差距,使基礎模型能夠達到可比的性能。
5.3 響應長度研究
我們使用帶有LLaMA3.2 - 3b - base模型的SEARCH - R1進行實驗,在自然問題(NQ)上進行訓練,以分析訓練過程中訓練獎勵和響應長度的動態(tài)變化。結(jié)果如圖4(a)所示,揭示了以下關鍵趨勢:
?早期階段(前100步):響應長度急劇下降,而訓練獎勵略有增加。在此階段,基礎模型學習消除過多的填充詞,并開始適應任務要求。
?中期階段(100 - 130步):響應長度和訓練獎勵都顯著增加。此時,大語言模型學會調(diào)用搜索引擎,由于檢索到的段落,響應變長。隨著模型更有效地利用搜索結(jié)果,訓練獎勵大幅提高。
?后期階段(130步之后):響應長度穩(wěn)定下來,訓練獎勵繼續(xù)略有增加。在此階段,模型已經(jīng)學會有效地使用搜索引擎,并專注于優(yōu)化其搜索查詢。鑒于自然問題(NQ)是一個相對簡單的任務,響應長度穩(wěn)定在大約500個令牌左右,表明模型收斂。
5.4 檢索令牌損失掩碼的研究
在3.1節(jié)中,我們引入了檢索令牌的令牌級損失掩碼,以防止意外的優(yōu)化行為。在這里,我們通過分析其對訓練穩(wěn)定性和模型性能的影響,實證評估其有效性。
我們在LLaMA3.2 - 3b - base模型上進行實驗,比較有無檢索令牌損失掩碼的訓練動態(tài)。如圖4(b)所示,應用檢索令牌掩碼使大語言模型有更大的改進,減輕了意外的優(yōu)化影響,并確保了更穩(wěn)定的訓練動態(tài)。
表4提供了性能比較,表明使用檢索令牌損失掩碼訓練的SEARCH - R1始終優(yōu)于未使用掩碼的變體。
5.5 案例研究
為了更深入地了解SEARCH - R1,我們使用Qwen2.5 - 7B - Base進行案例研究,將其行為與不使用搜索引擎的強化學習(Guo等人,2025)進行比較。結(jié)果如表5所示,揭示了以下關鍵觀察:
?交錯推理和檢索增強問題分析:SEARCH - R1使大語言模型能夠通過多輪檢索進行深入推理,而不使用搜索的強化學習僅依賴模型的內(nèi)部知識。通過整合檢索到的段落,SEARCH - R1允許大語言模型迭代優(yōu)化其推理,從而得出更明智、更準確的響應。
?通過迭代檢索進行自我驗證:我們觀察到,在第二輪檢索后,大語言模型已經(jīng)收集了足夠的信息來回答問題。然而,SEARCH - R1執(zhí)行了額外的檢索步驟來自我驗證其結(jié)論,進一步增強了其對最終響應的信心。這一現(xiàn)象與不使用檢索的大語言模型推理強化學習的發(fā)現(xiàn)一致(Guo等人,2025),突出了即使在搜索增強的設置中,強化學習也可以鼓勵基于驗證的推理。
6 結(jié)論
在這項工作中,我們引入了SEARCH - R1,這是一種新穎的強化學習框架,使大語言模型(LLMs)能夠?qū)⒆晕彝评砼c實時搜索引擎交互交錯進行。與現(xiàn)有的檢索增強生成(RAG)方法不同,SEARCH - R1通過強化學習優(yōu)化大語言模型的滾動輸出,允許自主查詢生成和對檢索信息的策略性利用,而檢索增強生成(RAG)方法缺乏多輪檢索的靈活性,工具使用方法則需要大規(guī)模的監(jiān)督訓練數(shù)據(jù)。通過在七個數(shù)據(jù)集上的廣泛實驗,我們證明了SEARCH - R1顯著增強了大語言模型處理需要實時外部知識的復雜推理任務的能力。我們的分析還為搜索增強推理的強化學習訓練策略提供了關鍵見解。展望未來,未來的工作可以探索擴展SEARCH - R1以支持更廣泛的搜索策略,包括更復雜的獎勵機制、基于不確定性的動態(tài)檢索調(diào)整,以及與網(wǎng)絡搜索之外的各種信息源的集成。研究其在多模態(tài)推理任務中的適用性也很有前景。
本文轉(zhuǎn)載自旺知識,作者:旺知識
