Search-R1:讓大模型學(xué)會“檢索+推理”的新范式
今天分享一篇伊利諾伊大學(xué)的文章,標題為:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning(Search-R1:利用強化學(xué)習(xí)訓(xùn)練LLM進行推理并利用搜索引擎)。
這篇文章是關(guān)于如何訓(xùn)練大型語言模型(LLMs)有效地利用搜索引擎來增強其推理和文本生成能力。論文提出了一個名為SEARCH-R1的框架,該框架僅僅通過強化學(xué)習(xí)(RL)讓LLM學(xué)習(xí)如何在逐步推理過程中自主生成搜索查詢并與實時檢索交互。
該方法特點總結(jié)如下:1)使用檢索token mask技術(shù)穩(wěn)定RL訓(xùn)練,2)支持多輪交錯推理和搜索,以支持復(fù)雜的任務(wù)解決,3)設(shè)計了一個簡單而有效的基于結(jié)果的獎勵函數(shù)。通過在七個問答數(shù)據(jù)集上的實驗,SEARCH-R1在三個LLM上實現(xiàn)了相對于SOTA基線的顯著性能提升。
主要特點:
1.將搜索引擎建模為環(huán)境的一部分: SEARCH-R1將搜索引擎建模為環(huán)境的一部分,實現(xiàn)了LLM token生成與搜索引擎檢索的交錯序列。
2.支持多輪檢索和推理: SEARCH-R1 支持由 ??<search>?
?? 和 ??</search>?
?? 標簽觸發(fā)的顯示搜索,檢索到的內(nèi)容位于 ??<information>?
?? 和 ??</information>?
? 標簽內(nèi)。
3.簡單的獎勵函數(shù): 采用直接的基于結(jié)果的獎勵函數(shù),避免了復(fù)雜的基于過程的獎勵。
一、概述
?Title:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
?URL:?? https://arxiv.org/abs/2503.09516v1??
?Authors:Bowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani, Jiawei Han
?Institutions:University of Illinois at Urbana-Champaign, University of Massachusetts Amherst
?Code:?? https://github.com/PeterGriffinJin/Search-R1??
1.Motivation
? 大型語言模型(LLMs)在復(fù)雜推理和從外部來源檢索最新信息方面面臨挑戰(zhàn)(LLM非常吃外部的檢索知識)。
? 現(xiàn)有的LLM與搜索引擎集成方法缺乏復(fù)雜的多輪檢索靈活性或需要大規(guī)模的監(jiān)督數(shù)據(jù)。
? 提示工程方法在推理時利用LLM來使用搜索引擎并不理想,因為LLM沒有學(xué)會如何以最佳方式與搜索引擎交互。
? 總結(jié):?(將DeepSeek R1的強化學(xué)習(xí)方法用于Search鏈路還沒人做過!!!)
2.Methods
SEARCH-R1通過強化學(xué)習(xí)讓LLM在推理時與搜索進行交互。 將搜索作為環(huán)境的一部分,采用 multi-turn 檢索,并用簡單的 outcome-based reward。 在多個問答數(shù)據(jù)集上效果顯著。
詳細方法和步驟:
論文提出了一種新的強化學(xué)習(xí)框架SEARCH-R1,使LLM能夠以交錯的方式與搜索引擎進行交互。具體步驟如下:
- 將搜索引擎建模為環(huán)境的一部分:SEARCH-R1將搜索引起作為環(huán)境的一部分, 讓模型與環(huán)境交互,從而得到 reward。
- 支持多輪檢索和推理:SEARCH-R1通過特定的標簽(?
?<search>?
??,??</search>?
??,??<information>?
??,??</information>?
??,??<think>?
??,??</think>?
??,??<answer>?
??,??</answer>?
?)來支持多輪檢索和推理。 - 采用 retrieved token masking:為了穩(wěn)定優(yōu)化,SEARCH-R1采用 retrieved token masking, 只對LLM生成的 token 進行優(yōu)化,檢索的內(nèi)容不參與優(yōu)化。
- 優(yōu)化算法兼容性:SEARCH-R1 與各種 RL 算法兼容,包括 PPO 和 GRPO。
- 簡單結(jié)果獎勵函數(shù):避免復(fù)雜的基于過程的獎勵, 采用簡單的基于結(jié)果的獎勵函數(shù)(字符串匹配作為reward!!!)。
3.Conclusion
? SEARCH-R1在七個問答數(shù)據(jù)集上實現(xiàn)了顯著的性能提升,平均相對提升達到26%(Qwen2.5-7B)、21%(Qwen2.5-3B)和10%(LLaMA3.2-3B)。
? SEARCH-R1可以成功應(yīng)用于基礎(chǔ)模型和指令調(diào)整模型,并且在不同的LLM架構(gòu)中具有通用性。
? 論文還深入分析了RL訓(xùn)練策略,包括RL方法選擇、LLM選擇和響應(yīng)長度動態(tài),為未來研究提供了有價值的見解。
4.Limitation
?獎勵機制的設(shè)計相對簡單,僅依賴于最終結(jié)果的評估,可能無法充分捕捉到中間推理步驟的質(zhì)量。
? 動態(tài)檢索調(diào)整,基于不確定性的動態(tài)檢索調(diào)整,需要進一步探索。
二、詳細內(nèi)容
1.SEARCH-R1 在多個數(shù)據(jù)集上始終優(yōu)于baseline,包括 Qwen2.5-7B、Qwen2.5-3B 和 LLaMA3.2-3B
2.不同RL方法在不同基座模型上的影響
說明:展示了在四個 LLM 上使用 PPO 和 GRPO 作為基礎(chǔ) RL 方法訓(xùn)練 SEARCH-R1 的動態(tài)過程。
總結(jié)1:GRPO 通常收斂速度更快,但在某些情況下可能表現(xiàn)出不穩(wěn)定性,而 PPO 提供了更穩(wěn)定的優(yōu)化,但收斂速度較慢。
總結(jié)2:GRPO 在訓(xùn)練 LLAMA3.2-3B-Instruct 模型時出現(xiàn)了獎勵崩潰現(xiàn)象,而 PPO 在不同的 LLM 架構(gòu)中保持穩(wěn)定。
3.SEARCH-R1 在base model和instruct model的表現(xiàn)對比
總結(jié)1:指令模型收斂速度更快,并且初始性能更好,但兩種模型的最終性能非常相似。
總結(jié)2:Instruction Tuning 加速了學(xué)習(xí)過程,但最終性能與基礎(chǔ)模型相當(dāng)。
4.檢索token損失mask對效果提升非常大
image-20250318151512229
總結(jié)1:(a) 響應(yīng)長度在整個訓(xùn)練過程中呈現(xiàn)先減少、后增加、再穩(wěn)定的趨勢,與 LLM 的整體性能軌跡一致。
總結(jié)2:(b) 展示了檢索到的 token 損失遮蔽研究,檢索 token 損失遮蔽可以帶來更大的 LLM 效果提升,減輕發(fā)生意外的優(yōu)化效果,并確保更穩(wěn)定的訓(xùn)練動態(tài)。
5.在七個不同數(shù)據(jù)集上使用 PPO 和 GRPO 的 SEARCH-R1 的性能對比
總結(jié)1:GRPO 通常優(yōu)于 PPO,并且指令model優(yōu)于base model。
總結(jié)2:Qwen2.5-3B 的最佳配置是 SEARCH-R1-Instruct (GRPO),平均得分為 0.365。LLaMA3.2-3B 的最佳配置是 SEARCH-R1-Base (GRPO),平均得分為 0.324。
6.Case Study: Search-R1能持續(xù)與真實數(shù)據(jù)進行交互
三、總結(jié)
結(jié)論1: SEARCH-R1 顯著提升了LLM在需要實時外部知識的復(fù)雜推理任務(wù)中的能力。 通過強化學(xué)習(xí),LLM可以自主生成查詢并有效利用檢索到的信息,優(yōu)于傳統(tǒng)的RAG方法。
結(jié)論2: SEARCH-R1在不同LLM架構(gòu)和訓(xùn)練方法上具有廣泛的適用性。 實驗結(jié)果表明,無論使用基礎(chǔ)模型還是指令調(diào)整模型,SEARCH-R1都能帶來顯著的性能提升,且對不同的RL算法(如PPO和GRPO)具有兼容性。
結(jié)論3: SEARCH-R1有很強的實用價值。 SEARCH-R1能夠顯著提高LLM在需要實時外部知識的復(fù)雜推理任務(wù)中的能力。 可以用于智能問答,智能助手等領(lǐng)域。
本文轉(zhuǎn)載自??NLP PaperWeekly??,作者:NLP PaperWeekly
