突破性創新:ZeroSearch如何徹底改變大語言模型的搜索能力訓練
大語言模型(LLM)在各種應用場景中展現出了令人矚目的能力,但其固有的知識靜態性和更新滯后性一直是制約其實際應用的關鍵因素。為解決這一問題,阿里巴巴統一實驗室(Tongyi Lab)的研究團隊提出了一種創新的解決方案——ZeroSearch,這是一個無需與真實搜索引擎交互即可增強LLM搜索能力的強化學習框架。本文將深入分析這項突破性技術的原理、實現方法及其重要意義。
1. 研究背景與挑戰
大語言模型雖然在數學推理、問答和代碼生成等多種任務中表現出色,但它們的知識本質上是靜態的,受限于預訓練數據的范圍。這導致模型容易生成虛構內容或過時信息,嚴重影響其在實際應用中的可靠性。因此,使LLM能夠訪問外部信息源以生成更準確、更有依據的響應變得至關重要。
檢索增強生成(RAG)是解決這一問題的常用方法,它將外部知識整合到生成流程中。早期工作主要集中在基于提示的策略上,引導LLM完成查詢生成、查詢分解和多輪信息檢索。雖然有效,但這些策略通常需要精心設計的提示工程,并對模型的推理能力提出很高要求。
后續研究探索了監督微調(SFT)來增強小型LLM的性能,以及測試時間擴展技術(如蒙特卡洛樹搜索),這些方法在推理過程中動態擴展搜索空間。盡管前景光明,但這類方法會產生大量計算開銷,給實際部署帶來挑戰。
近期,強化學習(RL)作為提升LLM性能的有效策略逐漸興起,通過增強其推理和決策能力顯著提高模型表現。基于RL的模型如OpenAI-o1和DeepSeek-R1在邏輯推理和迭代推理方面取得了顯著進步。在這一范式下,一些研究探索了使用RL來訓練能夠更有效搜索相關信息的策略模型,如Search-R1、R1-Searcher和ReSearch等。
特別值得注意的是,DeepResearcher引入了與Google等商業搜索引擎的實時交互,使模型能在與現實世界網絡搜索非常相似的環境中進行訓練。然而,將RL與現實世界搜索場景結合仍面臨兩大挑戰:
- 文檔質量不可控從實時搜索引擎檢索的文檔質量通常難以預測,給訓練過程引入噪音和不穩定性
- API成本過高RL訓練需要頻繁部署,可能涉及數十萬次API調用,產生巨大財務成本并嚴重限制可擴展性
2. ZeroSearch的創新方法
為應對上述挑戰,研究團隊提出了ZeroSearch——一個使LLM無需與真實搜索引擎交互即可學習搜索策略的強化學習框架。其核心洞察是:LLM在大規模預訓練過程中已獲得廣泛的世界知識,能夠根據搜索查詢生成相關文檔。真實搜索引擎和模擬LLM之間的主要區別在于返回內容的文本風格,而通過輕量級監督微調,即使相對較小的LLM也能有效模擬真實搜索引擎的行為。
使用LLM進行文檔生成的一個重要優勢是能夠控制文檔質量。在監督微調期間,通過提示設計來區分導致正確或錯誤答案的文檔,使模擬LLM能夠通過調整提示中的幾個單詞來學習生成相關或嘈雜的文檔。
2.1 強化學習目標
ZeroSearch的優化目標可以表述為:
max_{π_θ}??_{x~??,y~π_θ(?∣x;π_ψ)}[r_?(x,y)]?βD_KL[π_θ(y∣x;π_ψ)∥π_ref(y∣x;π_ψ)]
其中:
- π_θ是待優化的策略模型
- π_ref是參考模型
- r_?表示獎勵函數
- π_ψ代表模擬LLM,其參數在訓練過程中保持不變
2.2 訓練模板設計
ZeroSearch采用多輪交互模板,引導策略模型通過迭代推理和信息檢索直至得出最終答案。交互分為三個明確階段:
- 模型在<think>...</think>標簽內闡述內部推理
- 如需額外證據,在<search>...</search>標簽內發出搜索查詢
- 一旦獲取足夠信息,在<answer>...</answer>標簽內提供答案
這種推理、搜索和回答的明確分離強化了結構化決策過程,提高了模型的透明度和可靠性。
2.3 搜索模擬微調
在部署過程中,ZeroSearch使用LLM模擬真實搜索引擎,根據查詢生成文檔。為彌合與真實搜索引擎輸出的風格差距,研究團隊提出了輕量級監督微調(SFT)程序:
- 首先收集交互軌跡,提示LLM以多輪方式與真實搜索引擎交互直至得出最終答案
- 產生正確答案的軌跡被標記為正面樣本,表明檢索到的文檔有用;導致錯誤答案的軌跡被標記為負面樣本,表明檢索結果有噪聲
- 從正負軌跡中提取查詢-文檔對,進行輕量級SFT以提升LLM模擬真實搜索引擎的能力
有用和嘈雜檢索的區別通過調整提示中的幾個詞實現。此外,還將輸入問題及其對應答案納入提示,以擴展LLM的知識邊界。微調后,LLM能夠生成有用和嘈雜的文檔,實現部署過程中的動態文檔質量控制。
2.4 基于課程的部署策略
在部署過程中,策略模型進行交互推理并生成搜索查詢,這些查詢被輸入模擬LLM以生成相應文檔。為逐步增加訓練難度,研究團隊引入了基于課程學習的部署機制,隨時間逐步降低生成文檔的質量。這通過概率函數p_i控制,該函數決定在步驟i生成嘈雜文檔的可能性:
p_i = p_s + (b^(i/m)-1)/(b-1)·(p_e-p_s)
其中:
- p_s和p_e分別表示初始和最終噪聲概率
- i和m分別表示當前和總訓練步驟數
- b是指數基數,默認值為4
隨著訓練進行,比率i/m增加,導致p_i值升高——即產生嘈雜文檔的幾率更大。這使策略模型首先學習基本輸出結構和任務要求,然后逐步適應更具挑戰性和噪聲的檢索場景。
2.5 獎勵設計
獎勵信號是強化學習過程中的主要監督。ZeroSearch采用基于規則的獎勵函數,僅關注答案準確性。在初步實驗中,研究團隊觀察到使用精確匹配(EM)作為獎勵指標往往導致獎勵黑客行為:策略模型傾向于產生過長答案以增加包含正確答案的幾率。
為緩解這一問題,ZeroSearch采用基于F1分數的獎勵,平衡精確度和召回率:
r_?(x,y) = 2×IN/(PN+RN)
其中:
- IN表示預測與真實答案之間的重疊詞數
- PN是預測中的詞數
- RN是真實答案中的詞數
研究團隊沒有為輸出格式納入額外獎勵,因為觀察到模型在沒有明確監督的情況下始終產生格式良好的響應。
2.6 訓練算法
ZeroSearch兼容多種強化學習算法,包括近端策略優化(PPO)、組相對策略優化(GRPO)和Reinforce++,每種算法都為優化檢索增強推理提供獨特優勢。
在ZeroSearch中,部署序列包括策略模型生成的標記和模擬LLM返回的文檔標記。對兩種類型的標記統一應用相同的優化程序可能導致訓練不穩定,因為檢索內容是外部生成的,不受策略模型直接控制。
為緩解這一問題,研究團隊為檢索標記引入了損失掩碼機制,確保梯度僅針對模型自身輸出計算。這一策略穩定了RL訓練過程,同時保持了檢索增強生成的有效性。
3. 實驗設置與評估
3.1 數據集與評估指標
研究團隊在多樣化的問答基準上評估了ZeroSearch:
- 單跳問答包括NQ、TriviaQA和PopQA
- 多跳問答包括HotpotQA、2WikiMultiHopQA、Musique和Bamboogle
評估采用精確匹配(EM)作為指標。如果預測的規范化形式與任何規范化的真實答案完全匹配,則認為預測正確。
3.2 基線方法
為評估ZeroSearch的有效性,研究團隊將其與以下基線進行比較:
- 基礎提示方法包括直接提示、思維鏈(CoT)和標準檢索增強生成(RAG)
- 高級RAG方法考慮RAgent和Search-o1,它們迭代搜索相關信息
- RL調優方法包括R1和Search-R1。R1訓練策略模型僅基于其內部知識進行深入推理,而Search-R1使策略模型能夠在推理過程中多次與真實搜索引擎交互
為確保公平比較,所有RL方法均采用F1分數作為獎勵指標。
3.3 實驗配置
實驗使用三個模型系列:
- Qwen-2.5-7B (基礎/指令)
- Qwen-2.5-3B (基礎/指令)
- LLaMA-3.2-3B (基礎/指令)
為模擬真實世界檢索場景,通過SerpAPI使用Google Web Search作為外部搜索引擎。所有方法的檢索文檔數量固定為5,以確保公平比較。
對于數據集,按照Search-R1的設置,合并NQ和HotpotQA的訓練集創建統一數據集用于所有基于微調的方法。在七個數據集上進行評估,以評估域內和域外性能。
對于基于提示的基線,使用指令模型,因為基礎模型通常難以遵循任務指令。對于基于RL的方法,評估基礎和指令變體,以評估跨模型類型的通用性。
為訓練模擬LLM,使用Qwen-2.5-3B、Qwen-2.5-7B和Qwen-2.5-14B作為骨干進行輕量級SFT,學習率設為1e-6。
為訓練ZeroSearch,采用兩種強化學習算法:GRPO和PPO。在GRPO設置中,策略LLM的學習率為1e-6,每個提示采樣5個響應。在PPO設置中,策略LLM的學習率為1e-6,而價值模型的學習率為1e-5。應用廣義優勢估計(GAE),超參數λ=1和γ=1。
除非另有說明,GRPO作為默認強化學習算法,Qwen-2.5-14B作為所有實驗中的默認模擬LLM。
4. 主要研究結果
4.1 性能評估
實驗結果表明,ZeroSearch在各個數據集上均優于所有基線方法,這種性能優勢在域內數據集(NQ和HotpotQA)和域外數據集(TriviaQA、PopQA、2WikiMultiHopQA、Musique和Bamboogle)上均成立,展示了該方法的魯棒性。
值得注意的是,ZeroSearch超越了依賴真實搜索引擎的方法。與使用真實搜索引擎的Search-R1相比,ZeroSearch取得了更好的性能,突顯其作為大規模強化學習中真實搜索引擎有效替代品的潛力。
此外,ZeroSearch展示了強大的泛化能力。在不同模型系列、參數大小和類型(基礎或指令調優)上,ZeroSearch始終優于基線。更大的模型進一步提升了性能,凸顯其可擴展性。
4.2 與真實搜索引擎的比較
研究團隊比較了ZeroSearch和Search-R1(使用真實搜索引擎)在LLaMA-3.2-3B上的獎勵曲線,觀察到:
- 兩種方法的總體獎勵趨勢相似。隨著訓練進行,ZeroSearch和Search-R1的獎勵分數穩步增加,表明兩種設置中的策略模型都有效學習了如何與搜索引擎交互并產生正確答案。
- ZeroSearch實現了更穩定、更平滑的學習曲線。ZeroSearch最初落后于Search-R1,但最終超越了它,波動也小得多,這得益于課程機制幫助模型逐步掌握搜索工具使用。
- ZeroSearch在基礎和指令調優模型上均表現良好。在兩種模型類型下,ZeroSearch穩步提高獎勵性能,凸顯其泛化能力。
4.3 模擬LLM的選擇
研究團隊調查了不同模擬引擎配置如何影響性能,包括基于提示和微調的LLM(從3B到14B參數)。結果表明:
- 微調的7B模擬引擎(SFT-7B)實現了與Google搜索相當的性能,而14B變體(SFT-14B)甚至超越了它。這證明了使用訓練良好的LLM作為強化學習設置中真實搜索引擎替代品的可行性。
- 微調的模擬引擎顯著優于基于提示的引擎。盡管基于提示的方法明確指導模仿真實搜索引擎的響應風格,但仍存在顯著分布差距,導致性能較差。
- 性能隨模型大小增加而一致提升。更大的模擬LLM不僅展示更強的模擬能力,還能更準確區分相關和不相關文檔,從而在訓練過程中實現更有效的課程學習。
4.4 交互輪次研究
研究團隊分析了ZeroSearch的訓練動態,檢查了訓練過程中獎勵進展和交互輪次數量。結果顯示:
在訓練早期階段,交互輪次數量急劇下降,而獎勵緩慢增加。這主要是因為策略模型最初不知道如何正確調用搜索引擎,導致冗余交互。然而,它很快學會了正確格式并開始有效消除不必要步驟。
隨著訓練進行,交互輪次數量和獎勵曲線急劇上升然后穩定。這主要是因為策略模型能夠有效檢索相關文檔并最終獲得正確答案,從而獲得更高獎勵。值得注意的是,盡管后期訓練階段獎勵看似穩定,但由于課程機制,底層任務難度持續增加。因此,策略必須不斷完善其策略并提高推理能力,以保持一致性能。
4.5 不同RL算法比較:PPO vs. GRPO
研究團隊評估了兩種廣泛采用的RL訓練算法(PPO和GRPO)在ZeroSearch框架內的性能。結果表明,PPO和GRPO都成功激勵了框架內的搜索能力,展示了該方法的多功能性。其中,GRPO在兩種模型上表現更為穩定,強調了其在訓練穩定性方面的優勢。
值得注意的是,GRPO中的重復部署機制在與真實搜索引擎交互時會產生更高的API成本,進一步凸顯了模擬搜索設置的實用性。
4.6 逆向課程研究
研究團隊分析了課程部署策略的有效性,將其與逆向課程設置進行比較,在逆向課程中,訓練難度隨時間降低,通過逐步提高檢索文檔的質量。結果清晰表明,標準的由易到難課程始終優于逆向的由難到易變體,支持了課程學習在該框架中的有效性。
從更好的搜索結果開始允許策略模型首先學習如何調用搜索引擎并理解基本輸出格式。隨著訓練進行,模型接觸到越來越具挑戰性的場景,培養了更強的推理能力。
5. 技術優勢與應用價值
ZeroSearch框架具有多方面的技術優勢:
- 零API成本:通過使用模擬搜索引擎,ZeroSearch完全消除了對昂貴API調用的依賴,大幅降低了訓練成本
- 文檔質量控制:與真實搜索引擎不同,ZeroSearch能夠精確控制生成文檔的質量,使訓練過程更加穩定和可預測
- 課程學習機制:漸進式增加訓練難度的方法使模型能夠從簡單場景開始,逐步適應更復雜的檢索環境
- 強大的可擴展性:增加GPU數量可顯著加速模擬LLM的生成吞吐量,從而實現高效的大規模部署
- 廣泛的兼容性:ZeroSearch與各種參數大小的基礎模型和指令調整模型兼容,無需單獨的監督預熱階段
這些優勢使ZeroSearch在實際應用中具有重要價值:
- 降低商業部署成本:消除API成本使大規模訓練和部署變得經濟可行
- 提高訓練效率:可控的文檔質量和課程學習機制加速了模型的學習過程
- 增強模型魯棒性:通過暴露于各種質量的檢索結果,模型學會了更有效地處理不確定性
- 簡化架構設計:無需復雜的API集成和錯誤處理機制
6. 局限性與未來方向
盡管ZeroSearch展現出顯著優勢,但仍存在一些局限性:
- 部署模擬搜索LLM需要訪問GPU服務器。雖然比商業API使用更具成本效益,但這仍然引入了額外的基礎設施成本。
- 模擬搜索引擎的知識邊界仍受限于預訓練數據。雖然通過提示設計擴展了知識覆蓋范圍,但仍無法完全匹配實時搜索引擎的最新信息。
- 當前實現主要關注文本檢索,尚未擴展到圖像、視頻等多模態檢索場景。
未來研究可能的方向包括:
- 擴展到多模態檢索:將框架擴展到圖像、視頻和音頻等多種模態的檢索
- 探索更復雜的課程學習策略:根據模型性能動態調整文檔質量,而非預定義課程
- 集成知識圖譜:將結構化知識與文本檢索相結合,增強模型的推理能力
- 開發更高效的模擬LLM:研究如何使用更小、更快的模型實現相似的模擬效果,進一步降低基礎設施成本
7. 結論
ZeroSearch提出了一種創新的強化學習框架,無需與真實搜索引擎交互即可增強LLM的搜索能力。通過監督微調,LLM被轉換為能夠生成相關和嘈雜文檔的檢索模塊。課程部署機制通過將模型暴露于越來越具挑戰性的檢索場景,逐步提升其推理能力。
實驗結果表明,ZeroSearch優于基于真實搜索的模型,在基礎和指令調優的LLM上均表現良好,并支持多種RL算法。這一方法不僅解決了文檔質量變異性和經濟成本這兩個限制實時搜索集成的挑戰,還提供了一個可擴展、實用的解決方案,有望推動LLM搜索能力的進一步發展。
ZeroSearch的成功實現了一個重要里程碑:它證明了LLM不僅可以作為信息消費者,還可以作為信息提供者,為其他模型提供有價值的檢索服務。這一雙重角色開辟了LLM應用的新范式,為未來研究提供了豐富的可能性。
參考資源
- 論文:?https://arxiv.org/abs/2505.04588
- 模型:https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0
- 代碼實現:?https://github.com/Alibaba-NLP/ZeroSearch
本文轉載自??頓數AI??,作者:蔥蔥
