超過谷歌搜索，成本猛降80%！阿里開源創新大模型搜索引擎

2025-05-09 08:31:11

ZeroSearch是一種無需與真實搜索引擎交互即可激勵大模型搜索能力的強化學習框架。

昨天，阿里巴巴開源了一種創新大模型搜索引擎——ZeroSearch。

ZeroSearch是一種無需與真實搜索引擎交互即可激勵大模型搜索能力的強化學習框架。主要利用了大模型在大規模預訓練過程中積累的豐富知識，將其轉化為一個檢索模塊，能夠根據搜索查詢生成相關內容。同時，還可以動態控制生成內容的質量，這是傳統搜索引擎所不具備的特殊功能。

研究人員在NQ、TriviaQA、PopQA、HotpotQA等7大問答數據集上進行了綜合評測。結果顯示，一個70億參數的監督微調模型使用ZeroSearch后，其搜索能力達到了33.06；140億參數的模型則達到了33.97，超過了谷歌搜索的32.47。

在成本方面，研究人員通過SerpAPI使用谷歌搜索進行約64,000次搜索查詢的訓練，成本約為586.70美元；而在四個A100GPU上使用140億參數的大模型進行模擬時，成本僅為70.80美元，成本降低了80%以上。

開源地址：https://github.com/Alibaba-nlp/ZeroSearch

笑臉：https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0

目前，為了解決大模型幻覺以及擴大外部知識范圍，檢索增強生成（RAG）已成為標配。不過，早期的RAG主要采用基于提示的策略，通過引導大模型進行查詢生成、查詢分解和多輪信息檢索來整合外部知識，但這些方法對提示要求較高，且對模型的推理能力依賴較大。

還有研究嘗試通過監督微調、蒙特卡洛樹搜索等方法來增強搜索能力，雖然取得了一定成果，但算力消耗很大，在實際部署中面臨很多難題。

隨著DeepSeek-R1、o1等模型的出現，強化學習成為了一項改變模型邏輯推理能力的關鍵技術。這些模型完全依賴于獎勵驅動的學習，而無需明確的逐步監督。

因此，有不少研究將強化學習應用在大模型搜索中。例如，Search-R1通過強化學習自主生成多個搜索查詢，而ReSearch則通過強化學習教授模型通過搜索進行推理，無需對中間推理步驟進行監督。但這些方法需要與谷歌等商業搜索引擎搭配使用才能達到最佳效果，成本方面非常高。

ZeroSearch則通過強化學習激勵大模型的搜索能力，同時避免了與真實搜索引擎交互帶來的高昂成本和不可控性。

ZeroSearch通過輕量級監督微調將大模型轉化為一個檢索模塊。這一過程利用了大模型在大規模預訓練中積累的豐富知識，使其能夠根據給定的查詢生成相關或噪聲文檔。通過調整提示中的關鍵詞，模型可以靈活地控制生成文檔的質量，從而為后續的訓練提供多樣化的檢索場景。

這種能力是通過收集與真實搜索引擎交互的軌跡數據，并對這些數據進行標注和微調來實現的。主要是讓大模型與真實搜索引擎展開多輪交互，直至得出最終答案。

在此過程中，詳細記錄下所有交互軌跡，這些軌跡涵蓋了從模型發起查詢，到搜索引擎返回文檔，以及模型據此生成最終答案的全過程。接著，對這些交互軌跡進行細致標注，將能產生正確答案的交互軌跡標記為正樣本，意味著其中檢索到的文檔發揮了積極作用；而導致錯誤答案的交互軌跡則歸為負樣本，表明對應的檢索文檔屬于干擾信息。

從正樣本和負樣本交互軌跡中精準提取查詢-文檔對，以此為基礎對大模型實施輕量級監督微調。微調時，研究人員巧妙調整提示中的少量詞匯，例如，加入“有用信息”“噪聲信息”等，引導大模型學習生成不同質量的文檔。同時，將輸入問題及其對應的答案融入提示內容，拓寬大模型的知識邊界。

ZeroSearch還通過引入“課程學習機制”，用于在訓練過程中逐步調整生成文檔的質量。其核心思想是，隨著訓練的進行，逐漸增加任務的難度，使模型從簡單的檢索場景開始，逐步適應更具挑戰性的環境。

通過一個概率函數動態調整生成噪聲文檔的可能性。在訓練初期，模型主要接觸高質量的文檔，以便快速學習基本的輸出格式和任務要求。隨著訓練的深入，模型逐漸暴露于更多噪聲文檔，這迫使模型不斷提升其推理能力和魯棒性，以應對更具挑戰性的檢索任務。

在強化學習的框架下，ZeroSearch采用了多種算法來優化模型的搜索策略。這些算法包括近端策略優化、組相對策略優化等，通過最大化策略模型的期望獎勵來訓練模型，同時考慮參考模型和獎勵函數。

獎勵函數的設計專注于答案的準確性，采用基于F1分數的獎勵機制，以平衡精確度和召回率。此外，為了提高訓練的穩定性，ZeroSearch還引入了損失掩蔽機制，確保梯度僅針對模型自身的輸出進行計算，從而避免了由于外部生成的文檔標記引入的噪聲。

ZeroSearch的訓練模板是一個多輪交互模板，明確區分了模型的推理、搜索和回答階段。在推理階段，模型在其內部進行思考，并在<think>...</think>標簽內闡述其推理過程。如果模型認為需要額外的信息，它會在<search>...</search>標簽內發出搜索查詢。檢索到的文檔由模擬搜索引擎生成，并在<information>...</information>標簽內返回給模型。

最后，大模型在<answer>...</answer>標簽內提供最終答案。這種結構化的模板不僅提高了模型的透明度，還增強了其在實際應用中的可靠性。

責任編輯：張燕妮來源： AIGC開放社區

開源搜索引擎模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

超過谷歌搜索，成本猛降80%！阿里開源創新大模型搜索引擎

超過谷歌搜索，成本猛降80%！阿里開源創新大模型搜索引擎