「邊思考、邊搜索、邊寫作」WebThinker開啟AI搜索&研究新紀元!
李曉熙目前就讀于中國人民大學高瓴人工智能學院,博士二年級,導師為竇志成教授,研究方向主要包括檢索增強生成、大語言模型推理等。在國際頂級會議和期刊如 AAAI,SIGIR,TOIS 等發表多篇論文,代表工作包括 Search-o1, WebThinker, RetroLLM, GenIR-Survey, CorpusLM, UniGen 等。共同第一作者還包括人大高瓴博士生金佳杰和董冠廷。本文的通信作者為人大竇志成教授。
大型推理模型(如 OpenAI-o1、DeepSeek-R1)展現了強大的推理能力,但其靜態知識限制了在復雜知識密集型任務及全面報告生成中的表現。為應對此挑戰,深度研究智能體 WebThinker 賦予 LRM 在推理中自主搜索網絡、導航網頁及撰寫報告的能力。WebThinker 集成了深度網頁探索器,使 LRM 能自主搜索、導航并提取信息;自主思考 - 搜索 - 寫作策略無縫融合推理、信息收集與實時報告寫作;并結合強化學習訓練優化工具調用。實驗表明,WebThinker 在 GPQA、GAIA、WebWalkerQA、HLE 等復雜推理基準及 Glaive 研究報告生成任務中展現出強大性能,顯著提升了 LRM 在復雜場景下的適用性與可靠性,為構建更強大、通用的深度研究系統奠定了堅實基礎。
- 論文標題: WebThinker: Empowering Large Reasoning Models with Deep Research Capability
- 論文鏈接: https://arxiv.org/abs/2504.21776
- 代碼倉庫: https://github.com/RUC-NLPIR/WebThinker
Demo
1. OpenAI 有哪些模型?它們有什么區別?
2. 2025 年我能投稿哪些 AI 頂會?
研究動機:賦予推理模型深度研究能力
大型推理模型如 OpenAI-o1 和 DeepSeek-R1 在數學、編程和科學等領域展現了卓越的推理能力。然而,當面對需要廣泛獲取實時網絡信息的復雜任務時,這些僅依賴內部參數知識的模型往往力不從心。特別是在需要深度網絡信息檢索和生成全面、準確的科學報告時,這一局限性尤為明顯。
WebThinker 應運而生,它是一個深度研究智能體,使 LRMs 能夠在推理過程中自主搜索網絡、導航網頁,并撰寫研究報告。這種技術的目標是革命性的:讓用戶通過簡單的查詢就能在互聯網的海量信息中進行深度搜索、挖掘和整合,從而為知識密集型領域(如金融、科學、工程)的研究人員大幅降低信息收集的時間和成本。
推理中自主調用工具:擺脫傳統預定義 RAG 工作流
現有的開源深度搜索智能體通常采用檢索增強生成(Retrieval-Augmented Generation, RAG)技術,依循預定義的工作流程,這限制了 LRM 探索更深層次網頁信息的能力,也阻礙了 LRM 與搜索引擎之間的緊密交互。
WebThinker 突破了傳統 RAG 工作流的限制,實現了范式的升級:
1. 傳統 RAG: 僅進行淺層搜索,缺乏思考深度和連貫性
2. 進階 RAG: 使用預定義工作流,包括查詢拆解、多輪 RAG 等,但仍缺乏靈活性
3. WebThinker: 在連續深思考過程中自主調用工具,實現端到端任務執行
WebThinker 使 LRM 能夠在單次生成中自主執行操作,無需遵循預設的工作流程,從而實現真正的端到端任務執行。
WebThinker 框架:自主的深度搜索與報告撰寫
WebThinker 框架包含兩種主要運行模式:
1. 問題解決模式:賦予 LRM 深度網頁探索器(Deep Web Explorer)功能,當遇到知識缺口時,LRM 可以自主發起網絡搜索,通過點擊鏈接或按鈕導航網頁,并在繼續推理前提取相關信息。
2. 報告生成模式:實現自主思考 - 搜索 - 寫作(Autonomous Think-Search-and-Draft)策略,將推理、信息搜索和報告撰寫無縫整合。LRM 可以使用專門的工具來草擬、檢查和編輯報告部分,確保最終報告全面、連貫且基于收集的證據。
整個過程是端到端的,LRM 可以在思考過程中自主搜索、深度探索網頁和撰寫研究報告,擺脫了傳統預定義工作流的局限。
核心組件:
1. 深度網頁探索:解決復雜推理問題
這一模塊使 LRM 能夠進行網絡搜索和導航,深度收集、遍歷和提取網頁上的高質量信息:
- 搜索能力:能夠基于當前查詢生成搜索意圖,從搜索引擎獲取初步結果
- 導航能力:能夠點擊鏈接或按鈕,深入探索初始搜索結果之外的內容
- 信息提取:基于當前查詢的搜索結果,LRM 可以發起后續搜索并遍歷更深層次的鏈接,直到收集所有相關信息
2. 自主的思考 - 搜索 - 寫作:生成完整的研究報告
該策略將報告撰寫與 LRM 的推理和搜索過程深度整合:不同于在搜索后一次性生成整個報告,WebThinker 使模型能夠實時撰寫和尋求必要知識。具體來說,WebThinker 為 LRM 配備三種專門工具:(1)撰寫特定章節內容;(2)檢查當前報告已寫內容;(3)編輯 / 修改報告。這些工具使 LRM 能夠通過保持全面性、連貫性和對推理過程中新發現信息的適應性來自主增強報告質量
3. 基于強化學習的訓練策略:全面提升 LRM 調用研究工具的能力
為了進一步釋放 LRM 骨干模型的深度研究潛力,WebThinker 開發了基于強化學習的訓練策略:
- 利用配備工具的 LRM 從復雜任務中采樣大規模推理軌跡
- 根據推理的準確性、工具使用準確性、以及最終輸出答案或報告的質量,構建在線直接偏好優化(DPO)訓練的偏好對
- 通過迭代、在線策略訓練,模型逐步提高感知、推理和有效交互研究工具的能力
實驗結果
實驗結果:真實世界的復雜推理任務
WebThinker 在四個知識密集型復雜推理基準上進行了評估:
1. GPQA:PhD 級別的科學問題回答數據集,覆蓋物理、化學和生物學
2. GAIA:評估 AI 助手在復雜信息檢索任務上的能力
3. WebWalkerQA:專注于深度網絡信息檢索,需要導航和提取信息
4. 人類最終考試(HLE):極具挑戰性的跨學科問題數據集
從實驗結果中可以發現:
1. 基礎推理模型和傳統 RAG 的局限:基礎推理模型雖然在某些任務上表現不錯,但在需要實時外部知識的場景中明顯力不從心;傳統 RAG 方法雖有改進,但在復雜任務中提升有限;
2. 自主搜索的優勢:而引入自主搜索能力的模型則帶來了顯著提升。WebThinker 憑借其深度網頁探索器,能夠更全面地獲取和整合網絡信息,在所有基準測試中都取得了明顯優勢。
3. RL 訓練的改進:特別是經過強化學習訓練的 WebThinker-32B-RL 版本,不僅在同等參數量模型中達到了最佳表現,甚至在某些任務上超越了參數量更大的專有模型。
實驗結果:科學研究報告生成
在 Glaive 科學報告生成任務的評估中:
1. 生成報告的質量:從完整性、徹底性、事實性和連貫性四個維度評估,WebThinker 生成的研究報告均獲得高分,整體表現優于傳統 RAG 方法和其他先進的深度研究系統;
2. 生成報告的信息邊界:特別在報告的完整性和徹底性方面表現尤為突出,通過 t-SNE 可視化分析可見,WebThinker 生成的報告內容覆蓋更廣,視角更多元,能夠從多個維度深入探索和綜合信息,為用戶提供更全面、更深入的調研。
實驗結果:適配 DeepSeek-R1 系列模型
通過在不同規模的 DeepSeek-R1 模型上進行實驗(7B, 14B, 32B),驗證了 WebThinker 框架的適應性。在不同模型規模下,都能顯著提升各類任務的性能,遠超直接推理和標準 RAG 方法,展現了該框架在增強 LRM 深度研究能力方面的通用性和有效性。
實驗結果:消融實驗
消融實驗評估了 WebThinker 各關鍵組件的貢獻。結果顯示,深度網頁探索器以及自主 「思考 - 搜索 - 寫作」 策略中的報告生成組件(尤其是自主報告起草)是確保高性能問題解決和高質量報告生成的基石,其缺失會導致性能顯著下降。強化學習訓練則主要增強了問題解決能力,對報告生成的影響相對有限。
總結與未來展望
WebThinker 框架成功地賦予了大型推理模型深度研究能力,解決了它們在知識密集型真實世界任務中的局限性。通過深度網頁探索器和自主思考 - 搜索 - 寫作策略,WebThinker 使 LRM 能夠自主探索網絡并通過連續推理過程生成全面輸出。
未來,為持續提升深度研究模型的能力,仍有很多方向值得探索:
1. 多模態深度搜索:WebThinker 基于文本推理模型,難以處理圖像等其他模態的信息。未來可以擴展到圖像、視頻等多模態內容的深度研究,來利用網頁中的多模態信息。
2. 工具學習與擴展:當前支持有限的研究工具,未來可以通過工具學習來不斷優化工具使用策略,并擴展更多工具,來支持更復雜的任務。
3. GUI 網頁探索:通過 GUI 網頁探索能力,讓模型能夠更好地理解和操作網頁界面,實現更復雜的交互任務,如訂機票、指定旅游路線圖、等等。