阿里智能體多輪推理超越GPT-4o，開源模型也能做Deep Research

2025-06-06 14:17:11

WebDancer 通過系統(tǒng)化的訓練范式——涵蓋從數(shù)據(jù)構(gòu)建到算法設計的全流程——為構(gòu)建具備長期信息檢索能力的智能體提供了明確路徑。

能夠完成多步信息檢索任務，涵蓋多輪推理與連續(xù)動作執(zhí)行的智能體來了。

通義實驗室推出WebWalker（ACL2025）續(xù)作自主信息檢索智能體WebDancer。

同時，該框架也為在開源模型上復現(xiàn)Deep Research系統(tǒng)提供了可行的指導。團隊將進一步在更開放的環(huán)境中、結(jié)合更多工具，持續(xù)拓展和集成Agentic能力，推動通用智能體的落地與演進。

一、背景：信息檢索的新需求與挑戰(zhàn)

在信息爆炸的時代，傳統(tǒng)的搜索引擎已難以滿足用戶對深層次、多步驟信息獲取的需求。從醫(yī)學研究到科技創(chuàng)新，從商業(yè)決策到學術(shù)探索，復雜問題的解決需要深入的信息挖掘和多步推理能力。這催生了對能夠自主思考、自主決策的智能體的需求。

然而，構(gòu)建這樣的智能體面臨諸多挑戰(zhàn)：

理解復雜網(wǎng)頁內(nèi)容：智能體需要具備解析和理解多樣化網(wǎng)頁結(jié)構(gòu)和內(nèi)容的能力。
多步?jīng)Q策與推理：能夠進行任務分解、知識回溯和反復驗證，完成復雜的信息檢索任務。
適應開放動態(tài)環(huán)境：面對不斷變化的網(wǎng)絡環(huán)境，智能體需要具備強大的適應能力。
自主行動：智能體應能自主采取行動并進行自我修正。

二、突破訓練數(shù)據(jù)難獲得問題

在自主信息檢索領(lǐng)域，高質(zhì)量的訓練數(shù)據(jù)至關(guān)重要。然而，現(xiàn)有的數(shù)據(jù)集如2WIKI，HotpotQA多為淺層次問題，難以支持復雜多步推理的訓練需求。

為解決數(shù)據(jù)稀缺問題，WebDancer提出了兩種創(chuàng)新的數(shù)據(jù)合成方法：

CRAWLQA：通過模擬人類瀏覽行為，從權(quán)威網(wǎng)站（如arXiv、GitHub、Wikipedia等）中爬取網(wǎng)頁信息，生成復雜的問答對，確保數(shù)據(jù)的多樣性和真實性。這一技術(shù)方案與中稿在ACL2025的WebWalker類似。
E2HQA：采用“由簡到難”的策略，從簡單問題出發(fā)，逐步增加問題的復雜度，構(gòu)建多步推理的問答對，促進智能體能力的逐步進化。為了保證QA對的合法驗證保持答案不變，對問題進行改寫。

ReAct框架與思維鏈蒸餾

ReAct框架是WebDancer 的基礎。一個ReAct軌跡包含多個思考-行動-觀察 (Thought-Action-Observation) 循環(huán)。智能體生成Thought（自由形式的思考），Action（結(jié)構(gòu)化的行動，用于與環(huán)境工具互動），并接收Observation（來自環(huán)境的反饋）。這個過程迭代進行，直到任務完成，最終行動是 answer。可能的行動包括search，visit和answer。

思考鏈 (Chain-of-Thought, CoT) 對于智能體的執(zhí)行至關(guān)重要，它使得高層工作流規(guī)劃、自我反思、信息提取和行動規(guī)劃成為可能。

論文探索了構(gòu)建短CoT和長CoT的方法。對于短CoT，直接使用強大的模型（如 GPT-4o）在ReAct框架下生成軌跡。對于長CoT，則順序地向推理模型 (LRM) 提供歷史行動和觀察，讓其自主決定下一步行動，并記錄其中間推理過程作為當前的Thought。

在獲得問答對后，WebDancer利用ReAct框架，結(jié)合閉源的GPT-4o和開源的QwQ模型，進行長短思維鏈的蒸餾，生成高質(zhì)量的agentic數(shù)據(jù)。這種方式簡潔高效，滿足了對Agentic Model的需求。

數(shù)據(jù)過濾與質(zhì)量提升

為了確保數(shù)據(jù)質(zhì)量，WebDancer采用了多階段的數(shù)據(jù)過濾策略：

有效性控制：剔除不符合指令的數(shù)據(jù)。
正確性驗證：僅保留結(jié)果正確的數(shù)據(jù)。
質(zhì)量評估：通過規(guī)則過濾掉出現(xiàn)嚴重repetition或思考冗余的數(shù)據(jù)，確保數(shù)據(jù)的多樣性和邏輯性。

這些嚴格的過濾策略，確保了訓練數(shù)據(jù)的高質(zhì)量，為智能體的高效學習提供了保障。

三、解決開放網(wǎng)絡環(huán)境難訓練

在開放環(huán)境中訓練智能體是一項極具挑戰(zhàn)性的任務。網(wǎng)絡環(huán)境的動態(tài)變化和部分可觀測性，使得智能體需要具備強大的適應能力和泛化能力。

為應對這些挑戰(zhàn)，WebDancer采用了兩階段的訓練策略：

監(jiān)督微調(diào)（SFT）在高質(zhì)量軌跡數(shù)據(jù)上進行微調(diào)，使智能體快速適應任務需求，掌握在復雜環(huán)境中進行推理和決策的能力。為了避免外部反饋（Observation）的干擾，損失函數(shù)會屏蔽掉 Observation 的貢獻，只計算智能體自主決策步驟（Thought 和 Action）的損失。這已被證明能提高性能和魯棒性。
強化學習（RL）通過與環(huán)境的交互，智能體不斷試錯，學習在復雜多變的環(huán)境中做出最優(yōu)決策。WebDancer采用了先進的DAPO算法，動態(tài)采樣未被充分利用的數(shù)據(jù)對，提高數(shù)據(jù)效率和策略的魯棒性。DAPO 通過最大化一個目標函數(shù)來進行策略更新，該目標函數(shù)考慮了候選軌跡的獎勵和優(yōu)勢項。優(yōu)勢項基于批次內(nèi)的原始獎勵值進行歸一化計算。

WebDancer通過動態(tài)采樣機制，優(yōu)先采樣那些未被充分利用的數(shù)據(jù)對，確保數(shù)據(jù)的高效利用，增強了智能體的泛化能力。

強化學習階段的高計算成本和時間開銷一直是開放環(huán)境訓練的一大難題。WebDancer通過優(yōu)化算法和硬件資源的高效利用，顯著降低了強化學習的成本。

四、實驗與結(jié)果

WebDancer的創(chuàng)新策略在多個信息檢索基準測試中得到了充分驗證。

GAIA 數(shù)據(jù)集

GAIA數(shù)據(jù)集旨在評估通用人工智能助手在復雜信息檢索任務上的表現(xiàn)。WebDancer在GAIA數(shù)據(jù)集上的表現(xiàn)尤為突出，在不同難度的任務中均取得了高分，展現(xiàn)了其強大的泛化能力。

WebWalkerQA 數(shù)據(jù)集

WebWalkerQA數(shù)據(jù)集專注于深度網(wǎng)絡信息檢索。WebDancer在該數(shù)據(jù)集上的表現(xiàn)同樣出色，尤其是在中等難度和高難度任務中，其性能提升更為明顯。

表現(xiàn)最佳的模型在GAIA基準測試中達到了61.1%的Pass@3分數(shù)，在WebWalkerQA基準測試中達到了54.6%的Pass@3分數(shù)。

BrowseComp 數(shù)據(jù)集

在更具挑戰(zhàn)性的BrowseComp（英文）和BrowseComp-zh（中文）數(shù)據(jù)集上，WebDancer同樣展現(xiàn)出了強大的性能，進一步證明了其在處理復雜信息檢索任務方面的魯棒性和有效性。

五、深入分析：Agent模型的訓練

實驗一分析：

強化學習（RL）在提升普通指令模型（Instruction Model）性能方面表現(xiàn)顯著，尤其在提升Pass@1采樣準確率方面效果突出，其效果甚至可接近Pass@3。

然而，對于如QwQ這類以推理為核心的模型，RL的提升效果相對有限，主要體現(xiàn)在采樣結(jié)果的穩(wěn)定性上。這一差異可能與agentic 任務中決策軌跡較長、推理過程更復雜有關(guān)。

實驗二分析：

Agentic數(shù)據(jù)的質(zhì)量遠比數(shù)量更為關(guān)鍵。

團隊在QwQ模型上僅使用約6000條高質(zhì)量、具備長思維鏈的訓練數(shù)據(jù)，就在GAIA任務中取得了優(yōu)異的效果，表明精細構(gòu)造的思維軌跡在復雜任務中的價值遠高于海量但粗糙的數(shù)據(jù)。

實驗三分析：

長短思維鏈的模式在不同類型模型之間并不具備良好的可遷移性。

盡管長思維鏈對指令模型和推理模型均能帶來性能提升，但其同時也顯著增加了非法生成（如重復內(nèi)容）的概率，尤其在參數(shù)規(guī)模較小的模型上更為嚴重。這表明在設計長思維鏈訓練數(shù)據(jù)時，需要在有效性與體驗感之間做好平衡。

六、未來展望

更多工具的集成

目前，WebDancer僅集成了兩種基本的信息檢索工具，未來計劃引入更多復雜的工具，如瀏覽器建模和Python沙盒環(huán)境，使智能體能夠執(zhí)行更復雜的任務。

任務泛化與基準擴展

目前的實驗主要集中在短答案信息檢索任務上，未來WebDancer將擴展到開放域的長文本寫作任務，對智能體的推理能力和生成能力提出更高的要求。

在本研究中，致力于從頭訓練一個具備強大Agent能力的模型，重點探索如何在開源體系中構(gòu)建高效的Agentic模型架構(gòu)。這不僅有助于推動智能體模型的開源進程，也對于理解智能體在開放環(huán)境中如何涌現(xiàn)與擴展（scale）其能力具有基礎性意義。

采用原生的ReAct框架，強調(diào)簡潔性與通用性，體現(xiàn)了“大道至簡”的工程理念。所謂Agentic模型，指的是那些天生支持推理、決策及多步工具調(diào)用的基礎模型（foundation models）。能夠僅憑任務描述提示，即可展現(xiàn)出如規(guī)劃、自我反思、行動執(zhí)行等一系列突現(xiàn)能力（emergent capabilities），從而在交互式環(huán)境中表現(xiàn)出近似智能體的行為。

近年來，系統(tǒng)如DeepSearch和DeepResearch顯示出強大底層模型如何作為智能體核心，通過其原生支持的工具調(diào)用與迭代式推理，完成自主的網(wǎng)絡環(huán)境交互。然而，考慮到網(wǎng)絡環(huán)境的動態(tài)性與部分可觀測性，強化學習（RL）在提升智能體的適應性與魯棒性方面起到了關(guān)鍵作用。

因此，團隊的目標是通過針對性的后訓練（post-training），在開源基礎模型中激發(fā)出更具通用性與自主性的Agent能力，從而為構(gòu)建可持續(xù)、可控的智能體生態(tài)奠定基礎。

論文鏈接：https://arxiv.org/pdf/2505.22648
代碼鏈接：https://github.com/Alibaba-NLP/WebAgent

責任編輯：張燕妮來源：量子位

模型訓練 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里智能體多輪推理超越GPT-4o，開源模型也能做Deep Research

一、背景：信息檢索的新需求與挑戰(zhàn)

二、突破訓練數(shù)據(jù)難獲得問題

三、解決開放網(wǎng)絡環(huán)境難訓練

四、實驗與結(jié)果

五、深入分析：Agent模型的訓練

六、未來展望