成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepReaserch智能體突破:阿里WebDancer原生Agentic Model讓AI自己「上網找答案」

發布于 2025-6-5 06:02
瀏覽
0收藏

作者介紹:本文作者來自通義實驗室RAG團隊,致力于面向下一代RAG技術進行基礎研究。該團隊的WebWalker工作也被ACL2025 main conference錄用。

在當今信息爆炸的時代,如何高效地從海量的網絡數據中獲取有價值的信息,成為了人們面臨的一大挑戰。傳統的搜索引擎雖然能夠提供大量的信息,但在處理復雜的多步推理任務時往往顯得力不從心。來自阿里巴巴通義實驗室的研究員提供了WebDancer,一個原生的信息檢索的Agentic Model,使之能夠像完成類DeepResearch的自主瀏覽網頁、思考和決策,為我們解決復雜的網絡信息檢索問題提供了新的思路。

我們解讀最新技術,文末有相關信息。

DeepReaserch智能體突破:阿里WebDancer原生Agentic Model讓AI自己「上網找答案」-AI.x社區

以下是一些運行的case:

DeepReaserch智能體突破:阿里WebDancer原生Agentic Model讓AI自己「上網找答案」-AI.x社區

我們可以看到WebDancer可以完成多步的信息檢索,包含多步思考和action執行,在運行過程中進行完成自主的任務拆解、知識回溯和反復驗證。

DeepReaserch智能體突破:阿里WebDancer原生Agentic Model讓AI自己「上網找答案」-AI.x社區

一、背景

在現實生活中,我們常常需要解決各種復雜的多步推理問題,這些問題往往需要從多個網頁中獲取信息,并進行綜合分析和推理才能得出答案。例如,當我們想要了解某個歷史事件的詳細經過時,可能需要查閱多個不同來源的網頁,對比和分析其中的信息,才能還原事件的全貌。這種復雜的信息檢索任務,對于傳統的搜索引擎來說是非常困難的,因為它們通常只能提供單步的搜索結果,而無法像人類一樣進行多步的推理和決策。

近年來,隨著大型語言模型(LLMs)和大型推理模型(LRMs)的發展,人們開始嘗試將這些模型應用于信息檢索任務中。然而,這些模型在處理復雜的多步推理任務時,仍然存在一些局限性。例如,直接利用提示工程技術來引導這些模型執行復雜任務,往往無法充分利用模型的推理能力;而將搜索或瀏覽能力整合到智能體中,雖然可以通過監督微調(SFT)或強化學習(RL)來訓練,但現有的訓練數據集相對簡單,無法涵蓋現實世界中的復雜挑戰。

為了解決這些問題,WebDancer應運而生。它基于ReAct框架,通過一種數據驅動和分階段訓練的方法,構建了一個能夠自主進行多步信息檢索的智能體。WebDancer的出現,標志著我們在自主智能體領域,訓練類DeepResearch的模型邁出了重要的一步。

二、WebDancer的核心技術

WebDancer的核心創新體現在三個層面:

  1. 數據合成的層次化設計:通過兩種方法來合成數據集實現了兼顧“廣度覆蓋”與“深度升級”的數據集體系,解決了傳統數據集規模小、場景單一的問題。實驗表明,混合使用兩類數據集可使模型在GAIA基準的Pass@1指標顯著提升。
  2. 長短推理鏈的協同訓練:提出將LLM生成的短推理鏈與LRM生成的長推理鏈結合,通過拒絕采樣機制融合不同粒度的推理模式。消融實驗顯示,長推理鏈對復雜問題(GAIA Level 3)的解決率有顯著貢獻,驗證了多尺度推理的必要性。
  3. 動態采樣的強化學習策略:DAPO算法通過過濾準確率極端的樣本(0或1),聚焦難樣本的迭代優化,使RL階段的數據利用效率顯著提升。

具體來說,WebDancer的構建過程可以分為四個關鍵階段:瀏覽數據構建、軌跡采樣、監督微調以及強化學習。

(一)瀏覽數據構建

為了訓練WebDancer,首先需要構建高質量的瀏覽數據。這些數據需要反映多樣化的用戶意圖和豐富的交互上下文。WebDancer采用了兩種方法來合成數據集:CRAWLQA和E2HQA。

CRAWLQA通過爬取網頁來構建基于網頁信息的問答對。它從一些富含知識的網站(如arxiv、github、wiki等)的source頁面開始,模擬人類的瀏覽行為,遞歸地導航到子頁面,并收集頁面上的信息。然后,利用GPT-4o等大型語言模型,根據收集到的信息生成合成的問答對。這些問答對涵蓋了多種類型的問題,如計數問題、多跳問題和交集問題等,能夠有效地激發模型的多步推理能力。

DeepReaserch智能體突破:阿里WebDancer原生Agentic Model讓AI自己「上網找答案」-AI.x社區


E2HQA則采用了一種從簡單到復雜的問答對合成方法。它從簡單的問答對開始,通過逐步增加問題的復雜性,將簡單的問題轉化為復雜的多步問題。具體來說,它首先從簡單的問題中選擇一個實體,然后利用搜索引擎獲取與該實體相關的信息,并根據這些信息重新構造問題。通過這種方式,可以逐步將一個簡單的問題轉化為一個需要多步推理才能解決的復雜問題。

(二)軌跡采樣

在構建了高質量的問答對之后,WebDancer需要采樣出高質量的軌跡來指導智能體的學習過程。軌跡采樣采用了拒絕采樣方法,結合了短鏈思考(Short-CoT)和長鏈思考(Long-CoT)兩種策略。

短鏈思考軌跡是通過直接利用ReAct框架,使用強大的模型(如GPT-4o)來收集的。而長鏈思考軌跡則是通過逐步提供歷史動作和觀察結果給推理模型(如QwQ-Plus),讓模型自主決定下一步的動作。在采樣過程中,會進行多次拒絕采樣,以確保生成的軌跡的質量和連貫性。

(三)監督微調

監督微調階段的目的是讓模型適應智能體任務的格式和環境。在這個階段,WebDancer利用前面采樣得到的高質量軌跡,對模型進行微調。通過這種方式,模型能夠學習到如何在智能體任務中交替進行推理和行動,從而更好地完成多步信息檢索任務。

(四)強化學習

強化學習階段的目標是將智能體能力內化到推理模型中,增強模型在多步、多工具使用場景下的能力。WebDancer采用了Decoupled Clip and Dynamic Sampling Policy Optimization(DAPO)算法來進行強化學習。DAPO算法通過動態采樣機制,有效地利用了在監督微調階段未充分利用的問答對,提高了數據效率和策略的魯棒性。

DeepReaserch智能體突破:阿里WebDancer原生Agentic Model讓AI自己「上網找答案」-AI.x社區

三、WebDancer的實驗結果

WebDancer在兩個具有挑戰性的信息檢索基準測試——GAIA和WebWalkerQA上進行了實驗評估。實驗結果表明,WebDancer在這些基準測試中取得了顯著的性能提升,證明了其訓練范式的有效性。 我們表現最佳的模型在GAIA基準測試中達到了61.1%的Pass@3分數,在WebWalkerQA基準測試中達到了54.6%的Pass@3分數。

DeepReaserch智能體突破:阿里WebDancer原生Agentic Model讓AI自己「上網找答案」-AI.x社區

四、未來展望:WebDancer 的新征程

盡管 WebDancer 已經取得了令人矚目的成就,但它的發展之路還遠未結束。未來,WebDancer 將在多個方向上繼續探索和創新。

(一)更多工具的集成

目前,WebDancer 僅集成了兩種基本的信息檢索工具,未來計劃引入更多復雜的工具,如瀏覽器建模和 Python 沙盒環境。這些工具將使智能體能夠執行更復雜的任務,如網頁瀏覽、數據抓取、API 調用等,從而拓展智能體的能力邊界,使其能夠應對更廣泛的挑戰。

(二)任務泛化與基準擴展

目前的實驗主要集中在短答案信息檢索任務上,未來 WebDancer 將擴展到開放域的長文本寫作任務。這將對智能體的推理能力和生成能力提出更高的要求,需要設計更可靠和更有效的獎勵信號。同時,WebDancer 也將參與更多基準測試,以驗證其在不同任務類型和領域中的泛化能力。

五、討論:Post-train Agentic Models

相比于一些驅動于強大的具有很強的agentic能力的閉源模型,例如gpt-o4,claude的promtpting工程框架,本研究的側重點在從頭訓練一個具有強大agent能力的模型,這對于實現agent model的開源以及推進我們對agent在開放系統中如何產生和scale的基本理解至關重要。我們使用的的原生ReAct框架秉持著簡潔性,體現了大道至簡的原則。 Agentic models是指那些在交互式環境中,天生支持推理、決策以及多步驟工具使用的foundation models。這些模型僅通過任務描述的提示,就能展現出諸如規劃、自我反思以及行動執行等突發性能力(emergent capabilities)。 近期的 DeepSearch 和 Deep Research 等系統,展示了強大的底層模型如何作為智能體的核心,通過其對工具調用和迭代推理的天然支持,實現自主的網絡交互。然而,由于網絡環境本質上是動態的且部分可觀察的,強化學習在提升智能體的適應性和魯棒性方面發揮了關鍵作用。在本研究中,我們的目標是通過有針對性的后訓練(post-training),在開源模型中激發自主智能體的能力。

六、WebDancer的意義與展望

WebDancer的出現,不僅為解決復雜的多步信息檢索問題提供了一種新的方法,也為自主智能體的研究和發展提供了重要的啟示。通過數據驅動和分階段訓練的方法,WebDancer成功地構建了一個能夠自主進行多步信息檢索的智能體,為未來智能體的發展提供了新的思路和方向。

WebDancer與Deep Research在目標上具有一致性,如果通過更系統化的方法來構建和訓練智能體,使其能夠更好地適應復雜的網絡環境仍是一個開放并且具有挑戰的課題。

總之,WebDancer的出現為我們解決復雜的網絡信息檢索問題提供了一種新的可能性。隨著技術的不斷發展和完善,我們有理由相信,未來的自主智能體將在更多的領域發揮重要作用,為我們的生活和工作帶來更多的便利和創新。

參考資料

  • 《WebDancer: Towards Autonomous Information Seeking Agency》,Jialong Wu, Baixuan Li, Runnan Fang, Wenbiao Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Zekun Xi, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou,阿里巴巴通義實驗室,https://arxiv.org/pdf/2505.22648
  • 《ReAct: Synergizing Reasoning and Acting in Language Models》,Shunyu Yao等,普林斯頓大學,https://arxiv.org/abs/2210.03629
  • 《GAIA: A Benchmark for General AI Assistants》,Grégoire Mialon等,Meta AI,https://arxiv.org/abs/2311.12983

本文轉載自??旺知識??,作者:旺知識

已于2025-6-5 10:38:10修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 免费一级大片 | 国产98色在线 | 日韩 | 国产成人久久精品一区二区三区 | 黄色大片在线视频 | 日韩中文一区二区三区 | 日韩电影免费观看中文字幕 | 亚州视频在线 | 日韩精品无码一区二区三区 | 久久精品国产久精国产 | 国产精品1区 | 精品中文字幕一区二区三区 | 精品国产青草久久久久96 | 免费黄色录像视频 | 国产一区免费 | av片网站| 国产婷婷色一区二区三区 | 亚洲电影一区二区三区 | 日韩高清一区二区 | 午夜www| 亚洲一区二区视频 | 国产精品久久久久久久免费大片 | 国产www在线 | 一区二区三区四区不卡视频 | 精品视频一区二区三区 | 国产欧美视频一区二区三区 | 午夜网 | 天堂av影院 | 久久91| 一二三四av | 国产片一区二区三区 | 欧美精品欧美精品系列 | 国产又爽又黄的视频 | 久久精品播放 | 黄色免费三级 | 青青久久| 欧美在线色视频 | 成人午夜网站 | 亚洲欧美国产精品久久 | 成人福利在线视频 | 99热在线播放 | 中文字幕人成乱码在线观看 |