網頁智能體新突破!引入協同進化世界模型,騰訊AI Lab提出新框架
讓網頁智能體自演進突破性能天花板!
騰訊AI Lab提出WebEvolver框架,通過引入協同進化的世界模型(World Model),讓智能體在真實網頁環境中實現10%的性能提升。
由此突破現有基于大語言模型(LLM)的網頁智能體“自我迭代演進的性能最終會停滯”的瓶頸。
下面的案例展示了世界模型在GitHub搜索界面中的合成軌跡生成能力:
研究指出,世界模型具有知識遷移能力,盡管世界模型未專門訓練過GitHub中“點擊排序菜單”這類操作,卻能準確生成GitHub搜索的排序選項(如“最佳匹配”、“最多星標”等),這表明LLM內建的網頁結構常識知識具有可遷移性。
另外研究還指出世界模型具有多樣化軌跡生成能力,世界模型生成的菜單項與真實網站高度吻合,證明其能有效提升與未見過網站的交互多樣性,這種能力源于LLM預訓練階段吸收的海量網頁知識。
團隊認為,該發現驗證了世界模型作為“虛擬網頁引擎”的核心價值——即使存在輕微幻覺,其生成的多樣化軌跡仍能顯著提升Agent的訓練效果。
以下是論文詳情。
引入協同進化的世界模型
最近,世界模型迎來了一波熱潮:Yann Lecun推出了全新的世界模型V-JEPA 2,谷歌也發布了理論成果,證明General agents need world models,這些進展都凸顯了世界模型在智能體發展中的重要性。
論文指出,當前智能體自我迭代的瓶頸源于兩大核心問題:
- 探索局限:隨著訓練深入,智能體策略趨于保守,難以發現新狀態和動作
- 知識閑置:LLM預訓練時積累的海量網頁知識未被充分激活
就像人類需要想象力來規劃行動,智能體也可以使用一個’大腦模擬器’來預演不同操作的結果。
研究團隊創新性地引入了協同進化的世界模型LLM。
在網頁Agent場景中,世界模型被定義為這樣一種LLM:
其輸入為(當前網頁觀測、待執行的操作),輸出則是執行該操作后的網頁觀測。
盡管在此過程中可能會出現“幻覺”問題,例如LLM無法輸出實時信息,或其內部存儲的網頁知識可能存在錯誤,但這并不影響整體框架的有效性。因為本文的核心目標是讓智能體在多樣化的網站環境中進行穩健推理,而非要求世界模型完美預測下一頁面。
(注:未來研究可聚焦于細粒度的下一頁面預測,具體可通過在生成過程中對實時信息進行占位符掩碼處理,等待外部工具填充真實數據來實現。)
這個世界模型扮演著雙重角色:
1、虛擬服務器:生成多樣化的合成訓練軌跡
通過世界模型模擬與未見網頁的交互。具體操作為,將原本網頁智能體系統中的網頁服務器直接替換為世界模型LLM來進行交互、采集生成的軌跡,作為額外的訓練數據(圖2上半部分)。
2、想象引擎:推理時多步前瞻推演
使用類似WebDreamer的基于LLM對未來預測進行action篩選的方法,在每一步action生成時生成多個候選,利用世界模型來對每個action未來1~3步的結果進行預測。使用GPT-4o對候選動作評估潛在收益后執行最佳操作(圖2下半部分)。
協同自演進實驗技術方案詳解
本研究構建了一個完整的自演進學習框架,其核心組件包括:
基礎架構
- 數據集:OpenWebVoyager標準數據集(包含48種網站)
- 框架支持:Cognitive Kernel Agent瀏覽器交互環境
- 基座模型:純文本大模型Llama-3.3(70B參數版本)
數據采集流程
- 采用Cognitive Kernel+Llama-3.3組合進行多步軌跡采樣
- 通過”拒絕采樣”機制篩選成功完成的軌跡
- 保留軌跡中的完整推理鏈(Chain-of-Thought)信息
雙模型協同訓練機制
- Agent策略模型:學習軌跡中的動作決策模式
- 世界模型:重構為”當前觀察+動作→下一觀察”的預測任務
- 兩模型共享采樣數據但采用不同訓練目標函數
技術突破點
- 首創將瀏覽器交互軌跡同時用于策略模型和世界模型訓練
- 通過軌跡格式轉換實現單數據源多任務學習
- 建立可擴展的自演進訓練范式(iterative bootstrapping)
重復多輪(3輪)自演進之后,在WebVoyager和Mind2web-live數據集上進行測試,自演進結果:
結果:
- 自演進baseline在第二輪后增長受限
- 世界模型對突破性能瓶頸的關鍵作用
- 合成軌跡數據有效提升探索多樣性
- 多步前瞻(d=2)達到最佳性價比
在GAIA和SimpleQA (前100條數據,和bing.com進行交互搜索) 這兩個有標準答案的數據上進行out-of-domain測試,也能顯著提升結果。
團隊對世界模型的網頁建模能力也進行了一些評估,在測試的軌跡里采樣了一些軌跡,讓世界模型根據上一步觀測和執行的action預測下一步的觀測。
評估標準為:
- 結構正確性(STR):檢驗生成網頁的可訪問性樹在層級結構和元素關系上是否符合真實網頁的拓撲邏輯
- 內容相似度(Sim.):量化生成內容與真實網頁在文本語義層面的匹配程度
- 整體功能評估(O/A):綜合判斷生成網頁在交互功能和語義表達上的可用性
評估重點特別關注交互元素(按鈕/輸入框等)的功能完整性、動態內容(如搜索結果)的邏輯合理性、網頁核心功能的可操作性。
該評估體系有效驗證了世界模型對網頁狀態變化的預測能力,為模型優化提供了量化依據。發現世界模型的能力隨著自演進的步驟提升而上升。
總之,WebEvolver框架通過世界模型與智能體的協同進化,成功突破傳統自演進智能體的性能天花板。該技術為構建持續進化的通用網絡智能體提供了新范式,為后續無環境RL的實現提供引導。
論文網址:https://arxiv.org/pdf/2504.21024
GitHub:https://github.com/Tencent/SelfEvolvingAgent/tree/main/WebEvolver