成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<noscript id="migcy"></noscript><ul id="migcy"><noframes id="migcy"></noframes></ul>

<code id="migcy"><object id="migcy"></object></code>

<noscript id="migcy"></noscript>

<menu id="migcy"><s id="migcy"></s></menu>

<ul id="migcy"><small id="migcy"></small></ul>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

RAG升級二維戰士！通義實驗室放大招

發布于 2025-1-23 10:07

瀏覽

0收藏

??摘要

檢索增強生成（RAG）在開放域問答任務中表現出色。然而，傳統搜索引擎可能會檢索淺層內容，限制了大型語言模型（LLM）處理復雜、多層次信息的能力。為了解決這個問題，我們引入了WebWalkerQA，一個旨在評估LLM執行網頁遍歷能力的基準。它評估LLM系統性地遍歷網站子頁面以獲取對應信息的能力。同時我們提出了WebWalker，一個通過explorer-critic范式模擬人類網頁導航的multi-agent框架。廣泛的實驗結果表明，WebWalkerQA具有挑戰性，證明了結合WebWalker的RAG在實際場景中通過橫向搜索和縱向頁面挖掘集成的有效性。

RAG場景下，搜索引擎只是對query的橫向網頁搜索，缺少對搜索到的網頁進行縱向的深度深挖！

RAG升級二維戰士！通義實驗室放大招-AI.x社區

1?? 動機：

大型語言模型（LLM）通常處于知識固定狀態（無法實時更新）。盡管使用檢索增強生成（RAG）可以獲取最新信息，但傳統搜索引擎（如谷歌、百度等）的橫向搜索方式限制了對信息的深層挖掘能力，無法像人類一樣通過逐步點擊等操作獲取更多細節，從而更“聰明”地獲取所需信息。因此，作者提出了一個新任務——Web Traversal，旨在給定與查詢相關的初始網站，系統地遍歷網頁以揭露隱藏在其中的信息。

2?? WebWalkerQA和WebWalker：

[Dataset] WebWalkerQA：根據網站的URL樹，通過四個階段，構建單源/多源的easy、medium、hard難度的QA對，涵蓋四種常見官網來源及中英兩種語言。

RAG升級二維戰士！通義實驗室放大招-AI.x社區

[Method] WebWalker：采用多代理框架，由一個探測代理（explorer agent）和一個裁判代理（critic agent）組成。探測代理基于ReAct，遵循思考-行動-觀察范式，模擬人在網頁中點擊按鈕跳轉頁面的過程；裁判代理則負責存儲搜索過程中的信息，在探測代理點擊的過程中，保存對查詢有幫助的信息，并判斷何時能夠停止探測代理的探索。

RAG升級二維戰士！通義實驗室放大招-AI.x社區

3?? 實驗：

Table3展示了不同模型作為backbone，WebWalkerQA使用不同方法的代理性能結果?？梢园l現即使是最好的模型gpt-4o在這個任務也表現較差，任務中可能涉及到多跳推理和對文本的推理的能力。

RAG升級二維戰士！通義實驗室放大招-AI.x社區

Table4顯示了在close book和目前較好的開源及商用RAG系統上的性能。在close book 設置下正確率只有10%，因為WebwalkerQA具有高時效性，而LLM具有知識的cutoff，這與第一個limitation呼應。在源及商用RAG系統上，最好的效果也只有40，驗證了第二個limitation，傳統搜索引擎可能會檢索淺層內容，即使很多閉源的RAG系統使用了query改寫或者agentic的操作，但是還是沒有一步到位定位到的需要的web information source。

RAG升級二維戰士！通義實驗室放大招-AI.x社區

還包括一系列分析實驗，如下：

RAG升級二維戰士！通義實驗室放大招-AI.x社區

值得注意的是，webwalker中的memory對于回答query是非常重要的。如果rag鏈路中的搜索引擎可以當作對query進行橫向搜索，webwalker是對頁面的縱向深度探索，這是完全可以互補的。

因此可以把webwalker中的memory拼接到rag鏈路上，這種橫向和縱向整合表現出色，在所有類別和難度的數據集上效果均有提升，證明了垂直探索頁面對于提升RAG性能的潛力。這是對RAG二維探索的首次嘗試！

此外，對webwalker 的挖掘點擊次數進行scale up，看是否能得到更好的、更多的memory信息，隨著挖掘點擊次數的增大，不僅在webwalker上有較大提升，把memory加入到rag系統之后，性能也隨之提升。這給rag系統進行test-time的拓展提供了新的角度。

?? WebWalker的設計讓人聯想到pair programming（對編程），即兩人協作，一個寫代碼，一個檢查bug。探測代理和裁判代理的功能其實類似于這種協作。

?? 文章最后提出了三項發現，首次提出了RAG二維探索的scaling潛力，探討如何更“聰明”地進行橫向和垂直兩個方向的探索（test-time compute）。

作者介紹：本文主要作者來自通義實驗室和東南大學。

通訊作者是通義實驗室蔣勇和東南大學周德宇。

第一作者吳家隆，東南大學碩士二年級，主要研究方向是Agent和Efficient NLP，該工作在阿里巴巴通義實驗室RAG團隊科研實習完成

本文轉載自 ??NLP前沿??，作者： ??NLP前沿??

標簽

贊

收藏

回復

舉報

回復

相關推薦

英特爾實驗室最新成果：LLaMA-NAS — — 大型語言模型的高效神經架構搜索

xuxiangda ? 4436瀏覽 ? 0回復
為消除幻覺，Amazon Bedrock開大招！推出上下文基礎和 RAG 連接器！

51CTO技術棧 ? 3356瀏覽 ? 1回復
從噪聲中提取情感：中山大學與騰訊AI實驗室基于元學習的多模態情感分析新方法

xuxiangda ? 4449瀏覽 ? 0回復
“創造神跡” -> “打造利器”：AI 從實驗室走向市場的五大障礙

Baihai_IDP ? 2440瀏覽 ? 0回復
國家人機混合增強智能重點實驗室項目：利用生成世界模型優化多智能體系統決策

xuxiangda ? 2790瀏覽 ? 0回復
RAG遇上知識沖突，Google祭出終極大招！

NLP前沿1 ? 2351瀏覽 ? 0回復
谷歌放大招開源SynthID Text，火眼金睛鑒別AI，還能為AI生成的多媒體內容添加隱形水??！

51CTO技術棧 ? 2543瀏覽 ? 0回復
騰訊放大招，超Meta！史上參數最大，開源專家混合模型

Aceryt ? 2175瀏覽 ? 0回復
GraphRAG與傳統RAG怎么選？二者的融合方案是什么

AI博物院 ? 3137瀏覽 ? 0回復
阿里巴巴語音實驗室發布開源語音處理框架ClearerVoice-Studio，支持語音增強、分離、目標說話人提取

Halo咯咯 ? 3485瀏覽 ? 0回復
突破與超越：CosyVoice 2.0—阿里巴巴通義實驗室的語音進階新作

穿越時空111 ? 5307瀏覽 ? 0回復
阿里巴巴語音實驗室發布新成果，多模態方法顯著提升視頻主題分割性能

xuxiangda ? 2598瀏覽 ? 0回復
用AI實驗室加速科研：讓科學家專注于創意，告別瑣碎！

sbf_2000 ? 2454瀏覽 ? 0回復
華為諾亞方舟實驗室突破具身AI瓶頸， SpatialCoT通過坐標對齊和思路鏈推進空間推理

xuxiangda ? 3629瀏覽 ? 0回復
Gemini 2.0 Flash Thinking：谷歌放大招！能"直播思考"的AI來了，推理能力吊打OpenAI？

Halo咯咯 ? 5006瀏覽 ? 0回復
中國科大認知全重實驗室發布Agent-R1訓練框架，支持自主思考與工具調用！

arnoldzhw ? 1510瀏覽 ? 0回復
Meta放大招！Llama 4三大模型來襲，開源免費還超能打

Halo咯咯 ? 2520瀏覽 ? 0回復
OpenAI深夜放大招！GPT-4.1系列震撼發布：百萬token上下文+性能全面碾壓，性價比拉滿

AI博物院 ? 1317瀏覽 ? 0回復
并肩谷歌，DeepSeek成全球第二大AI實驗室！中國AI如何改寫全球開源版圖？

算家計算 ? 806瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

阿里開源VRAG-RL：定義下一代檢索增強生成 2025-06-16 07:56:18發布
RAG應用要如何吃到大模型長上下文的紅利？-LongRAG 2025-06-04 06:19:46發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： CAG來了，RAG慌了？

下一篇：只需50美元！最簡單的推理擴展方案，效果媲美o1！

社區精華內容

目錄

主站蜘蛛池模板： 91精品国产91久久久久久吃药 | 国产乱码精品一区二区三区五月婷 | 亚洲激情在线观看 | 一区二区成人 | 国产精品九九九 | 国产重口老太伦 | 日韩在线视频一区 | 精品蜜桃一区二区三区 | 日韩欧美精品在线 | 午夜欧美一区二区三区在线播放 | 国产精品久久久久久久久大全 | 久久av.com | 一区中文字幕 | av在线播放网址 | 99re在线视频 | 精品一区二区三区在线播放 | 久久久www成人免费精品 | 午夜欧美 | 亚洲国产高清高潮精品美女 | 久久久久久国产免费视网址 | 欧美日本国产 | 一级做受毛片免费大片 | 婷婷色国产偷v国产偷v小说 | 成人伊人 | 97久久超碰 | 亚洲男人网 | 精品乱码一区二区 | 日韩三级一区 | 欧美黄色大片在线观看 | 中文字幕免费视频 | 国产美女一区二区 | 国产一区二| 亚洲www啪成人一区二区麻豆 | 欧美日韩国产精品一区 | 北条麻妃av一区二区三区 | 欧美一级在线 | 91精品国产91久久综合桃花 | 国产一区二区av | 欧美一二三区 | 久久欧美精品 | 97精品超碰一区二区三区 |

<noscript id="8c0gy"></noscript>

<center id="8c0gy"><noframes id="8c0gy"></noframes></center>

<menu id="8c0gy"><optgroup id="8c0gy"></optgroup></menu>

<noscript id="8c0gy"><menu id="8c0gy"></menu></noscript>

<code id="8c0gy"><object id="8c0gy"></object></code>

<option id="8c0gy"><optgroup id="8c0gy"></optgroup></option>

<delect id="8c0gy"><abbr id="8c0gy"></abbr></delect>

<option id="8c0gy"><blockquote id="8c0gy"></blockquote></option>

<center id="8c0gy"></center>