成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RAG升級二維戰士!通義實驗室放大招

發布于 2025-1-23 10:07
瀏覽
0收藏

??摘要

檢索增強生成(RAG)在開放域問答任務中表現出色。然而,傳統搜索引擎可能會檢索淺層內容,限制了大型語言模型(LLM)處理復雜、多層次信息的能力。為了解決這個問題,我們引入了WebWalkerQA,一個旨在評估LLM執行網頁遍歷能力的基準。它評估LLM系統性地遍歷網站子頁面以獲取對應信息的能力。同時我們提出了WebWalker,一個通過explorer-critic范式模擬人類網頁導航的multi-agent框架。廣泛的實驗結果表明,WebWalkerQA具有挑戰性,證明了結合WebWalker的RAG在實際場景中通過橫向搜索和縱向頁面挖掘集成的有效性。


RAG場景下,搜索引擎只是對query的橫向網頁搜索,缺少對搜索到的網頁進行縱向的深度深挖!

RAG升級二維戰士!通義實驗室放大招-AI.x社區

1?? 動機:

大型語言模型(LLM)通常處于知識固定狀態(無法實時更新)。盡管使用檢索增強生成(RAG)可以獲取最新信息,但傳統搜索引擎(如谷歌、百度等)的橫向搜索方式限制了對信息的深層挖掘能力,無法像人類一樣通過逐步點擊等操作獲取更多細節,從而更“聰明”地獲取所需信息。因此,作者提出了一個新任務——Web Traversal,旨在給定與查詢相關的初始網站,系統地遍歷網頁以揭露隱藏在其中的信息。

2?? WebWalkerQA和WebWalker:

  • [Dataset] WebWalkerQA:根據網站的URL樹,通過四個階段,構建單源/多源的easy、medium、hard難度的QA對,涵蓋四種常見官網來源及中英兩種語言。

RAG升級二維戰士!通義實驗室放大招-AI.x社區

  • [Method] WebWalker:采用多代理框架,由一個探測代理(explorer agent)和一個裁判代理(critic agent)組成。探測代理基于ReAct,遵循思考-行動-觀察范式,模擬人在網頁中點擊按鈕跳轉頁面的過程;裁判代理則負責存儲搜索過程中的信息,在探測代理點擊的過程中,保存對查詢有幫助的信息,并判斷何時能夠停止探測代理的探索。

RAG升級二維戰士!通義實驗室放大招-AI.x社區

3?? 實驗:

  • Table3展示了不同模型作為backbone,WebWalkerQA使用不同方法的代理性能結果??梢园l現即使是最好的模型gpt-4o在這個任務也表現較差,任務中可能涉及到多跳推理和對文本的推理的能力。

RAG升級二維戰士!通義實驗室放大招-AI.x社區

  • Table4顯示了在close book和目前較好的開源及商用RAG系統上的性能。在close book 設置下正確率只有10%,因為WebwalkerQA具有高時效性,而LLM具有知識的cutoff,這與第一個limitation呼應。在源及商用RAG系統上,最好的效果也只有40,驗證了第二個limitation,傳統搜索引擎可能會檢索淺層內容,即使很多閉源的RAG系統使用了query改寫或者agentic的操作,但是還是沒有一步到位定位到的需要的web information source。

RAG升級二維戰士!通義實驗室放大招-AI.x社區

  • 還包括一系列分析實驗,如下:

RAG升級二維戰士!通義實驗室放大招-AI.x社區

值得注意的是,webwalker中的memory對于回答query是非常重要的。如果rag鏈路中的搜索引擎可以當作對query進行橫向搜索,webwalker是對頁面的縱向深度探索,這是完全可以互補的。

因此可以把webwalker中的memory拼接到rag鏈路上,這種橫向和縱向整合表現出色,在所有類別和難度的數據集上效果均有提升,證明了垂直探索頁面對于提升RAG性能的潛力。這是對RAG二維探索的首次嘗試!

此外,對webwalker 的挖掘點擊次數進行scale up,看是否能得到更好的、更多的memory信息,隨著挖掘點擊次數的增大,不僅在webwalker上有較大提升,把memory加入到rag系統之后,性能也隨之提升。這給rag系統進行test-time的拓展提供了新的角度。

?? WebWalker的設計讓人聯想到pair programming(對編程),即兩人協作,一個寫代碼,一個檢查bug。探測代理和裁判代理的功能其實類似于這種協作。

?? 文章最后提出了三項發現,首次提出了RAG二維探索的scaling潛力,探討如何更“聰明”地進行橫向和垂直兩個方向的探索(test-time compute)。

作者介紹:本文主要作者來自通義實驗室和東南大學。 

通訊作者是通義實驗室蔣勇和東南大學周德宇。 

第一作者吳家隆,東南大學碩士二年級,主要研究方向是Agent和Efficient NLP,該工作在阿里巴巴通義實驗室RAG團隊科研實習完成

本文轉載自 ??NLP前沿??,作者: ??NLP前沿??


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 91精品国产91久久久久久吃药 | 国产乱码精品一区二区三区五月婷 | 亚洲激情在线观看 | 一区二区成人 | 国产精品九九九 | 国产重口老太伦 | 日韩在线视频一区 | 精品蜜桃一区二区三区 | 日韩欧美精品在线 | 午夜欧美一区二区三区在线播放 | 国产精品久久久久久久久大全 | 久久av.com | 一区中文字幕 | av在线播放网址 | 99re在线视频 | 精品一区二区三区在线播放 | 久久久www成人免费精品 | 午夜欧美 | 亚洲国产高清高潮精品美女 | 久久久久久国产免费视网址 | 欧美 日本 国产 | 一级做受毛片免费大片 | 婷婷色国产偷v国产偷v小说 | 成人伊人 | 97久久超碰 | 亚洲男人网 | 精品乱码一区二区 | 日韩三级一区 | 欧美黄色大片在线观看 | 中文字幕免费视频 | 国产美女一区二区 | 国产一区二| 亚洲www啪成人一区二区麻豆 | 欧美日韩国产精品一区 | 北条麻妃av一区二区三区 | 欧美一级在线 | 91精品国产91久久综合桃花 | 国产一区二区av | 欧美一二三区 | 久久欧美精品 | 97精品超碰一区二区三区 |