成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

WebWalker:通過Multi Agent提升RAG在開放域QA的性能

發(fā)布于 2025-2-6 15:28
瀏覽
0收藏

WebWalker: Benchmarking LLMs in Web Traversal

檢索增強(qiáng)生成(RAG)在開放域問答任務(wù)中表現(xiàn)出色。然而,傳統(tǒng)搜索引擎可能會(huì)檢索淺層內(nèi)容,限制了大型語言模型(LLM)處理復(fù)雜、多層次信息的能力。為了解決這個(gè)問題,我們引入了WebWalkerQA,一個(gè)旨在評(píng)估LLM執(zhí)行網(wǎng)頁遍歷能力的基準(zhǔn)。它評(píng)估LLM系統(tǒng)性地遍歷網(wǎng)站子頁面以獲取對(duì)應(yīng)信息的能力。同時(shí)我們提出了WebWalker,一個(gè)通過explorer-critic范式模擬人類網(wǎng)頁導(dǎo)航的multi-agent框架。廣泛的實(shí)驗(yàn)結(jié)果表明,證明了結(jié)合WebWalker的RAG在實(shí)際場(chǎng)景中通過橫向搜索和縱向頁面挖掘集成的有效性。

??https://arxiv.org/pdf/2501.07572??

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

1. 為什么要提出 WebWalkerQA

大型語言模型(LLM)通常處于知識(shí)固定狀態(tài)(無法實(shí)時(shí)更新)。盡管使用檢索增強(qiáng)生成(RAG)可以獲取最新信息,但傳統(tǒng)搜索引擎(如谷歌、百度等)的橫向搜索方式限制了對(duì)信息的深層挖掘能力,無法像人類一樣通過逐步點(diǎn)擊等操作獲取更多細(xì)節(jié),從而更“聰明”地獲取所需信息。因此,作者提出了一個(gè)新任務(wù)——Web Traversal,旨在給定與查詢相關(guān)的初始網(wǎng)站,系統(tǒng)地遍歷網(wǎng)頁以揭露隱藏在其中的信息。

2. 什么是WebWalkerQA和WebWalker

?[Dataset] WebWalkerQA:根據(jù)網(wǎng)站的URL樹,通過四個(gè)階段,構(gòu)建單源/多源的easy、medium、hard難度的QA對(duì),涵蓋四種常見官網(wǎng)來源及中英兩種語言。

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

?[Method] WebWalker:采用多智能體框架,由一個(gè)探測(cè)智能體(explorer agent)和一個(gè)裁判智能體(critic agent)組成。

? 探測(cè)智能體基于ReAct,遵循思考-行動(dòng)-觀察范式,模擬人在網(wǎng)頁中點(diǎn)擊按鈕跳轉(zhuǎn)頁面的過程;

? 裁判智能體則負(fù)責(zé)存儲(chǔ)搜索過程中的信息,在探測(cè)代理點(diǎn)擊的過程中,保存對(duì)查詢有幫助的信息,并判斷何時(shí)能夠停止探測(cè)代理的探索。

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

3. 效果評(píng)估

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

? 上表展示了不同模型作為backbone,WebWalkerQA使用不同方法的智能體性能結(jié)果。可以發(fā)現(xiàn)即使是最好的模型gpt-4o在這個(gè)任務(wù)也表現(xiàn)較差,任務(wù)中可能涉及到多跳推理和對(duì)文本的推理的能力。

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

? 上表顯示了在close book和目前較好的開源及商用RAG系統(tǒng)上的性能。在close book 設(shè)置下正確率只有10%,因?yàn)閃ebwalkerQA具有高時(shí)效性,而LLM具有知識(shí)的cutoff,這與第一個(gè)limitation呼應(yīng)。在源及商用RAG系統(tǒng)上,最好的效果也只有40,驗(yàn)證了第二個(gè)limitation,傳統(tǒng)搜索引擎可能會(huì)檢索淺層內(nèi)容,即使很多閉源的RAG系統(tǒng)使用了query改寫或者agentic的操作,但是還是沒有一步到位定位到的需要的web information source。

? 還包括一系列分析實(shí)驗(yàn),如下:

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

值得注意的是,webwalker中的memory對(duì)于回答query是非常重要的。如果rag鏈路中的搜索引擎可以當(dāng)作對(duì)query進(jìn)行橫向搜索,webwalker是對(duì)頁面的縱向深度探索,這是完全可以互補(bǔ)的。

因此可以把webwalker中的memory拼接到rag鏈路上,這種橫向和縱向整合表現(xiàn)出色,在所有類別和難度的數(shù)據(jù)集上效果均有提升,證明了垂直探索頁面對(duì)于提升RAG性能的潛力。這是對(duì)RAG二維探索的首次嘗試!

此外,對(duì) webwalker 的挖掘點(diǎn)擊次數(shù)進(jìn)行scale up,看是否能得到更好的、更多的memory信息,隨著挖掘點(diǎn)擊次數(shù)的增大,不僅在webwalker上有較大提升,把memory加入到rag系統(tǒng)之后,性能也隨之提升。這給rag系統(tǒng)進(jìn)行test-time的拓展提供了新的角度。

?? WebWalker的設(shè)計(jì)讓人聯(lián)想到pair programming(對(duì)編程),即兩人協(xié)作,一個(gè)寫代碼,一個(gè)檢查bug。探測(cè)代理和裁判代理的功能其實(shí)類似于這種協(xié)作。

?? 文章最后提出了三項(xiàng)發(fā)現(xiàn),首次提出了RAG二維探索的scaling潛力,探討如何更“聰明”地進(jìn)行橫向和垂直兩個(gè)方向的探索(test-time compute)。

作者介紹:本文主要作者來自通義實(shí)驗(yàn)室和東南大學(xué)。通訊作者是通義實(shí)驗(yàn)室蔣勇和東南大學(xué)周德宇。第一作者吳家隆,主要研究方向是Agent和Efficient NLP,該工作在阿里巴巴通義實(shí)驗(yàn)室RAG團(tuán)隊(duì)科研實(shí)習(xí)完成,

Github:https://github.com/Alibaba-nlp/WebWalker

Homepage: https://alibaba-nlp.github.io/WebWalker/

Demo: https://www.modelscope.cn/studios/iic/WebWalker/

Demo: https://huggingface.co/spaces/callanwu/WebWalker

本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:WebWalker團(tuán)隊(duì) ????

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 欧美日韩一区不卡 | 日本免费网 | 日本在线视频中文字幕 | 国产成人精品网站 | 欧美片网站免费 | 久草网在线视频 | 国产精品视频在线观看 | 免费av毛片 | 在线免费毛片 | 国产精品一区二区久久久久 | 97国产精品视频人人做人人爱 | 亚洲国产一区视频 | 久久爱黑人激情av摘花 | 欧美国产激情 | 不卡一区二区三区四区 | 欧美黄色一区 | 国产成人精品一区 | 色性av | 久久99精品视频 | 福利视频网址 | 亚洲一区精品视频 | www.蜜桃av | 一级毛片色一级 | 北条麻妃99精品青青久久主播 | 日韩不卡一区二区三区 | 欧美一级做性受免费大片免费 | 久久国色| 成人一区二区三区视频 | 欧美午夜视频 | 自拍偷拍中文字幕 | 黄色香蕉视频在线观看 | 日本一区视频在线观看 | 91精品久久久久久久久久入口 | 国产中文区二幕区2012 | 一级片在线视频 | 台湾佬伊人 | 天天操天天玩 | 最新av在线播放 | 日本在线播放一区二区 | 国产黄色在线观看 | 久久久久国产一区二区三区四区 |