成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鄂維南李航領銜造高級論文搜索Agent,召回率和精準性超谷歌學術等,磕鹽黨狂喜

人工智能 新聞
名為PaSa,兩個Agent分別執行多輪搜索和判斷論文是否滿足查詢要求的任務,模仿人類復雜學術搜索行為。

中科院院士鄂維南、字節AI實驗室總監李航領銜,推出高級論文搜索Agent。

名為PaSa,兩個Agent分別執行多輪搜索和判斷論文是否滿足查詢要求的任務,模仿人類復雜學術搜索行為。

現在就有Demo可玩。

圖片

只需提供研究主題或描述想法,它就會迅速展開搜索并按相關度自動排列組織順序。

圖片

點擊標題卡,不用跳轉頁面,就能顯示論文作者和摘要,再點擊帶有跳轉鏈接的標題就能查看完整論文:

圖片

還可以點擊每個標題卡后面的小方框,打包下載JSON、BIB格式文件:

圖片

更重要的是其召回率和精準性。

實驗中,PaSa在召回率和精確率等指標上顯著優于谷歌、谷歌學術、Google with GPT-4o、ChatGPT等基線模型

在AutoScholarQuery測試集,與最強基線PaSa-GPT-4o相比,PaSa-7b的召回率提高了9.64%;在團隊創建的數據集RealScholarQuery上,與最佳基于Google的基線Google with GPT-4o相比,PaSa-7b在召回率@20、召回率@50和召回率@100上分別提升37.78%、39.90%和39.83%。

磕鹽黨狂喜~

圖片

兩個Agent組成

目前學術搜索系統,如谷歌學術搜索,常難以有效處理復雜的查詢,導致研究人員需花費大量時間手動文獻搜索。

比如詢問”Which studies have focused on non-stationary reinforcement learning using value-based methods, specifically UCB-based algorithms?”。

(哪些研究聚焦于非平穩強化學習中基于值的方法,特別是基于UCB算法的研究)

雖然利用LLM來增強信息檢索的研究越來越多,但學術搜索不僅需要檢索,還需要深入閱讀論文和檢查引用,完成全面的文獻調查。

為此,研究團隊開發了PaSa系統,主要包含兩個大模型Agent:Crawler(爬蟲)Selector(選擇器)

圖片

Crawler負責處理用戶查詢,生成多個搜索命令,并檢索相關論文。

具體來說,它執行一個基于token的馬爾可夫決策過程(MDP)。動作空間A對應于LLM的詞匯表,其中每個token代表一個動作。LLM充當策略模型,Agent的狀態由當前的LLM上下文和論文隊列定義。

Crawler使用三個注冊函數進行操作:

  • [Search]用于生成搜索查詢并調用搜索工具
  • [Expand]用于展開論文的特定章節并提取其中的引用
  • [Stop]用于重置上下文到用戶查詢和隊列中的下一篇論文。

當動作與函數名稱匹配時,將執行相應的函數,進一步修改Agent的狀態。

圖片

例如,如下圖所示,Agent首先接收用戶查詢,將其納入其上下文并開始執行動作。如果生成的token是[Search],則LLM繼續生成搜索查詢,Agent調用搜索工具來檢索論文,然后將這些論文添加到論文列表中。

如果token是[Expand],則LLM繼續從其上下文中的當前論文中提取子節名稱。Agent隨后使用解析工具提取該子節中引用的所有論文,并將它們添加到論文列表中。

如果token是[Stop],則Agent將其上下文重置為用戶查詢以及論文隊列中下一篇論文的信息,這些信息包括標題、摘要以及所有部分的概述。

圖片

Selector則負責仔細閱讀每篇論文,評估是否滿足用戶查詢要求。

它接收兩個輸入:一個學術查詢和一篇研究論文(包括其標題和摘要)

生成兩個輸出:

一個單一的決策token,可以是“True”或“False”,表示論文是否滿足查詢,以及一個理由,包含m個支持該決策的token。理由有兩個目的:通過聯合訓練模型生成決策和解釋來提高決策準確性,并通過在PaSa應用中提供推理來提高用戶信任。

實驗中優于所有基線

團隊使用包含來自AI頂會收錄論文的35k個細粒度學術查詢及其對應論文的合成數據集AutoScholarQuery,通過強化學習優化PaSa。

圖片
圖片

此外,還開發了一個收集真實世界學術查詢的基準數據集——RealScholarQuery,用于在更現實的場景中評估PaSa 的性能。

實驗中,Crawler和Selector均基于Qwen2.5-7b,最終的Agent稱為PaSa-7b。

如下表5所示,PaSa-7b在AutoScholarQuery測試集上優于所有基線。

與最強的基線PaSa-GPT-4o相比,PaSa-7b的召回率提高了9.64%,精度相當。此外,PaSa-7b中Crawler的召回率比PaSa-GPT-4o高3.66%。

與最佳的基于Google的基線Google with GPT-4o相比,PaSa-7b在召回率@20、召回率@50和召回率@100上分別實現了33.80%、38.83%和42.64%的提升。

團隊還觀察到,在推理過程中使用多個Crawler集成可以提升性能。具體來說,在推理過程中運行兩次Crawler,使 AutoScholarQuery上的Crawler召回率提高了3.34%,最終使整個PaSa系統的召回率提高了1.51%,同時保持精度相似。

圖片

為了在更現實的場景中評估PaSa,團隊在RealScholarQuery上評估了其有效性。如表6所示,PaSa-7b在真實世界的學術搜索場景中表現出更大的優勢。與PaSa-GPT-4o相比,PaSa-7b的召回率提高了30.36%,精度提高4.25%。

與RealScholarQuery上最佳的基于Google的基線Google with GPT-4o相比,PaSa-7b在召回率@20、召回率@50和召回率@100上分別超過Google 37.78%、39.90%和39.83%。

此外,PaSa-7b-ensemble進一步將Crawler召回率提高了4.32%,使整個系統的召回率提高了3.52%。

圖片

鄂維南、李航領銜

PaSa由中科院院士、北大教授鄂維南,字節跳動AI實驗室總監*李航領銜提出。

圖片

鄂維南,中科院院士、“AI for Science”概念的提出者。

15歲就被中科大錄取,可以進“少年班”的他還是選擇了進數學系學習純數學。

而在大四之時,由于希望“自己學的東西真正有用,而不是只有高深”,他突然改變方向,決定改讀應用數學。

我的內心深處是屬于入世的,想跟社會跟技術產生一點聯系,我不是那種能一輩子待在象牙塔里的人。

最終,他一路從中國科學院、UCLA完成碩博士學位(博士期間的導師為著名應用數學家Bjorn Engquist教授)

博士畢業之后幾年,鄂維南進入普林斯頓高等研究院和紐約大學的庫朗研究所,分別擔任研究員和教授。并在1999年即36歲之時成為普林斯頓大學數學系和應用數學及計算數學研究所教授,轉年加入北大。

2011年,48歲的鄂維南當選中國科學院院士。

其貢獻包括:

  • 與合作者一起把偏微分方程、隨機分析及動力系統的理論進行巧妙結合,用于研究隨機Burgers方程、隨機passive scalar方程、隨機Navier-Stokes方程和Ginzburg-Landau方程等,證明不變測度的存在性和唯一性,分析穩定解的特性,并在此基礎上解決了Burgers湍流模型中一些存有爭議的問題。
  • 與合作者一起構建一種十分有效的數值方法——弦方法,使之成為研究物理、生物和化學領域中稀有事件的一個重要手段。
  • 提出設計與分析多物理模型的多尺度方法的一般框架等等。

從2014年開始,鄂院士的職業生涯迎來又一個轉折,他開始正式進入機器學習領域,并在2018年提出“AI for Science”的概念。

圖片

李航,字節跳動AI實驗室總監之一,同時當選三大國際頂級學會(ACL,IEEE,ACM) Fellow。

他的主要研究方向包括信息檢索、NLP、統計機器學習和數據挖掘。

他在日本京都大學電氣工程系獲得碩士學位,并于東京大學計算機科學博士畢業,曾擔任日本NEC公司中央研究所研究員、微軟亞洲研究院高級研究員與主任研究員、華為技術有限公司諾亞方舟實驗室首席科學家。

圖片

論文鏈接:https://arxiv.org/abs/2501.10120
demo:https://pasa-agent.ai/

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-08-30 13:09:12

AI模型

2024-07-09 18:36:12

2024-08-19 09:50:00

谷歌搜索

2024-11-11 09:20:00

2022-08-09 14:23:30

谷歌宕機

2025-03-03 11:21:40

2025-04-09 12:48:13

模型AI數據

2024-11-27 13:39:04

2013-05-20 10:56:35

2022-12-07 10:21:19

谷歌搜索技巧

2023-08-16 19:00:53

谷歌人工智能搜索

2023-10-15 12:54:55

2023-09-10 13:18:10

算法量子化

2023-12-13 13:06:30

2022-02-18 08:25:46

微軟Windows 11任務管理器

2025-04-25 13:34:53

R1DeepSeekAgent

2021-03-25 14:43:13

谷歌微軟瀏覽器

2023-08-11 13:27:00

AI論文
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲三级视频 | 91高清在线观看 | 久久精品久久久久久 | 91精品国产91久久综合桃花 | 久久高清国产视频 | 成人在线观看网址 | 欧美视频在线播放 | 欧美 中文字幕 | 日韩av第一页 | www免费视频 | 国产精品毛片久久久久久久 | 九一视频在线观看 | 日本亚洲精品成人欧美一区 | 日韩手机视频 | 日韩视频一区二区 | 中文字幕免费视频 | 婷婷午夜天| 高清av一区 | 久久久精品网站 | 国产精品久久欧美久久一区 | 日韩精品一区二区在线 | 老司机67194精品线观看 | 精品国产欧美日韩不卡在线观看 | av在线免费不卡 | 麻豆一区二区三区精品视频 | 久久久久久艹 | 久久久久国产一区二区三区四区 | 国产91久久久久蜜臀青青天草二 | 国产区精品在线观看 | 一级毛片视频免费观看 | 欧美亚洲国产一区 | 欧美黄色大片在线观看 | 国产欧美一区二区三区另类精品 | 91免费观看国产 | 精品无码久久久久久国产 | 在线精品国产 | 国产日韩一区二区 | 在线欧美小视频 | 午夜丁香视频在线观看 | 午夜视频在线观看一区二区 | 亚洲精品视频一区 |