鄂維南李航領銜造高級論文搜索Agent,召回率和精準性超谷歌學術等,磕鹽黨狂喜
中科院院士鄂維南、字節AI實驗室總監李航領銜,推出高級論文搜索Agent。
名為PaSa,兩個Agent分別執行多輪搜索和判斷論文是否滿足查詢要求的任務,模仿人類復雜學術搜索行為。
現在就有Demo可玩。
只需提供研究主題或描述想法,它就會迅速展開搜索并按相關度自動排列組織順序。
點擊標題卡,不用跳轉頁面,就能顯示論文作者和摘要,再點擊帶有跳轉鏈接的標題就能查看完整論文:
還可以點擊每個標題卡后面的小方框,打包下載JSON、BIB格式文件:
更重要的是其召回率和精準性。
實驗中,PaSa在召回率和精確率等指標上顯著優于谷歌、谷歌學術、Google with GPT-4o、ChatGPT等基線模型。
在AutoScholarQuery測試集,與最強基線PaSa-GPT-4o相比,PaSa-7b的召回率提高了9.64%;在團隊創建的數據集RealScholarQuery上,與最佳基于Google的基線Google with GPT-4o相比,PaSa-7b在召回率@20、召回率@50和召回率@100上分別提升37.78%、39.90%和39.83%。
磕鹽黨狂喜~
兩個Agent組成
目前學術搜索系統,如谷歌學術搜索,常難以有效處理復雜的查詢,導致研究人員需花費大量時間手動文獻搜索。
比如詢問”Which studies have focused on non-stationary reinforcement learning using value-based methods, specifically UCB-based algorithms?”。
(哪些研究聚焦于非平穩強化學習中基于值的方法,特別是基于UCB算法的研究)
雖然利用LLM來增強信息檢索的研究越來越多,但學術搜索不僅需要檢索,還需要深入閱讀論文和檢查引用,完成全面的文獻調查。
為此,研究團隊開發了PaSa系統,主要包含兩個大模型Agent:Crawler(爬蟲)、Selector(選擇器)。
Crawler負責處理用戶查詢,生成多個搜索命令,并檢索相關論文。
具體來說,它執行一個基于token的馬爾可夫決策過程(MDP)。動作空間A對應于LLM的詞匯表,其中每個token代表一個動作。LLM充當策略模型,Agent的狀態由當前的LLM上下文和論文隊列定義。
Crawler使用三個注冊函數進行操作:
- [Search]用于生成搜索查詢并調用搜索工具
- [Expand]用于展開論文的特定章節并提取其中的引用
- [Stop]用于重置上下文到用戶查詢和隊列中的下一篇論文。
當動作與函數名稱匹配時,將執行相應的函數,進一步修改Agent的狀態。
例如,如下圖所示,Agent首先接收用戶查詢,將其納入其上下文并開始執行動作。如果生成的token是[Search],則LLM繼續生成搜索查詢,Agent調用搜索工具來檢索論文,然后將這些論文添加到論文列表中。
如果token是[Expand],則LLM繼續從其上下文中的當前論文中提取子節名稱。Agent隨后使用解析工具提取該子節中引用的所有論文,并將它們添加到論文列表中。
如果token是[Stop],則Agent將其上下文重置為用戶查詢以及論文隊列中下一篇論文的信息,這些信息包括標題、摘要以及所有部分的概述。
Selector則負責仔細閱讀每篇論文,評估是否滿足用戶查詢要求。
它接收兩個輸入:一個學術查詢和一篇研究論文(包括其標題和摘要),
生成兩個輸出:
一個單一的決策token,可以是“True”或“False”,表示論文是否滿足查詢,以及一個理由,包含m個支持該決策的token。理由有兩個目的:通過聯合訓練模型生成決策和解釋來提高決策準確性,并通過在PaSa應用中提供推理來提高用戶信任。
實驗中優于所有基線
團隊使用包含來自AI頂會收錄論文的35k個細粒度學術查詢及其對應論文的合成數據集AutoScholarQuery,通過強化學習優化PaSa。
此外,還開發了一個收集真實世界學術查詢的基準數據集——RealScholarQuery,用于在更現實的場景中評估PaSa 的性能。
實驗中,Crawler和Selector均基于Qwen2.5-7b,最終的Agent稱為PaSa-7b。
如下表5所示,PaSa-7b在AutoScholarQuery測試集上優于所有基線。
與最強的基線PaSa-GPT-4o相比,PaSa-7b的召回率提高了9.64%,精度相當。此外,PaSa-7b中Crawler的召回率比PaSa-GPT-4o高3.66%。
與最佳的基于Google的基線Google with GPT-4o相比,PaSa-7b在召回率@20、召回率@50和召回率@100上分別實現了33.80%、38.83%和42.64%的提升。
團隊還觀察到,在推理過程中使用多個Crawler集成可以提升性能。具體來說,在推理過程中運行兩次Crawler,使 AutoScholarQuery上的Crawler召回率提高了3.34%,最終使整個PaSa系統的召回率提高了1.51%,同時保持精度相似。
為了在更現實的場景中評估PaSa,團隊在RealScholarQuery上評估了其有效性。如表6所示,PaSa-7b在真實世界的學術搜索場景中表現出更大的優勢。與PaSa-GPT-4o相比,PaSa-7b的召回率提高了30.36%,精度提高4.25%。
與RealScholarQuery上最佳的基于Google的基線Google with GPT-4o相比,PaSa-7b在召回率@20、召回率@50和召回率@100上分別超過Google 37.78%、39.90%和39.83%。
此外,PaSa-7b-ensemble進一步將Crawler召回率提高了4.32%,使整個系統的召回率提高了3.52%。
鄂維南、李航領銜
PaSa由中科院院士、北大教授鄂維南,字節跳動AI實驗室總監*李航領銜提出。
鄂維南,中科院院士、“AI for Science”概念的提出者。
15歲就被中科大錄取,可以進“少年班”的他還是選擇了進數學系學習純數學。
而在大四之時,由于希望“自己學的東西真正有用,而不是只有高深”,他突然改變方向,決定改讀應用數學。
我的內心深處是屬于入世的,想跟社會跟技術產生一點聯系,我不是那種能一輩子待在象牙塔里的人。
最終,他一路從中國科學院、UCLA完成碩博士學位(博士期間的導師為著名應用數學家Bjorn Engquist教授)。
博士畢業之后幾年,鄂維南進入普林斯頓高等研究院和紐約大學的庫朗研究所,分別擔任研究員和教授。并在1999年即36歲之時成為普林斯頓大學數學系和應用數學及計算數學研究所教授,轉年加入北大。
2011年,48歲的鄂維南當選中國科學院院士。
其貢獻包括:
- 與合作者一起把偏微分方程、隨機分析及動力系統的理論進行巧妙結合,用于研究隨機Burgers方程、隨機passive scalar方程、隨機Navier-Stokes方程和Ginzburg-Landau方程等,證明不變測度的存在性和唯一性,分析穩定解的特性,并在此基礎上解決了Burgers湍流模型中一些存有爭議的問題。
- 與合作者一起構建一種十分有效的數值方法——弦方法,使之成為研究物理、生物和化學領域中稀有事件的一個重要手段。
- 提出設計與分析多物理模型的多尺度方法的一般框架等等。
從2014年開始,鄂院士的職業生涯迎來又一個轉折,他開始正式進入機器學習領域,并在2018年提出“AI for Science”的概念。
李航,字節跳動AI實驗室總監之一,同時當選三大國際頂級學會(ACL,IEEE,ACM) Fellow。
他的主要研究方向包括信息檢索、NLP、統計機器學習和數據挖掘。
他在日本京都大學電氣工程系獲得碩士學位,并于東京大學計算機科學博士畢業,曾擔任日本NEC公司中央研究所研究員、微軟亞洲研究院高級研究員與主任研究員、華為技術有限公司諾亞方舟實驗室首席科學家。
論文鏈接:https://arxiv.org/abs/2501.10120
demo:https://pasa-agent.ai/