鄂維南李航領銜造高級論文搜索Agent，召回率和精準性超谷歌學術等，磕鹽黨狂喜

作者：量子位 2025-01-27 09:00:00

人工智能新聞

名為PaSa，兩個Agent分別執行多輪搜索和判斷論文是否滿足查詢要求的任務，模仿人類復雜學術搜索行為。

中科院院士鄂維南、字節AI實驗室總監李航領銜，推出高級論文搜索Agent。

名為PaSa，兩個Agent分別執行多輪搜索和判斷論文是否滿足查詢要求的任務，模仿人類復雜學術搜索行為。

現在就有Demo可玩。

只需提供研究主題或描述想法，它就會迅速展開搜索并按相關度自動排列組織順序。

點擊標題卡，不用跳轉頁面，就能顯示論文作者和摘要，再點擊帶有跳轉鏈接的標題就能查看完整論文：

還可以點擊每個標題卡后面的小方框，打包下載JSON、BIB格式文件：

更重要的是其召回率和精準性。

實驗中，PaSa在召回率和精確率等指標上顯著優于谷歌、谷歌學術、Google with GPT-4o、ChatGPT等基線模型。

在AutoScholarQuery測試集，與最強基線PaSa-GPT-4o相比，PaSa-7b的召回率提高了9.64%；在團隊創建的數據集RealScholarQuery上，與最佳基于Google的基線Google with GPT-4o相比，PaSa-7b在召回率@20、召回率@50和召回率@100上分別提升37.78%、39.90%和39.83%。

磕鹽黨狂喜～

兩個Agent組成

目前學術搜索系統，如谷歌學術搜索，常難以有效處理復雜的查詢，導致研究人員需花費大量時間手動文獻搜索。

比如詢問”Which studies have focused on non-stationary reinforcement learning using value-based methods, specifically UCB-based algorithms?”。

（哪些研究聚焦于非平穩強化學習中基于值的方法，特別是基于UCB算法的研究）

雖然利用LLM來增強信息檢索的研究越來越多，但學術搜索不僅需要檢索，還需要深入閱讀論文和檢查引用，完成全面的文獻調查。

為此，研究團隊開發了PaSa系統，主要包含兩個大模型Agent：Crawler（爬蟲）、Selector（選擇器）。

Crawler負責處理用戶查詢，生成多個搜索命令，并檢索相關論文。

具體來說，它執行一個基于token的馬爾可夫決策過程（MDP）。動作空間A對應于LLM的詞匯表，其中每個token代表一個動作。LLM充當策略模型，Agent的狀態由當前的LLM上下文和論文隊列定義。

Crawler使用三個注冊函數進行操作：

[Search]用于生成搜索查詢并調用搜索工具
[Expand]用于展開論文的特定章節并提取其中的引用
[Stop]用于重置上下文到用戶查詢和隊列中的下一篇論文。

當動作與函數名稱匹配時，將執行相應的函數，進一步修改Agent的狀態。

例如，如下圖所示，Agent首先接收用戶查詢，將其納入其上下文并開始執行動作。如果生成的token是[Search]，則LLM繼續生成搜索查詢，Agent調用搜索工具來檢索論文，然后將這些論文添加到論文列表中。

如果token是[Expand]，則LLM繼續從其上下文中的當前論文中提取子節名稱。Agent隨后使用解析工具提取該子節中引用的所有論文，并將它們添加到論文列表中。

如果token是[Stop]，則Agent將其上下文重置為用戶查詢以及論文隊列中下一篇論文的信息，這些信息包括標題、摘要以及所有部分的概述。

Selector則負責仔細閱讀每篇論文，評估是否滿足用戶查詢要求。

它接收兩個輸入：一個學術查詢和一篇研究論文（包括其標題和摘要），

生成兩個輸出：

一個單一的決策token，可以是“True”或“False”，表示論文是否滿足查詢，以及一個理由，包含m個支持該決策的token。理由有兩個目的：通過聯合訓練模型生成決策和解釋來提高決策準確性，并通過在PaSa應用中提供推理來提高用戶信任。

實驗中優于所有基線

團隊使用包含來自AI頂會收錄論文的35k個細粒度學術查詢及其對應論文的合成數據集AutoScholarQuery，通過強化學習優化PaSa。

此外，還開發了一個收集真實世界學術查詢的基準數據集——RealScholarQuery，用于在更現實的場景中評估PaSa 的性能。

實驗中，Crawler和Selector均基于Qwen2.5-7b，最終的Agent稱為PaSa-7b。

如下表5所示，PaSa-7b在AutoScholarQuery測試集上優于所有基線。

與最強的基線PaSa-GPT-4o相比，PaSa-7b的召回率提高了9.64%，精度相當。此外，PaSa-7b中Crawler的召回率比PaSa-GPT-4o高3.66%。

與最佳的基于Google的基線Google with GPT-4o相比，PaSa-7b在召回率@20、召回率@50和召回率@100上分別實現了33.80%、38.83%和42.64%的提升。

團隊還觀察到，在推理過程中使用多個Crawler集成可以提升性能。具體來說，在推理過程中運行兩次Crawler，使 AutoScholarQuery上的Crawler召回率提高了3.34%，最終使整個PaSa系統的召回率提高了1.51%，同時保持精度相似。

為了在更現實的場景中評估PaSa，團隊在RealScholarQuery上評估了其有效性。如表6所示，PaSa-7b在真實世界的學術搜索場景中表現出更大的優勢。與PaSa-GPT-4o相比，PaSa-7b的召回率提高了30.36%，精度提高4.25%。

與RealScholarQuery上最佳的基于Google的基線Google with GPT-4o相比，PaSa-7b在召回率@20、召回率@50和召回率@100上分別超過Google 37.78%、39.90%和39.83%。

此外，PaSa-7b-ensemble進一步將Crawler召回率提高了4.32%，使整個系統的召回率提高了3.52%。