北大發布學術搜索評測ScholarSearch:難倒一眾DeepResearch的“開卷考試”
LLMs能當科研助手了?
北大出考題,結果顯示:現有模型都不能勝任。
北京大學DS-Lab發布ScholarSearch,這是首個專門用于評估大語言模型在學術研究中復雜信息檢索能力的數據集,包含223道高難度的學術檢索題目及其答案。
它對具備聯網搜索能力的代表性模型及純推理模型進行了評估,結果顯示,頂尖的純推理模型,如GPT-4.1、DeepSeek-R1,在處理這些問題時準確率普遍低于9%。
具備搜索功能的模型,相較于其無搜索能力的版本,準確率有顯著提升,例如,GPT-4o-mini的準確率提升超過四倍。
盡管瀏覽能力帶來了顯著改進,但即便是最先進的搜索增強型模型,如GPT-4o-search-preview,其準確率僅為18.83%。
方法
OpenAI的Deep Research、Grok的DeepSearch、Gemini的Deep Research以及月之暗面的Kimi-Researcher等,以“深度搜索”功能為核心,為攻克高難度信息檢索任務提供了新的范式。
然而,學術界與業界目前尚未建立起一套公認的評估體系與標準數據集,用以系統性地檢驗這些新興模型在真實學術研究場景下的實際效能。
北京大學DS-Lab發布ScholarSearch,旨在對LLMs的檢索、信息整合及推理能力進行綜合性、極限性考驗。
研究團隊招募了來自北京大學各個學院的本科和研究生志愿者,并為他們提供了集中培訓。志愿者從公開可訪問的在線出版物和網站中選擇材料,以制定需要網絡搜索解答的學術問題。
為確保問題能真正考驗模型的深度研究能力,所有初步構建的問題必須通過以下雙重負向篩選標準的驗證:
1.不能通過Grok 3的Thinking模式獲得正確答案,確保問題需要深入廣泛的信息檢索能力。
2.Grok 3的DeepSearch模式或Gemini 2.5 Pro的Deep Research功能至少有一個未能提供正確答案,確保問題的高難度。
成功滿足上述標準的問題隨后提交給專門的審核團隊進行數據審核,以確保以下幾點:
答案唯一性:每個問題對應唯一的、明確無誤的答案。來源可訪問性:回答問題所需的參考來源可通過互聯網公開獲取。學術正確性:問題的學術價值和答案的正確性根據提供的來源進行驗證。
任何未能達標的問題都將被退回進行迭代修訂,直至合格。
ScholarSearch具有以下核心特點:
高度的真實性與應用價值:數據集中的所有問題均源于真實的學術研究與學習情境。其設計旨在忠實反映研究者面臨的實際信息挑戰,保證了評估結果能夠真實地反映模型在實際應用中的效能。
卓越的挑戰性與深度:ScholarSearch的難度經過嚴格審查,確保即便是頂尖的模型(如 Grok DeepSearch 或 Gemini Deep Research)也難以一次性給出正確答案。大多數問題需要進行多次深度搜索才能得出答案,充分考驗模型的復雜推理和信息整合能力。
廣泛的學科覆蓋:為確保評估的全面性與代表性,ScholarSearch圍繞科學與工程領域(Science & Engineering)和社會科學與人文學科領域(Social Sciences & Humanities)兩大門類進行構建,共涵蓋了15個不同的細分學科。
結果
研究團隊使用ScholarSearch對具備聯網搜索能力的代表性模型及純推理模型進行了評估,結果如圖所示。評估結果明確揭示,現有模型的整體表現欠佳,其學術搜索能力亟待提升。
僅憑推理無法解決學術研究問題: 實驗明確指出,ScholarSearch數據集中的問題無法僅通過模型的預訓練知識和推理能力解決。頂尖的純推理模型,如GPT-4.1、DeepSeek-R1,在處理這些問題時準確率極低,普遍低于9%。這表明學術查詢具有高度復雜性,這超出了靜態、內嵌知識庫的能力范疇。
瀏覽能力顯著提升模型性能: 賦予模型訪問互聯網的瀏覽能力可以提高其準確性。具備搜索功能的模型,相較于其無搜索能力的版本,準確率有顯著提升,例如,GPT-4o-mini的準確率提升超過四倍。此外,搜索能力也平衡了模型在不同學科領域的表現,在科學與工程領域和社會科學與人文學科領域達到了相當的水平。這一結果證實,對于解決復雜的學術問題,進行實時信息檢索、訪問數據并進行交叉引用的能力至關重要。
當前搜索模型仍不足以應對深度學術探究: 盡管瀏覽能力帶來了顯著改進,但即便是最先進的搜索增強型模型,如GPT-4o-search-preview,準確率僅為18.83%。在解決復雜學術問題方面仍表現不充分。這揭示了當前模型在進行深度研究、整合專業知識以及執行復雜的多源推理時存在的差距,也揭示了Deep Research模型的研發需求。
ScholarSearch作為一個在深度搜索領域的學術基準測試集,不僅衡量了模型的當前能力,更揭示了現有技術與真實學術工作流之間的核心差距,為未來的大語言模型掌握復雜綜合的語境理解、海量資料來源的批判準確性驗證,提供了有挑戰的參考。
論文鏈接:https://arxiv.org/abs/2506.13784
數據集鏈接:https://huggingface.co/datasets/PKU-DS-LAB/ScholarSearch
課題組huggingface主頁:https://huggingface.co/PKU-DS-LAB