Open Deep Search:開源推理智能體實現深度搜索,打破閉源壟斷
當前,AI搜索人工智能領域主要由Perplexity、OpenAI DeepResearch等部分閉源搜索AI方案主導,閉源特性限制了透明度與創新。本文推出的ODS作為開源方案,填補了開源搜索AI的性能空白,促進該領域的社區發展、創新與創業,且在基準測試中展現出超越部分閉源方案的性能,具有重要實用價值。
文章推出開放深度搜索(ODS),旨在縮小專有搜索AI解決方案與開源同類產品的差距。ODS由開放搜索工具和開放推理智能體組成,可與用戶選定的基礎大語言模型協同工作。文中詳細介紹了這兩個組件的工作原理,通過在SimpleQA和FRAMES基準測試上的實驗,表明ODS與DeepSeek-R1結合使用時,性能接近甚至超越現有先進基線模型,實現了搜索AI領域的先進性能 。
摘要&摘要
我們推出開放深度搜索(Open Deep Search, ODS),旨在縮小諸如Perplexity的Sonar Reasoning Pro和OpenAI的GPT-4o Search Preview等專有搜索人工智能解決方案與開源同類產品之間日益擴大的差距。ODS的主要創新之處在于,通過推理智能體增強最新開源大語言模型(LLMs)的推理能力,這些智能體能夠明智地使用網絡搜索工具來回答查詢。具體而言,ODS由兩個組件構成,它們可與用戶選擇的基礎大語言模型協同工作:開放搜索工具(Open Search Tool)和開放推理智能體(Open Reasoning Agent)。開放推理智能體負責解釋給定任務,并通過編排一系列行動來完成任務,這些行動包括調用工具,其中之一便是開放搜索工具。開放搜索工具是一種新型網絡搜索工具,其性能優于專有同類產品。與強大的開源推理大語言模型(如DeepSeek-R1)相結合,ODS在兩個基準測試(SimpleQA和FRAMES)上的表現接近甚至有時超越了現有的最先進基線模型。例如,在FRAMES評估基準上,ODS的準確率比最近發布的GPT-4o Search Preview這一現有最佳基線模型提高了9.7%。ODS是一個通用框架,可無縫增強任何大語言模型(如在SimpleQA上達到82.4%準確率、在FRAMES上達到30.1%準確率的DeepSeek-R1)的搜索和推理能力,以實現最先進的性能:在SimpleQA上達到88.3%的準確率,在FRAMES上達到75.3%的準確率。
?研究背景:搜索人工智能將大語言模型的檢索增強生成能力與實時信息檢索結合,但該領域進展主要由專有解決方案主導,開源替代方案存在性能差距,且限制了領域的透明度、創新和創業發展。
?技術創新:推出開放深度搜索(ODS)這一開源AI搜索解決方案,包含開放搜索工具和開放推理智能體。開放搜索工具改進了搜索流程,開放推理智能體提升了推理能力,使ODS在多個基準測試中達到或超越先進閉源方案的性能,促進搜索AI領域開源生態發展。
?實現設計:
開放搜索工具:通過查詢改寫生成新查詢,從搜索引擎結果頁面API檢索相關上下文并格式化處理,還通過抓取網頁、嵌入段落塊等操作增強大語言模型的上下文。
開放推理智能體:ODS-v1基于思維鏈和ReAct智能體,結合思維鏈自洽性、少樣本學習等技術;ODS-v2基于代碼鏈和CodeAct智能體,通過生成可執行Python代碼調用工具。
?實驗結果:在SimpleQA和FRAMES基準測試中,ODS與DeepSeek-R1結合,ODS-v1在SimpleQA上準確率達87.7%、FRAMES上達56.7%;ODS-v2在SimpleQA上準確率達88.3%、FRAMES上達75.3%,超過Perplexity等部分閉源搜索AI,在FRAMES上超越GPT-4o Search Preview。
1. 引言
搜索人工智能,即搜索引擎增強的大語言模型(LLMs),它將大語言模型的檢索增強生成(RAG)能力(例如參考文獻[9])與從搜索引擎進行的實時信息檢索相結合。這種整合解決了大語言模型靜態知識庫的問題,使其能夠提供最新且與上下文相關的回復 。最近的研究(如參考文獻[27])表明,將搜索引擎結果頁面(SERP)應用程序編程接口(API)作為上下文輸入到大語言模型中,其效果優于諸如自詢問(self-ask)等先前方法。
搜索人工智能領域的進展主要由專有解決方案主導,如谷歌搜索、必應搜索、ChatGPT搜索和Grok。特別是Perplexity AI(參考文獻[21])在這個市場上表現出色,甚至對成熟的行業領導者構成了威脅。然而,這種閉源解決方案限制了透明度、創新和創業。為了培育搜索人工智能開發者社區、利用集體智慧、促進創新并鼓勵創業,我們推出了開放深度搜索(ODS),這是一種開源人工智能搜索解決方案,在基準評估中實現了最先進的性能,與最佳閉源替代方案相匹配甚至超越它們。
表1:所提出的開源搜索框架ODS,與開源推理大語言模型DeepSeek-R1(參考文獻[4])一起使用時,在FRAMES(參考文獻[8])和SimpleQA(參考文獻[30])這兩個流行的事實性評估基準上,其性能超過了Perplexity(參考文獻[21])、Perplexity Sonar Reasoning Pro(參考文獻[22])等閉源的最先進搜索人工智能解決方案。與GPT4o Search Preview相比,ODS-v2在FRAMES準確率上有顯著提升,但在SimpleQA準確率上略遜一籌。ODS-v1使用基于ReAct的智能體(2.2.1節),ODS-v2使用基于CodeAct的智能體(2.2.2節)。
Perplexity AI有兩款提供API訪問的搜索人工智能產品:默認的Perplexity(參考文獻[21])和專為復雜推理任務定制的Perplexity Sonar Reasoning Pro(參考文獻[22])。表1展示了它們在兩個流行的評估基準SimpleQA(參考文獻[30])和FRAMES(參考文獻[8])上的性能。值得注意的是,所提出的兩個版本的開放深度搜索(與開源的DeepSeek-R1模型一起使用時)均優于Perplexity AI的旗艦搜索人工智能產品。另一個重要的基線模型是OpenAI于2025年3月11日發布的專為搜索人工智能定制的GPT-4o Search Preview(參考文獻[17])。開放深度搜索的第二個版本,即ODS-v2+DeepSeek-R1,在FRAMES基準上超越了GPT-4o Search Preview,在SimpleQA基準上幾乎與之持平。為了實現這種最先進的性能,我們在開放深度搜索中進行了兩項創新:開放搜索工具和開放推理智能體。
?開放搜索工具:Perplexity和OpenAI的搜索解決方案都是閉源產品。Perplexity的開源替代方案,如OpenPerplex(參考文獻[19])和Perplexica(參考文獻[20]),是開源搜索工具,它們將輸出進行總結并輸入到大語言模型中,以回答感興趣的查詢。然而,這些開源搜索工具存在一些弱點,仍有很大的改進空間。首先,OpenPerplex和Perplexica主要將原始的搜索引擎結果頁面(SERP)結果作為上下文傳遞給大語言模型。此外,它們根據與用戶查詢的相關性對片段進行分塊和重新排序。相比之下,我們的方法采用了更復雜的搜索過程,我們稱之為開放搜索工具(將在2.1節詳細解釋)。具體來說,我們在必要時重新表述查詢,從排名前N的片段中提取上下文,并應用分塊和重新排序來過濾掉相關性低于閾值的內容。這確保了包含所有相關的搜索結果上下文。此外,我們針對維基百科、arXiv和PubMed等主要API實施了自定義網站處理。
?開放推理智能體:如表1所示,我們提供兩種版本的開放推理智能體:一種基于ReAct智能體(參考文獻[33]),另一種基于CodeAct智能體(參考文獻[14])。開放推理智能體的目標是解釋查詢、評估檢索到的上下文,并使用適當的工具(包括我們提供的用于網絡搜索的開放搜索工具)來回答查詢。詳細內容請參考2.2節。
2. 開放深度搜索(ODS)
開放深度搜索(ODS)是一個即插即用的框架,用戶可以無縫插入他們選擇的任何基礎大語言模型,既可以是開源大語言模型,也可以通過API訪問閉源大語言模型。在我們的實驗中,我們將ODS與Llama3.1-70B模型或DeepSeek-R1模型結合使用。ODS由兩部分組成:開放搜索工具和開放推理智能體,這兩部分都使用基礎大語言模型。開放搜索工具是我們用于搜索和處理來自互聯網信息的開源工具,將在2.1節中解釋;開放推理智能體是我們的開源智能體,它可以通過訪問工具來回答查詢,將在2.2節中解釋。
我們為開放推理智能體提供兩種解決方案:一種使用ReAct智能體(我們將其稱為版本一ODS-v1),另一種使用CodeAct智能體(我們將其稱為版本二ODS-v2)。包含這兩個版本ODS的開源代碼庫可在https://github.com/sentient-agi/OpenDeepSearch上找到。我們使用術語“ODS-v?+基礎模型”來指代ODS的特定實例。例如,ODS-v1+Llama3.1-70B指的是ODS的第一個版本,它使用ReAct智能體并以Llama3.1-70B作為基礎模型;ODS-v2+DeepSeekR1指的是ODS的第二個版本,它使用CodeAct智能體并以DeepSeek-R1作為基礎模型。
圖1:用戶可以選擇插入他們選擇的任何基礎大語言模型,并利用開放深度搜索(ODS)開源框架的優勢。ODS由兩個組件組成:開放搜索工具和開放推理智能體。查詢首先輸入到開放推理智能體中,開放推理智能體編排可用的工具集來解釋和回答查詢。我們設計的開放搜索工具是最重要的工具之一,它從網絡上檢索的多個來源提供高質量的上下文。在我們的實驗中,我們使用Llama3.1-70B和DeepSeek-R1作為基礎模型。
2.1 開放搜索工具
我們提供的開放搜索工具在保持對可擴展開源系統承諾的同時,改進了搜索引擎增強大語言模型領域的最新進展(參考文獻[27])。特別是,我們的方法重新審視了傳統方法在查詢、檢索和增強流程中的不同組件。開放搜索工具以查詢為輸入,并生成一個上下文,該上下文由網絡搜索的相關段落組成,用于輸入到基礎大語言模型中。開放搜索工具的質量對于ODS的成功至關重要,我們將在第3節和附錄A中通過示例展示這一點。
2.1.1 查詢改寫
我們搜索流程的第一步是接收原始用戶查詢,并生成k個保持原始上下文的新改寫查詢。這一步的必要性源于原始查詢的語義結構與為提供滿意答案所需的潛在上下文之間的差距。例如,用戶可能想知道“如何讓我的網絡更快”,然而,谷歌搜索可能無法給出令人滿意的結果,因為該查詢本身過于寬泛,且隱含的上下文可能未被涵蓋。查詢改寫器彌補了寬泛查詢與隱含上下文之間的差距,并會生成其他查詢,如“如何增強Wi-Fi信號”、“如何增加帶寬”和“如何降低延遲”。我們發現這一步對于提高檢索上下文的覆蓋范圍和多樣性,進而提高我們系統的整體性能至關重要。
2.1.2 檢索
搜索流程的第二步是從搜索引擎結果頁面API(SERP)檢索相關上下文。從API調用檢索到的結果隨后被格式化、處理,并插入到大語言模型的上下文中。我們的格式化過程受到FreshPrompt(參考文獻[27])提示格式的啟發,我們在每個片段中包含每個搜索結果返回的元數據,如標題、URL、描述和發布日期(如果可用)。此外,當搜索上下文中包含沖突信息時,我們提示大語言模型優先考慮可靠來源,如政府機構、教育機構和知名研究機構。
2.1.3 增強
作為我們流程中的一個額外步驟,我們選擇通過從SERP API檢索到的排名前m的鏈接中添加相關段落來增強大語言模型的上下文。具體來說,我們抓取相關網頁,嵌入段落塊,并根據與用戶查詢相關的重新排名分數從每個網頁中檢索排名前n的相關段落。這使得上下文能夠為需要“深度”推理的查詢提供深入的答案。
2.2 開放推理智能體
開放推理智能體以用戶的查詢為輸入,并使用基礎大語言模型和各種工具生成答案。上一節中的開放搜索工具是開放推理智能體使用的關鍵工具之一。我們為用戶提供兩種解決方案:一種基于思維鏈(Chain-of-thought)和ReAct智能體(其最終的端到端系統稱為ODS-v1),另一種基于代碼鏈(Chain-of-code)和CodeAct智能體(其最終的端到端系統稱為ODS-v2)。
2.2.1 基于ReAct智能體的ODS-v1
我們的第一個開放推理智能體基于思維鏈(CoT)推理(參考文獻[6, 31])和ReAct(參考文獻[33])智能體。
?思維鏈(CoT)提示:思維鏈提示通過鼓勵模型在回答前停下來思考,激發了大語言模型智能體令人印象深刻的推理能力(參考文獻[28, 3])。零樣本思維鏈(Zero-shot CoT)只需在輸入到模型的提示末尾附加“讓我們一步一步地思考。”這句話(參考文獻[6])。通過將思維鏈與少樣本提示相結合,結果會進一步改善,我們采用了這種方法。少樣本思維鏈(Few-shot CoT)是指在提示中附加幾個思維鏈示例,作為一種上下文學習形式(參考文獻[31])。
?思維鏈自洽性(CoT-SC):思維鏈自洽性進一步改進了簡單思維鏈中使用的貪心解碼技術。它不是簡單地采用單一的貪心推理路徑,而是對多個不同的推理路徑進行采樣,并對它們進行比較,然后從所有路徑中選擇最一致的答案。這在包括算術和問答任務在內的多個推理任務中,相較于簡單的思維鏈有了顯著的改進(參考文獻[29])。
?ReAct中的少樣本學習:ReAct中的少樣本學習利用一小部分示范示例來指導模型的推理和行動模式。
圖2:ODS-v1中使用的ReAct提示結構示意圖
?動態少樣本學習:ReAct通過基于示例的提示實現少樣本學習,其中一小部分示范示例指導模型的推理和行動模式。為了優化提示效率,動態少樣本選擇系統利用向量相似性匹配為每個任務檢索最相關的示例,在保持性能的同時降低提示復雜度。我們開展了一項社區活動,以設計用于我們少樣本模板的200個ReAct提示。參與者被要求根據自己的推理直覺進行提示設計,從而產生了廣泛的方法。我們為他們提供了描述ReAct提示結構(思想/行動/行動輸入/觀察)的模板以及測試集中的一些示例查詢。我們確保他們無法訪問基準測試本身。由于ReAct提示中代表了多樣化的思維過程,這項活動顯著提高了我們ReAct智能體的性能。附錄B中提供了最終少樣本提示的示例。
?工具集成:該框架與外部工具集成,實現了更復雜的問題解決能力。我們在ODS-v1中使用了三種工具:
網絡搜索:2.1節中的開放搜索工具。
數學處理:與Wolfram Alpha API集成,用于處理算術和復雜的數學計算。
繼續思考:使用基礎大語言模型繼續推理,以分解復雜查詢。
?ODS-v1:我們在ODS-v1的開放推理智能體中集成了思維鏈一致性采樣、ReAct智能體框架和少樣本提示。對于任何查詢,我們首先運行開放搜索工具,其產生的上下文以及原始查詢被輸入到ReAct智能體中。ReAct智能體使用由結構化步驟組成的提示:<思考>、<行動>、<行動輸入>和<觀察>,以<問題>開始,以<最終答案>結束。這些步驟會迭代,直到返回響應,但如果信息不足,智能體可能不會返回答案。ReAct智能體有三個行動選項。“繼續思考”(<行動>=繼續思考)用于擴展復雜問題分解的推理過程。“搜索”(<行動>=搜索互聯網)利用OpenPerplex查找事實信息,如日期、名稱和學術內容。“計算”(<行動>=計算)連接到Wolfram Alpha API,用于處理基礎模型通常難以處理的數值計算。
當ReAct智能體無法提供答案時(由Llama - 3 - 8B判斷模型確定),系統會默認使用思維鏈自洽性方法。這個備用過程會對大語言模型進行r次調用,對相似的響應進行聚類,并從最大的聚類中隨機返回一個響應,最終得出最終答案。
在以下取自FRAMES基準測試的示例中,我們可以觀察到ODS - v1相較于諸如Perplexity的Sonar Reasoning Pro等最先進的封閉模型在推理方面的優勢。ODS和Sonar Reasoning Pro模型都對潛在答案感到困惑。然而,ODS正確識別出112英寸為正確答案,并使用Wolfram - Alpha工具進行了額外檢查,按要求將答案轉換為2,845毫米。相反,Sonar Reasoning Pro只是給出了2,858毫米的錯誤答案。
FRAMES中的一個問題:1975年勒諾·馬歇爾詩歌獎(Lenore Marshall Poetry Prize)的獲得者,如果在魯皮·考爾(Rupi Kaur)出版《牛奶與蜂蜜》(Milk and Honey)一書時還活著,他/她會是多少歲?正確答案:90歲
圖3:FRAMES中的一個示例問題和答案,ODS - v1使用Wolfram計算器工具準確計算年齡差,得出正確答案90歲。相反,Perplexity采用了錯誤的推理路徑,報告年齡為79歲。
2.2.2 基于CodeAct智能體的ODS - v2
?代碼鏈(CoC):雖然思維鏈(CoT)在語義推理中已被證明是有效的,但在處理需要精確數值或符號計算的任務時,它常常遇到挑戰。為了解決這些限制,代碼鏈(參考文獻[11])(CoC)利用大語言模型的代碼編寫能力來生成和執行代碼或偽代碼,以解決算法和語義問題。這種方法不僅拓寬了大語言模型能夠處理的推理問題的范圍,還提高了它們在解決復雜任務時的準確性。在各種基準測試中,代碼鏈的表現優于傳統的思維鏈方法,這突出了將代碼生成和執行集成到大語言模型中以實現更強大推理能力的潛力。
?CodeAct:最近的進展(參考文獻[14])表明,與傳統的基于JSON的方法相比,生成可執行的Python代碼來調用工具在性能上有顯著提升。特別是,大語言模型天生擅長使用代碼壓縮任務的行動空間。此外,代碼作為一種表示模式,比基于JSON的方法更自然地適合采取行動,因為它可以更容易地進行組合、模塊化和泛化。在ODS - v2中,我們調整了搜索工具,使其能夠與SmolAgents(參考文獻[25])的框架協同工作,因為該框架允許定制且易于分發。我們最基本的由搜索驅動的推理智能體使用(參考文獻[25])CodeAgent(CodeAct的一個變體),并可訪問我們的搜索工具,如圖4所示。ODS - v2的更高級迭代涉及多個工具和智能體協同工作,以解決可能涉及或不涉及搜索的更復雜任務。
圖4:ODS - v2中的CodeAct智能體回答一個多跳問題
3. 實驗
基線模型:我們將ODS與Perplexity(參考文獻[21])中流行的閉源搜索人工智能(其默認搜索人工智能,我們稱為Perplexity,以及一種先進的推理搜索人工智能,稱為Perplexity Sonar Reasoning Pro(參考文獻[22]))以及OpenAI的最先進搜索人工智能GPT - 4o Search Preview(參考文獻[17])進行比較。這些是可訪問搜索引擎的最先進人工智能解決方案。作為單獨的基線模型,我們還將其與大語言模型進行比較:GPT - 4o、Llama - 3.1 - 70B和DeepSeekR1。盡管這些模型無法訪問互聯網,但我們在表1中展示了具有推理能力的大語言模型在我們的FRAMES(參考文獻[8])和SimpleQA(參考文獻[30])評估基準測試中表現出人意料地好。
3.1 兩個評估基準的數值分析:FRAMES和SimpleQA
我們使用兩個評估基準:FRAMES(參考文獻[8])和SimpleQA(參考文獻[30])。最初,SimpleQA旨在在不進行網絡瀏覽的情況下測試前沿模型的事實性,而FRAMES旨在測試模型在單跳和多跳查詢中的事實性和檢索能力,在FRAMES中會給出真實的維基百科文章。在我們的場景中,我們使用這兩個基準來評估可訪問互聯網的搜索人工智能的準確性。
3.1.1 FRAMES的數值分析
FRAMES(事實性、檢索和推理測量集)數據集(參考文獻[8])包含824個具有挑戰性的多跳問題,需要整合來自維基百科的多個來源的信息。參考文獻[8]中報道的最佳單查詢搜索方法,在使用來自維基百科數據轉儲中單個查詢檢索到的4個具有最高BM25分數(參考文獻[24])的文檔時,Gemini - Pro1.5 - 0514(2024年5月14日發布)的得分為47.4%。在表2中,ODS - v1 + DeepSeek - R1在每個查詢使用一次網絡搜索的相同條件下達到了56.7%的準確率。這比最先進的推理大語言模型(如DeepSeek - R1和GPT - 4o)以及搜索人工智能(如Perplexity和Perplexity Sonar Reasoning Pro)有了顯著提高,如表1所示。基于CodeAct的ODS - v2 + DeepSeek - R1智能體選擇進行更多搜索,因此在FRAMES上平均每個查詢使用3.39次搜索,達到了75.3%的準確率。
有了我們的推理智能體,ODS - v1 + DeepSeek - R1可以選擇進行更多搜索,但它沒有這樣做。另一方面,當ODS - v1使用Llama3.1 - 70B作為基礎模型時,它會進行更多的網絡搜索以提高準確率,如表中所示,圖6中的示例也對此進行了說明。
表2:在兩個基準測試中,ODS平均每個查詢進行網絡搜索的次數。ODS會根據第一次搜索結果的質量和模型輸出進行調整,僅在必要時謹慎地進行額外搜索。
參考文獻[8]中報道,通過多次網絡搜索可以提高FRAMES上的準確率。例如,Gemini - Pro - 1.5 - 0514通過使用重新表述的提示運行搜索引擎15次,可以達到與ODS - v1 + DeepSeek - R1相似的性能。然而,這種多步多搜索方法效率低下,因為它不管示例的難度或模型輸出的正確性如何,都固定進行15次搜索。這是我們智能體框架的動機之一,在我們的智能體框架中,我們的推理智能體會根據初始搜索質量和模型輸出自適應地選擇是否再次搜索。這在表2中有所體現,當ODS - v1與較弱的Llama3.1基礎模型配對時,它會進行更多的網絡搜索。圖6中的示例展示了ODS - v1在初始搜索不足時如何謹慎地使用搜索功能。同樣,對于ODS - v2,它在SimpleQA上選擇進行較少的網絡搜索,因為SimpleQA是一個相對簡單的任務,只需要一個正確的信息來源,而FRAMES是一個更復雜的任務,需要多個信息來源。
圖6:FRAMES中的一個示例問題和答案,ODS - v1 + Llama3.1 - 70B意識到需要進行第二次搜索,再次搜索以找到國王克里姆森主唱的出生年份,并正確回答“1946年”。另一方面,Perplexity(參考文獻[21])無法確定國王克里姆森樂隊的主唱。
3.1.2 SimpleQA的數值分析
圖7:SimpleQA中的一個示例問題和答案,ODS-v1利用開放搜索工具檢索到的高質量上下文,通過交叉核對多個來源,確定了正確答案。而Perplexity Sonar Reasoning Pro在搜索中未能檢索到相關信息。
圖8:SimpleQA中的一個示例問題和答案,開放推理智能體正確識別出112英寸為正確答案,并使用WolframAlpha API進行了額外檢查,將答案轉換為2845毫米。相反,Perplexity Sonar Reasoning Pro在112.5英寸和112英寸這兩個潛在答案之間產生了混淆。我們在此處簡化了回復,完整回復請參考附錄A。
在表3中,我們調查了其他來源報道的SimpleQA準確率結果,以及ODS - v1 + Llama3.1 - 70B、ODS - v1 + DeepSeek - R1和ODS - v2 + DeepSeek - R1的結果。借助DeepSeek - R1的推理能力,ODS - v1 + DeepSeek - R1比ODS - v1 + Llama3.1 - 70B有了改進。還有一些更新的閉源解決方案,如GPT - 4o Search Preview(參考文獻[17])、Exa(參考文獻[1])、Linkup(參考文獻[15])和Perplexity Deep Research(參考文獻[23]),聲稱在SimpleQA上取得了更高的分數。ODS提供了一個開源解決方案,可以顯著縮小開源搜索人工智能解決方案與閉源解決方案之間的差距。
3.2 ODS的消融研究
在表4中,我們對基于ReAct的ODS - v1開放推理智能體的各個部分進行了消融研究。Llama3.1-70B模型單獨在SimpleQA中隨機選擇的500個示例子集上(為了提高效率,僅在本節中使用了子采樣評估數據集)的準確率為21.2%,在FRAMES上的準確率為34.3% 。使用我們的開放搜索工具(在表中簡稱為Search)后,SimpleQA的準確率大幅提高到82.4%,但FRAMES的性能卻下降到27.6%。我們的開放推理智能體有兩個部分:帶有自洽性解碼的思維鏈ReAct(CoT-ReAct)和少樣本提示(FewShot)。逐個添加這些組件后,在子采樣的SimpleQA和FRAMES上都逐漸取得了性能提升。這表明ODS-v1的每個組件都對最終實現的性能有貢獻。最后,通過將基礎模型從Llama3.1-70B替換為推理能力更強的DeepSeek-R1,我們展示了ODS-v1能夠利用大語言模型的推理能力來實現更好的性能。
4. 結論
為了彌合諸如Perplexity Sonar Reasoning Pro(參考文獻[22])和GPT-4o Search Preview(參考文獻[17])等最先進的專有搜索人工智能解決方案與它們的開源替代方案(參考文獻[27, 19, 20])之間日益擴大的差距,我們推出了開放深度搜索(ODS)。這種開源搜索人工智能可以以即插即用的方式與用戶選擇的任何大語言模型無縫結合。這使得ODS能夠利用推理大語言模型的最新進展,實現越來越高的準確率。
當使用DeepSeek-R1時,ODS在FRAMES基準測試上可以達到75.3%的準確率,比2025年3月11日發布的GPT-4o Search Preview高出10%(表1)。在另一個基準測試SimpleQA上,ODS顯著縮小了開源和閉源解決方案之間的差距。這一重要的里程碑是通過ODS的兩個組件:開放搜索工具和開放推理智能體之間的協同作用實現的。
? 我們推出開放搜索工具,從互聯網提供高質量的檢索結果,供ODS中的推理智能體框架作為工具使用。
? 開放推理智能體解釋給定的任務,并通過調用可用的工具來完成任務,這些工具包括搜索工具(我們提出的開放搜索工具)、計算器(由Wolfram Alpha API提供)、思考(使用提供的基礎大語言模型)和代碼解釋器(我們使用Python解釋器)。
與最新的強大推理大語言模型一起,構成ODS的這兩個開源組件確保了我們在搜索方面實現最先進的性能。開放搜索工具相對于專有同類產品的優勢在例如圖7和附錄A中的其他示例中得到了展示。開放推理智能體的優勢在例如圖6和圖8以及附錄A中的其他示例中得到了展示。
我們提供了兩種版本的開放推理智能體:一種基于ReAct,另一種基于CodeAct。我們公開發布所有開源實現,并邀請開源社區在我們的工作基礎上進行構建和進一步創新,從我們的最先進搜索人工智能解決方案開始。
參考資料
? 標題:Open Deep Search: Democratizing Search with Open-Source Reasoning Agents
? 作者:Salaheddin Alzubi?、Creston Brooks?、Purva Chiniya?、Edoardo Contente?、Chiara von Gerlach?、Lucas Irwin?、Yihan Jiang?、Arda Kaz??、Windsor Nguyen??、Sewoong Oh??、Himanshu Tyagi?、Pramod Viswanath??
? 標簽:AI搜索、開源技術、大語言模型、推理智能體
? 概述: 本文提出開放深度搜索(ODS)這一開源AI搜索解決方案,介紹其組成部分、工作機制,并通過實驗展示其在搜索人工智能領域超越部分閉源方案的性能優勢。
? 鏈接:https://arxiv.org/pdf/2503.20201
本文轉載自???旺知識???,作者:旺知識
