清華&人大:search-o1 讓推理模型具有主動能力
1. 背景
大型推理模型如 OpenAI - o1、Qwen - QwQ 等通過大規(guī)模強(qiáng)化學(xué)習(xí),在科學(xué)、數(shù)學(xué)、編碼等復(fù)雜領(lǐng)域展現(xiàn)出了強(qiáng)大的逐步推理能力。它們以 “慢思考” 模式生成長思維鏈條,有效解決復(fù)雜問題,增強(qiáng)了推理的邏輯性和可解釋性。然而,這也帶來了顯著弊端,在長鏈?zhǔn)酵评磉^程中,模型常常遭遇知識不足的困境。這使得推理鏈條容易出現(xiàn)錯誤傳播,嚴(yán)重影響最終答案的質(zhì)量。例如,在處理一些復(fù)雜的科學(xué)問題時,模型可能會因為對某些關(guān)鍵知識點的缺失而得出錯誤結(jié)論。
2. 研究動機(jī)
初步實驗發(fā)現(xiàn),類似 OpenAI - o1 的推理模型在處理復(fù)雜問題時,平均每個推理過程中會出現(xiàn)超過 30 次如 “或許”“可能” 等不確定詞匯。這不僅大幅增加了推理的復(fù)雜性,還使得手動驗證推理過程變得極為困難。因此,如何在推理過程中自動補(bǔ)充所需知識,成為提升大型推理模型可信度的關(guān)鍵所在,這也是 Search - o1 出現(xiàn)的原因。
3. Search - o1 框架
3.1 Search-o1框架概述
Search - o1 是自主知識檢索增強(qiáng)的推理框架,這個框架是為解決大型推理模型在長鏈?zhǔn)酵评頃r知識不足問題而設(shè)計的創(chuàng)新架構(gòu),主要由自主檢索增強(qiáng)生成機(jī)制和文檔內(nèi)推理模塊構(gòu)成。通過這一設(shè)計,模型能夠在推理過程中動態(tài)獲取并整合外部知識,確保推理的連貫性和準(zhǔn)確性。
- 自主檢索增強(qiáng)生成機(jī)制:在推理中,模型能自主判斷并生成檢索查詢,如遇到不熟悉的知識,會用特殊符號包圍查詢。檢測到查詢后,推理暫停,通過 Search 函數(shù)從外部知識庫檢索相關(guān)文檔,再將文檔注入推理鏈繼續(xù)推理,實現(xiàn)動態(tài)知識獲取。
- 文檔內(nèi)推理模塊:因檢索文檔可能冗長冗余,此模塊對其精煉。它依據(jù)當(dāng)前搜索查詢、已有推理步驟和文檔內(nèi)容,經(jīng)獨立生成過程提取關(guān)鍵信息,確保信息與推理鏈緊密相關(guān)且邏輯連貫,有效避免干擾。
在推理流程上,Search - o1 采用批量推理機(jī)制。初始化時為每個問題創(chuàng)建推理序列,模型生成推理鏈時,若產(chǎn)生檢索查詢則提取并檢索文檔,隨后文檔內(nèi)推理模塊精煉知識并插入推理鏈,不斷循環(huán)直至得出最終答案,有力保障推理過程的高效與準(zhǔn)確。
3.2 自主檢索增強(qiáng)生成機(jī)制
在推理進(jìn)程中,模型具備自主生成檢索查詢的能力,這些查詢被特殊符號包圍。一旦檢測到檢索查詢,模型會暫停當(dāng)前推理,利用查詢從外部知識庫檢索相關(guān)文檔。例如,在解決化學(xué)物質(zhì)反應(yīng)問題時,如果模型對某種反應(yīng)物的性質(zhì)不確定,就會生成相應(yīng)的檢索查詢。檢索到的文檔隨后會被注入推理鏈條,供模型繼續(xù)推理,從而有效彌補(bǔ)內(nèi)部知識的不足,使模型能夠靈活應(yīng)對知識缺口。
3.3 文檔內(nèi)推理模塊
由于直接插入檢索文檔可能引入冗余信息,擾亂推理連貫性,文檔內(nèi)推理模塊應(yīng)運而生。它通過獨立的生成過程,依據(jù)當(dāng)前搜索查詢、之前的推理步驟和檢索文檔內(nèi)容,對檢索到的文檔進(jìn)行深度分析。該模塊會提煉出與當(dāng)前推理緊密相關(guān)的關(guān)鍵信息,確保這些精煉后的信息能夠無縫整合到推理鏈條中,維持推理過程的邏輯性和連貫性,避免因信息冗余而導(dǎo)致的推理混亂。
3.4 推理過程
Search-o1 采用批量推理機(jī)制,高效處理多個問題。對于每個問題,首先用任務(wù)指令和具體問題初始化推理序列,隨后模型生成推理鏈。在這個過程中,若生成檢索查詢,則觸發(fā)檢索和信息整合流程。具體而言,檢測到檢索查詢后,提取查詢并檢索相關(guān)文檔,再通過文檔內(nèi)推理模塊精煉信息,最后將精煉后的知識插入推理鏈條繼續(xù)推理,如此循環(huán)直至生成最終答案,確保模型在整個推理過程中都能獲得充足的外部知識支持。
4. 實驗結(jié)果
Search - o1 的實驗設(shè)計精心且全面,涵蓋了豐富的任務(wù)與數(shù)據(jù)集,并選取了具有代表性的基線方法進(jìn)行對比,有力地驗證了其在推理領(lǐng)域的卓越性能。
4.1 任務(wù)與數(shù)據(jù)集
- 復(fù)雜推理任務(wù)
GPQA 是由物理、化學(xué)和生物學(xué)領(lǐng)域?qū)<揖木幹频?PhD 級科學(xué)多選問答數(shù)據(jù)集,其鉆石集包含 198 道高質(zhì)量題目,擴(kuò)展集則有 546 道題目,為評估模型在專業(yè)科學(xué)領(lǐng)域的推理能力提供了嚴(yán)格的測試環(huán)境。
數(shù)學(xué)基準(zhǔn)測試包含 MATH500、AMC2023 和 AIME2024,MATH500 從 MATH 測試集中精選 500 道題目,AMC2023 和 AIME2024 分別是涵蓋算術(shù)、代數(shù)、幾何等多方面知識的中學(xué)數(shù)學(xué)競賽題集,其中 MATH500 和 AMC 相對基礎(chǔ),AIME 難度較高,全方位考查模型的數(shù)學(xué)推理水平。
LiveCodeBench 則專注于評估模型的編程能力,精心收集了 2024 年 8 月至 11 月來自競賽平臺的不同難度編程問題,共計 112 道,嚴(yán)格檢驗?zāi)P驮诖a生成和理解方面的能力。
- 開放領(lǐng)域問答任務(wù)
在單跳問答方面,Natural Questions(NQ)以真實谷歌搜索查詢?yōu)閱栴}來源,答案取自維基百科文章,TriviaQA 則來自瑣事網(wǎng)站和競賽,問題涉及復(fù)雜的實體關(guān)系,兩者從不同角度測試模型對簡單知識的直接獲取和回答能力。
多跳問答中,HotpotQA 是首個要求跨多個維基百科段落推理的大規(guī)模數(shù)據(jù)集,2WikiMultihopQA(2WIKI)為多跳問題提供明確推理路徑,MuSiQue 構(gòu)建了 2 - 4 跳問題,Bamboogle 收集谷歌答錯的復(fù)雜問題,這些數(shù)據(jù)集著重考查模型在復(fù)雜知識關(guān)聯(lián)和多步推理方面的能力。
4.2 基線方法
- 直接推理
此方法完全依賴模型內(nèi)部已有的知識進(jìn)行推理,不借助任何外部檢索。在實驗中采用了多種開源和閉源非專有模型,開源模型如 Qwen2.5-32B-Instruct、Qwen2.5-Coder-32B-Instruct、QwQ-32B-Preview、Qwen2.5-72B-Instruct 和 Llama3.3-70B-Instruct 等,閉源非專有模型包括 DeepSeek-R1-Lite-Preview、OpenAI GPT-4o 和 o1-preview 等。對于開源模型,實驗基于自行實現(xiàn)的版本進(jìn)行測試,而閉源模型的結(jié)果則直接引用其官方發(fā)布的數(shù)據(jù),通過這些模型在無檢索輔助下的表現(xiàn),為評估 Search-o1 的性能提供了基礎(chǔ)參照。
- 檢索增強(qiáng)推理:包含標(biāo)準(zhǔn) RAG 和 RAgent 兩種方式。
標(biāo)準(zhǔn) RAG 針對原始問題檢索前 10 篇文檔,并將這些文檔與問題一同輸入模型進(jìn)行推理和答案生成,其特點是檢索方式相對固定。
RAgent 則允許模型自主決定何時生成檢索查詢,在推理過程中,受 ReAct 啟發(fā),先檢索前 10 個片段,模型根據(jù)需要進(jìn)一步獲取完整文檔的 URL,這種動態(tài)檢索方式更具靈活性,通過與這兩種檢索增強(qiáng)推理方法的對比,能夠凸顯 Search-o1 在知識獲取和利用方面的優(yōu)勢。
4.3 實驗效果
- 復(fù)雜推理任務(wù):在包括 PhD 級科學(xué)問答(GPQA)、數(shù)學(xué)基準(zhǔn)(如 MATH500、AMC2023、AIME2024)和編碼能力(LiveCodeBench)等復(fù)雜推理任務(wù)中,Search - o1 表現(xiàn)優(yōu)異。
QwQ - 32B 在無檢索的直接推理中就優(yōu)于一些更大規(guī)模模型,展示了 o1-like 長鏈思維的有效性;
RAgent - QwQ - 32B 憑借自主檢索機(jī)制超越了標(biāo)準(zhǔn) RAG 和直接推理方法;
Search - o1 進(jìn)一步通過文檔內(nèi)推理模塊提升性能,在多數(shù)任務(wù)上取得最佳表現(xiàn),尤其在 GPQA、數(shù)學(xué)和編碼任務(wù)上性能提升顯著。
同時,增加檢索文檔數(shù)量可進(jìn)一步增強(qiáng) Search - o1 的性能,體現(xiàn)了其動態(tài)檢索和精煉機(jī)制的高效性。如下圖
- 開放域問答任務(wù):在開放域問答任務(wù)中,直接推理的 LRMs 表現(xiàn)與非推理模型相近,凸顯了知識不足的問題。檢索增強(qiáng)方法顯著提升了模型在多跳問答任務(wù)上的表現(xiàn),其中 RAgent - QwQ - 32B 表現(xiàn)優(yōu)于標(biāo)準(zhǔn) RAG。Search - o1 在多跳問答任務(wù)上更是超越所有基線方法,有力證明了文檔內(nèi)推理模塊在復(fù)雜問答中的關(guān)鍵作用和有效性。
5. 小結(jié)
Search - o1 框架為大型推理模型在長時間推理中面臨的知識不足難題提供解決方案。它通過自主知識檢索和精煉整合,顯著提升了推理的準(zhǔn)確性和連貫性,在多種復(fù)雜推理任務(wù)和開放域問答基準(zhǔn)測試中表現(xiàn)卓越,部分領(lǐng)域甚至超越人類專家。
本文轉(zhuǎn)載自 ??鴻煊的學(xué)習(xí)筆記??,作者: 乘風(fēng)破浪jxj
