成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人大清華提出自主搜索版「Search-o1」!解決知識困境,大幅提升推理模型可靠性

人工智能
人大清華團隊提出Search-o1框架,大幅提升推理模型可靠性。尤其是「文檔內推理」模塊有效融合了知識學習與推理過程,在「搜索+學習」范式基礎上,使得模型的推理表現與可靠性都更上一層樓。

自OpenAI發布o1以來,如何復現并改進o1就成為了LLM研究的焦點。

盡管以OpenAI-o1、Qwen-QwQ和DeepSeek-R1為代表的推理模型,其推理能力已然震驚四座,但由于在長鏈推理過程中仍然面臨著「知識不足」的問題,導致這些模型在推理過程還包含著一些不確定性和潛在錯誤。

類似于OpenAI-o1在處理復雜問題時,每次推理過程中平均會遇到超過30個不確定術語實例,如「或許」和「可能」。這不僅增加了推理的復雜性,還使得手動驗證推理過程更具挑戰性。

因此,自動化補充推理過程中所需知識對于提升大型推理模型的可信度變得至關重要。

為了解決這一問題,人大高瓴攜手清華團隊提出了Search-o1框架。該框架通過集成自主檢索增強生成(Agentic Retrieval-Augmented Generation)機制和文檔內推理(Reason-in-Documents)模塊,解決了大型推理模型(LRMs)固有的知識不足問題。

同時也使得LRMs能夠在推理過程中自主檢索并無縫整合外部知識,從而提升其長步驟推理能力的準確性和連貫性。在科學、數學、編程等多樣復雜推理任務以及多個開放域問答基準上的全面實驗表明,Search-o1 始終優于現有的檢索增強和直接推理方法。

值得注意的是,Search-o1 不僅在處理復雜推理挑戰上超越了基線模型,還在特定領域達到了與人類專家相當甚至超越的表現水平。

圖片圖片

論文鏈接:https://arxiv.org/abs/2501.05366

如下圖所示,在對比推理過程中出現的不確定性詞語的平均次數時,Search-o1明顯比直接進行推理的模型要低,尤其是「alternatively」出現的次數甚至還不到后者的一半。

高頻不確定詞出現次數對比高頻不確定詞出現次數對比

同時Search-o1也明顯低于標準RAG。因為標準RAG僅以問題導向的方式檢索一次相關知識,而在復雜推理場景中,每一步所需的知識往往是多樣且多變的。

與它們不同,Search-o1采用了一種代理式RAG技術,指導模型在面對知識短缺時主動解碼去搜索查詢,從而觸發檢索機制以獲取相關外部知識。得益于這一設計的優勢,Search-o1的檢索機制可以在一次推理會話中多次觸發和迭代,以滿足各種推理步驟的知識需求。

框架介紹

研究者將以下三種推理范式做了一個流程概述的對比:

  • 原始推理模式:考慮下圖(a)中的例子,其任務為確定三步化學反應最終產物中的碳原子數量。然而當遇到知識空白時,例如「反式肉桂醛的結構」,原始推理方法就會失效。因為在無法獲取準確信息的情況下,模型必須依賴假設,這就可能導致后續推理步驟中產生連環錯誤。
  • 代理式RAG:為了在推理過程中彌合知識差距,圖(b)代理式RAG機制能夠使模型在需要時自主檢索外部知識。當出現不確定性時,例如關于化合物結構的問題,模型則會生成有針對性的搜索查詢。然而,直接處理檢索到的文檔(這些文檔通常包含冗長且不相關的信息)可能會打斷推理流程并影響連貫性。
  • Search-o1:Search-o1框架(圖(c))通過整合一個「文檔內推理」模塊擴展了代理式RAG機制。該模塊將檢索到的文檔內容濃縮為聚焦的推理步驟,這些步驟在保持推理鏈邏輯流暢的同時,融入了外部知識。它考慮當前搜索查詢、檢索到的文檔以及現有的推理鏈,以生成連貫的步驟。這一迭代過程持續進行,直至得出最終答案。

三種框架的概述對比三種框架的概述對比

簡要來講,Search-o1推理首先將任務指令與具體問題相結合。當推理模型生成推理鏈時,可能會創建帶有特殊符號標記的搜索查詢。

檢測到搜索查詢后,接著會觸發對相關外部文檔的檢索。這些文檔隨后由文檔內推理模塊處理,提取并精煉必要信息。

精煉后的知識被重新整合到推理鏈中,確保模型在保持連貫和邏輯流程的同時,融入關鍵的外部信息,最終實現全面的推理過程并得出最終答案。

研究者將推理模型的目標定義為生成每個問題q的全面解決方案,包括邏輯推理鏈?和最終答案a,并使推理模型能夠在推理過程中利用外部知識源。

圖片圖片

如上述算法流程圖所示:對于每個問題,Search-o1推理首先通過將任務指令I與特定問題q連接來初始化推理序列。隨著推理模型?生成推理鏈?,它可能會產生封裝在特殊符號<|begin_search_query|>和<|end_search_query|>之間的搜索查詢。

一旦檢測到符號,相應的搜索查詢圖片會被提取出來,觸發檢索函數Search以獲取相關的外部文檔??。

這些檢索到的文檔,連同文檔內推理指令圖片和當前的推理序列?,隨后由文檔內推理模塊處理。該模塊將原始文檔提煉為簡潔、相關的信息圖片并無縫地將其整合回推理鏈?中的符號和內。這一迭代過程確保了推理模型在保持連貫性和邏輯一致性的同時,融入必要的外部知識,從而生成全面的推理鏈 ? 和最終答案a。

具體而言,研究者在問題解決過程中考慮三個主要輸入:任務指令I 、問題q和外部檢索的文檔??。其中,I提供了推理任務的總體描述,q是要回答的具體復雜問題,??包括從相關知識庫動態檢索的背景知識。

目標是設計一種推理機制,有效整合I、q和??,以生成連貫的推理鏈?和最終答案a。這可以形式化為映射(I,q,??)→(?,a)。推理序列和最終答案的生成可表示為:

圖片圖片

其中Tr是推理序列?中的標記數量。位置t處的標記是?t,而?<t表示在位置t之前生成的所有標記。??≤t表示在推理鏈中直到標記t為止檢索到的所有文檔。同樣地,Ta是答案序列a的長度,at是位置t處的標記,a<t表示在位置t之前生成的所有答案標記。

代理檢索增強生成機制

代理式RAG機制是Search-o1框架的關鍵組成部分,它賦予推理模型在推理過程中自主決定何時檢索外部知識的能力。該機制使得模型能夠自行決定是繼續生成推理步驟還是啟動檢索步驟。

在生成推理鏈?的過程中,模型可能會在特殊符號<|begin_search_query|>與<|end_search_query|>之間,間歇性地生成搜索查詢圖片,其中i索引第i個搜索步驟。每個搜索查詢都是基于當前推理過程的狀態和先前檢索到的知識生成的。每個搜索查詢的生成表示為:

圖片

其中圖片是第i個搜索查詢的長度,圖片表示在第i個搜索查詢的第t步生成的令牌,?(i?1)表示在第i個搜索步驟之前的所有推理步驟,包括搜索查詢和搜索結果。

一旦在推理序列中檢測到用于搜索查詢的一對新特殊符號,就需要暫停推理過程,并提取搜索查詢圖片。調用檢索函數 Search 以獲取相關文檔:

圖片

其中圖片表示針對第i個搜索查詢檢索到的前ki個相關文檔的集合。檢索到的文檔??(i)隨后被注入到特殊符號之間的推理鏈 ?(i?1) 中,使推理模型能夠利用外部知識繼續推理過程。

文檔內推理實現知識精煉

盡管代理RAG機制解決了推理中的知識缺口,但直接插入完整文檔可能會因其長度和冗余而破壞連貫性。

為此Search-o1框架包含了知識精煉模塊,該模塊通過使用原始推理模型的獨立生成過程,選擇性地將相關且簡潔的信息整合到推理鏈中。

此模塊處理檢索到的文檔,使其與模型的特定推理需求對齊,將原始信息精煉為僅相關的簡潔知識,同時保持主推理鏈的連貫性和邏輯一致性。

對于每個搜索步驟i,令圖片表示在第i次搜索查詢之前積累的推理鏈。給定圖片、當前搜索查詢圖片和檢索到的文檔圖片,知識精煉過程分為兩個階段:首先生成中間推理序列圖片以分析檢索到的文檔,然后基于此分析生成精煉后的知識圖片。中間推理序列圖片的生成表達為:

圖片

然后基于此分析生成精煉知識圖片

圖片

隨后,精煉知識圖片被整合到推理鏈?(i)中,使模型能夠繼續生成連貫的推理步驟,并訪問外部知識。

圖片

其中圖片表示截至第i?(t)搜索步驟之前所有已提煉的知識。這種精煉的知識整合確保了每個推理步驟都能訪問相關的外部信息,同時保持推理過程的簡潔性和專注性。

實驗評估

Search-o1采用QwQ-32B-Preview作為backbone,進行基線實驗。本實驗的評估涵蓋兩類任務與數據集:高難度推理任務和開放領域問答任務。

高難度推理任務涉及以下三個數據集:

1. GPQA:這是一個博士級別的科學問答數據集,其中的問題均由領域專家編寫,主要用于評估模型在復雜科學推理方面的表現。

2. 數學基準測試:旨在考察模型在不同難度數學推理任務中的能力表現。

3. LiveCodeBench:該數據集用于評估LLM的編碼能力。

開放領域問答任務可分為單跳問答和多跳問答兩類。單跳問答主要考查模型對單一信息源的理解能力。多跳問答目的是評估模型在跨段落、多信息源進行推理時的綜合能力。

Search-o1在復雜推理任務的表現Search-o1在復雜推理任務的表現

在上述表格中我們可以發現:

QwQ-32B-Preview優勢顯著,無論有無檢索,它都強于傳統指令微調的大語言模型。在直接推理時,32B的QwQ模型比Qwen2.5-72B、Llama3.3-70B等更大模型表現還好,表明o1類長CoT方法在復雜推理的有效性。

RAgent-QwQ-32B表現突出,其智能體檢索機制可自主補充推理知識,多數任務中優于標準RAG模型和直接推理的QwQ-32B。但非推理模型Qwen2.5-32B 用智能體RAG時,在GPQA與標準RAG持平,數學和代碼任務卻下降,說明普通LLM難以用檢索解決復雜推理。

Search-o1性能卓越,在多數任務中超越RAgent-QwQ-32B。平均來看,它比RAgent-QwQ-32B和QwQ-32B分別高4.7%和3.1%,比非推理模型Qwen2.5-32B和Llama3.3-70B分別高出44.7%和39.3%。

檢索文檔數量的擴展分析

在本次實驗里,我們探究了性能如何隨著檢索文檔數量的改變而變化,相關結果呈現在下圖中。

實驗結果顯示,Search-o1能高效利用逐步增多的檢索文檔。隨著文檔數量增加,它在處理復雜推理任務時,性能得到顯著提升。

值得關注的是,即便Search-o1僅檢索一個文檔,其整體性能也優于直接推理(Direct Reasoning),以及使用十個檢索文檔的標準RAG模型。

這一結果進一步證實了代理型搜索(Agentic Search)與文檔內推理(Reason-in-Documents)策略行之有效。

推理中使用的top-k檢索文檔的擴展分析推理中使用的top-k檢索文檔的擴展分析

與人類專家的比較

作者在GPQA擴展集中將 Search-o1 的性能與各領域的人類專家進行了比較。下表展示了來自物理學、化學和生物學等多個學科的人類專家評估結果。

圖片

Search-o1模型在整體性能(57.9)以及物理學(68.7)和生物學(69.5)方面均優于人類專家,展示了其在處理復雜推理任務上的卓越能力。盡管Search-o1在化學子領域(40.7vs.72.6)遜于化學家,但總體上仍具有競爭優勢,特別是在跨多個領域的通用性能方面。

這凸顯了Search-o1在利用文檔檢索和推理實現跨領域性能方面的有效性,其表現可與專家級能力相媲美甚至超越。

這些發現也揭示了Search-o1在顯著提高LRMs的可靠性和多功能性方面的潛力,為復雜問題解決場景中更可信、更有效的智能系統實現鋪平了道路。

參考資料:

https://search-o1.github.io/

https://arxiv.org/abs/2501.05366

責任編輯:武曉燕 來源: 新智元
相關推薦

2024-09-24 11:01:03

2025-06-11 09:19:46

2023-06-20 13:44:49

清華推理

2025-01-20 09:05:00

模型推理AI

2010-12-28 19:50:21

可靠性產品可靠性

2019-08-30 12:10:05

磁盤數據可靠性RAID

2024-12-24 16:15:04

2009-07-24 12:35:17

刀片惠普數據中心

2023-07-21 08:00:00

API數字世界

2010-12-28 20:04:10

網絡的可靠性網絡解決方案可靠性

2025-04-21 08:45:00

2025-04-08 09:16:00

推理模型AI

2025-04-23 08:30:05

2011-05-25 19:31:07

Stratus信息化

2010-12-28 20:16:24

2024-11-07 15:40:00

2015-05-06 21:27:25

華為服務器/華為

2025-03-05 00:22:00

2024-08-06 08:43:17

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 色小姐综合网 | 久久综合久久自在自线精品自 | 亚洲一二三区免费 | av一级久久 | 中文字幕免费在线 | 亚洲经典一区 | 黄色亚洲网站 | 色呦呦在线 | 人人爽人人爽人人片av | 国产精品成人一区二区 | 国产精品777一区二区 | 亚洲精品美女 | 美女黄视频网站 | 奇色影视 | 成人免费观看男女羞羞视频 | 午夜免费观看体验区 | 超碰在线人人 | 日本一卡精品视频免费 | 久久久免费 | 欧美在线观看一区 | 精品日韩一区二区 | 成人在线视频看看 | 大香网伊人 | 国产在线观看免费 | 免费看国产一级特黄aaaa大片 | 国产精品久久久久久久久图文区 | 欧美一区二区在线播放 | 特a毛片 | 日韩视频精品 | 欧美一区二区三区大片 | 一区二区精品 | 日韩激情视频一区 | 一区二区三区小视频 | 久草网址| 亚洲欧美国产毛片在线 | 亚洲精品区 | 四虎影视免费在线 | 久久国产精品亚洲 | 亚洲毛片一区二区 | 国产精品99久久久久久久久久久久 | 中文字幕在线网 |