成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

IKEA:通過強化學習提高LLM檢索規劃效率(開源)

發布于 2025-5-20 06:36
瀏覽
0收藏

1. 為什么要提出IKEA?

隨著可驗證獎勵系統的大規模強化學習(RL)技術突破,以Deepseek R1為代表的推理模型性能顯著提升。這類模型能通過推理激活預訓練知識來處理知識密集型任務,但受限于預訓練語料的局限性和世界知識的動態性,仍存在幻覺問題。

當前主流解決方案是賦予模型調用搜索引擎的能力,將其訓練為搜索智能體,使其在強化學習中逐步掌握任務分解與知識檢索能力。

然而該方法存在明顯缺陷:

其一,過度依賴LLM的工具調用功能,卻未能充分發揮其作為內置知識庫(LLM-as-KB)的潛力,導致大量冗余檢索——即便答案已編碼在模型參數中仍進行外部搜索。

其二,檢索器性能局限會引入噪聲,造成知識沖突,常見如錯誤檢索結果覆蓋正確參數知識。

其三,頻繁的搜索引擎調用會打斷生成過程,導致顯著推理延遲。這引出了核心研究命題:如何訓練能智能融合參數知識(內部)與檢索知識(外部)的高效自適應搜索智能體?

理想的搜索智能體需具備三大知識行為:

  • 知識邊界劃分:將問題拆解為原子問題并判斷各子問題是否在其知識邊界內;
  • 內部知識調用:對邊界內問題激活相關參數知識輔助解答;
  • 外部知識檢索:對邊界外問題生成精準搜索指令并獲取所需知識。

關鍵在于智能決策檢索時機——現有方法或依賴泛化性差的外部分類器,或采用復雜的數據工程實現自主決策,但尚未充分探索如何通過強化學習實現最優檢索時機的自主判斷。

為此,提出強化內外知識協同推理智能體IKEA。明確要求模型先界定知識邊界并優先調用參數知識,僅當確認知識不足時才觸發外部檢索。

2. 什么是IKEA?

自適應搜索智能體(Reinforced Internal-External Knowledge Synergistic REasoning Agent,IKEA)設計了兩大核心組件:

  • 面向知識協同的邊界感知獎勵函數
  • 精心構建的平衡訓練數據集(含等量的可內部解答與需外部檢索的問題)。

獎勵機制對參數知識充足的問題鼓勵答案正確性并抑制冗余檢索,對邊界外問題則激勵精準檢索,以此提升模型的自我認知能力。

在單跳與多跳知識推理任務上,IKEA不僅全面超越基線方法,在分布外數據也展現強大泛化能力。相比傳統強化學習方案Search-R1,IKEA能在提升性能的同時大幅降低檢索次數,充分驗證了方法的優越性。

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

如上圖中部所示,典型的LLM搜索智能體會在動作標記中依次生成推理思路、搜索查詢和最終答案。

  • 頂部展示LLM智能體的多輪強化學習訓練框架(含可驗證獎勵機制)
  • 中部為Search-R1模塊
  • 底部為IKEA模塊。

Search-R1和IKEA屬于特殊類型的LLM智能體。

為規范交互動作的解析,定義了三類結構化標簽:

  • ??<THINK>[推理內容]</THINK>??用于思維過程
  • ??<SEARCH>[搜索查詢]</SEARCH>??用于檢索操作
  • ??<ANSWER>[最終答案]</ANSWER>??用于結果輸出

雖然??<THINK>??標簽內容不直接參與環境交互,但它作為模型生成的思維痕跡,仍屬于動作序列的組成部分。

智能體在每輪交互中,需先在??<THINK>???標簽內完成狀態分析,再選擇生成??<SEARCH>???或??<ANSWER>??標簽進行實際操作。

當觸發??<SEARCH>???時,模型生成的查詢語句會驅動檢索器從語料庫獲取相關知識,這些知識會被封裝在??<CONTEXT>[檢索結果]</CONTEXT>??標簽中,作為觀察信息反饋給智能體。

??<CONTEXT>???內容屬于環境反饋而非模型生成,因此在訓練時會進行屏蔽處理。當??<ANSWER>??標簽被激活時,意味著任務進入終局階段,模型輸出的答案將終結整個交互流程,我們稱此完整過程為一個"推演"。

2.1 IEKA:強化型內外知識協同推理智能體

現有搜索智能體往往過度依賴大語言模型(LLM)的任務分解能力:將查詢拆解為子問題后,反復檢索相關文檔輔助推理。這種模式既浪費了LLM本身作為知識庫的潛力,導致大量冗余檢索,又可能因錯誤外部知識覆蓋正確內部知識而產生有害沖突。

為此,需要IKEA——能智能劃定知識邊界,邊界內充分調用模型參數知識,邊界外精準啟動檢索機制。

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

IKEA智能體通過三重創新實現這一目標(如上圖):

  • 智能提示模板:引導模型自主決策何時調用內部知識,何時啟動外部檢索
  • 邊界感知獎勵機制:包含答案準確性獎勵(r_ans)和知識邊界獎勵(r_kb),通過強化學習驅使模型明確認知自身能力邊界
  • 平衡訓練數據集:按1:1比例混合模型擅長的問題(Q_easy)與薄弱問題(Q_hard),避免訓練后出現"全盤檢索"或"拒絕檢索"的極端傾向

獎勵函數設計精要:

  • 格式錯誤直接扣分(R=-1)
  • 答案正確時(r_ans=1),獎勵隨檢索次數減少而線性增加,最高達r_kb+
  • 答案錯誤時(r_ans=0),零檢索得0分,啟動檢索則獲象征性獎勵r_kb-
  • 通過設定r_kb-?r_kb+,確保模型優先信任自身知識

數據構建采用上下文學習法:對每個問題采樣N次答案,至少一次正確則標記為Q_easy(模型已掌握),否則為Q_hard(需輔助)。如表1所示,這種均衡設計使Qwen2.5系列模型在保持精確匹配率(EM)的同時,顯著優化了檢索效率(RT)。

3. 效果如何

3.1 整體效果

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

上圖分別呈現了實驗結果與訓練日志。簡單任務主要依賴模型已有知識,而困難任務往往需要突破知識邊界。

傳統基線方法難以協調內外知識:

  • "Direct"純靠內部知識
  • "RAG"和迭代檢索的"Iter-Retgen"則依賴外部知識

外部知識顯著提升LLM在知識密集型任務的表現,暴露出模型內部知識儲備的不足。但持續檢索會引發沖突與延遲,自適應方法IR-COT(自主決定檢索時機)和FLARE(基于低置信詞元觸發檢索)試圖解決該問題。

  • IR-COT雖提升困難任務表現,卻因知識沖突損害簡單任務;
  • FLARE因檢索次數過少,效果與"Direct"相當,證明詞元概率并非理想檢索觸發器。

關鍵結論在于:必須動態協同運用內外知識——夠用則內,不足則外。但未經調優的模型缺乏自主判斷能力。

強化學習基線成功激活了模型單獨運用內外知識的能力。僅用內部知識的R1通過強化知識表達,在簡單任務上表現突出,但對困難任務提升有限,印證外部知識的必要性。

能生成搜索查詢的Search-R1以更少檢索次數超越迭代檢索等方法,證明強化學習可增強外部知識獲取的規劃能力。但兩者都未能實現內外知識的有機融合。

IKEA實現了內外知識的自適應協同。在多輪決策中,模型可自由選擇知識來源。通過知識邊界感知獎勵機制:當內外知識均有效時,鼓勵優先使用內部知識以減少檢索;內部知識不足時,則觸發檢索獲取外部知識。

IKEA較R1性能提升超10%(主要來自困難任務),較Search-R1大幅減少檢索次數,表明模型通過自我探索學會了劃定知識邊界——邊界內充分調用參數化知識,邊界外有效利用檢索知識。這不僅規避了知識沖突,更提升了整體效率。值得注意的是,其在分布外數據集同樣表現優異,證明這種知識獲取策略具備良好泛化性。

IKEA訓練方法具有普適性。

  • 基于指令調優模型(Qwen2.5-7B-Instruct)的IKEA起點較高;
  • 從零開始的IKEA-Zero(Qwen2.5-3B-Base)雖初期獎勵較低,但最終都能達到相近水平,證實強化學習可實現無冷啟動的協同推理。

更大模型(7B vs 3B)收斂更快且效果更優。

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

檢索次數與響應長度的變化曲線揭示:初期通過增加檢索探索知識邊界,后期逐步優化消除冗余。特別是IKEA-Zero的響應長度持續精簡,反映出其對無效冗余的持續優化。

3.2 消融實驗

以Qwen2.5-3B-Instruct模型為基礎開展消融實驗,全面驗證了所提方法的優越性。

3.3 獎勵機制的設計影響

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

上圖展示了不同獎勵方案下的訓練數據對比,包含有效搜索量、響應長度及訓練獎勵的變化趨勢。

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

上表則呈現了最終測試結果。

  • 當移除知識邊界感知獎勵時,有效檢索次數和響應長度持續攀升,遠超基準模型。這是由于訓練初期,檢索行為比調用內部知識更容易獲得獎勵,梯度更新自然偏向抑制后者,最終形成"檢索至上"的決策偏好,與Search-R1策略如出一轍。
  • 在僅保留正向獎勵時,模型檢索頻率和響應長度驟減——因為獎勵機制過度鼓勵依賴內部知識,導致模型錯誤地將R1策略泛化到所有問題。

3.2 數據集難度的影響分析

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

上圖清晰呈現了不同難度訓練數據集的動態變化:有效搜索次數、響應長度和訓練獎勵的演變曲線。

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

通過對比簡單、混合、困難三種難度數據集的訓練過程(如上表),發現一個穩定規律:

無論是有效搜索次數還是響應長度,困難數據集的表現均優于混合數據集,而混合數據集又優于簡單數據集。

這是因為模型會智能地根據問題難度選擇知識調用方式——對熟悉領域使用參數化知識,對陌生領域則啟用檢索機制。

使用簡單數據集訓練時,模型的檢索頻率和響應長度會持續衰減,最終完全適配訓練數據的難度特征。經過難度調整的IKEA模型(無論是簡化版還是困難版),其精確匹配率都明顯遜色于原始模型。

其中簡化版的檢索頻次驟降,而困難版則檢索激增。

這一現象說明:過度依賴單一知識類型會制約模型潛能,只有讓參數化記憶與檢索知識珠聯璧合,才能實現最優的推理效果。

本文轉載自??大語言模型論文跟蹤??,作者:HuggingAGI

已于2025-5-20 09:31:40修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 在线成人免费观看 | 精品美女视频在线观看免费软件 | 97caoporn国产免费人人 | 国产精品s色| 亚洲精品视频观看 | 97视频成人 | 久久精品久久久 | 日本欧美在线观看视频 | 情侣av| 狠狠干五月天 | 无码一区二区三区视频 | 日韩亚洲视频 | 在线免费观看a级片 | 成人福利在线 | 午夜天堂精品久久久久 | 午夜精 | 91精品国产麻豆 | 天堂中文av | av天天看| 日韩国产一区二区三区 | 91在线色视频 | 成年人在线观看视频 | 亚洲午夜三级 | 欧美高清性xxxxhd | 97精品超碰一区二区三区 | 欧美男人的天堂 | 国产有码| 精品视频一区二区三区四区 | 亚洲精品久久久蜜桃网站 | 亚洲不卡在线观看 | 大象视频一区二区 | 激情五月婷婷综合 | 欧美啪啪 | 日韩字幕一区 | 人人做人人澡人人爽欧美 | 久久精品a | 欧美国产精品一区二区三区 | 99久9| 亚洲一区二区三区在线观看免费 | 久产久精国产品 | 午夜激情影院 |