成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一篇多模態大模型推理技術最新綜述

發布于 2025-5-6 00:41
瀏覽
0收藏

盡管多模態大型語言模型(Multimodal Large Language Models, MLLMs)顯著擴展了LLMs以處理視覺、音頻和視頻等多種模態,但在多模態輸入之間實現穩健的推理仍然是一個重大挑戰。華東師大&字節跳動系統回顧了基于強化學習的MLLMs推理的最新進展,涵蓋了關鍵的算法設計、獎勵機制創新以及實際應用。

一篇多模態大模型推理技術最新綜述-AI.x社區

一、MLLMs&RL基礎

一篇多模態大模型推理技術最新綜述-AI.x社區

MLLMs與MM-CoT

  • 多模態大型語言模型(MLLMs):將大型語言模型(LLMs)與其他模態(如視覺、音頻和視頻)的模型結合,以處理多種模態的數據。MLLMs通過將LLMs作為核心認知引擎,并利用其他模態的基礎模型提供高質量的非文本數據表示,從而擴展了LLMs的能力。
  • 多模態鏈式推理(MM-CoT):在多模態推理任務中,模型生成中間推理步驟(鏈式推理),這些步驟可以僅依賴于文本信息,也可以整合多模態信號。MM-CoT的目標是通過逐步推理解決復雜問題,同時在推理過程中融入多模態信息。

強化學習(RL)

  • 策略優化方法

近端策略優化(PPO):通過最大化代理目標來優化LLMs,同時引入裁剪機制以穩定訓練。PPO需要同時訓練策略模型和價值模型,這在模型參數或標記數量較大時會帶來顯著的計算需求。

REINFORCE留一法(RLOO):省略了價值模型和GAE的使用,直接利用蒙特卡洛方法計算基線,通過留一法減少策略梯度估計的方差。

組相對策略優化(GRPO):通過直接比較生成的響應組來優化模型,省略了價值模型,通過相對獎勵來評估響應的質量,減少了對硬件資源的需求。

  • 獎勵機制

結果導向獎勵機制(ORM):僅根據最終輸出的正確性來評估模型,獎勵信號稀疏且延遲,難以解決長期信用分配問題。

過程導向獎勵機制(PRM):強調模型在推理過程中的中間行為,提供更細粒度的監督,但設計過程獎勵依賴于對中間推理步驟的準確評估,具有挑戰性。

  • 訓練效率

課程強化學習:通過逐步引入任務,幫助模型逐步積累知識,提高在復雜任務上的收斂速度和性能。

數據高效學習:通過優先采樣和選擇高質量樣本,提高樣本效率,減少不必要的計算開銷。

一篇多模態大模型推理技術最新綜述-AI.x社區

二、關鍵設計與優化:RL在LLMs/MLLMs中應用

深入探討了強化學習(RL)算法在大型語言模型(LLMs)和多模態大型語言模型(MLLMs)中的關鍵設計和優化策略:無價值方法(value-free)和基于價值的方法(value-based)。

一篇多模態大模型推理技術最新綜述-AI.x社區

2.1 Value-Free 方法

無價值方法通過直接優化策略,而無需計算價值函數,從而簡化了訓練過程并提高了計算效率。這些方法在處理長推理鏈(long-CoT)任務時表現出色,但可能會遇到熵崩潰(entropy collapse)和獎勵噪聲(reward noise)等問題:

  • GRPO(Group Relative Policy Optimization)

核心思想:通過比較生成的響應組來優化模型,避免了復雜的價值模型訓練。

挑戰:熵崩潰和獎勵噪聲,可能導致模型生成低質量的輸出。

優化策略:引入動態采樣機制,避免梯度信號消失;采用token-level策略梯度損失,確保長序列中的每個token都能公平地貢獻梯度。

  • DAPO(Dynamic Asymmetric Policy Optimization)

不對稱裁剪策略:通過解耦裁剪上下界,增強低概率token的探索能力。

動態采樣:過濾掉準確率為0或1的樣本,確保每個批次中都有有效的梯度信號。

token-level策略梯度損失:確保長序列中的每個token都能公平地貢獻梯度。

過長獎勵塑形:通過逐步增加長度依賴的懲罰,減少獎勵噪聲,穩定訓練過程。

核心思想:在GRPO的基礎上,引入不對稱裁剪策略、動態采樣機制、token-level策略梯度損失和過長獎勵塑形(overlong reward shaping)。

優化策略

  • Dr.GRPO(Debiased Group Relative Policy Optimization)

消除長度歸一化:避免模型偏好生成更長的錯誤響應。

消除標準差歸一化:確保不同難度的問題在優化過程中被平等對待。

  • 核心思想:通過消除GRPO中的長度偏差和問題難度偏差,提高模型的公平性和穩定性。
  • 優化策略

CPPO(Completion Pruning Policy Optimization)

  • 剪枝策略:僅保留具有最高絕對優勢值的top-k完成項,減少冗余計算。
  • 動態完成分配策略:結合剩余剪枝的完成項和新查詢的高質量完成項,充分利用GPU的并行計算能力。
  • 核心思想:通過剪枝策略減少計算開銷,同時保持或提高模型性能。
  • 優化策略

3.2 Value-Based方法

基于價值的方法通過精確的逐步信用分配來優化策略,適合處理復雜推理任務。這些方法在長推理鏈任務中面臨挑戰,但通過創新的優化技術,可以提高訓練的穩定性和性能:

PPO(Proximal Policy Optimization)

  • Open-Reasoner-Zero:通過簡單的規則化獎勵函數和大量的訓練數據,顯著提高了響應長度和基準性能。
  • VC-PPO:通過值初始化偏差和解耦GAE(Decoupled-GAE)來優化PPO,減少訓練過程中的方差。
  • 核心思想:通過最大化代理目標來優化策略,同時引入裁剪機制以穩定訓練。
  • 挑戰:在長推理鏈任務中,PPO可能會遇到訓練不穩定和性能下降的問題。
  • 優化策略

VC-PPO(Value Corrected PPO)

  • 值預訓練:通過離線訓練價值模型,確保其能夠準確估計預期回報。
  • 解耦GAE:通過為策略和價值優化分別設置不同的??值,獨立優化偏差-方差權衡。
  • 核心思想:通過值預訓練和解耦GAE來優化PPO,減少訓練過程中的方差。
  • 優化策略

一篇多模態大模型推理技術最新綜述-AI.x社區

一篇多模態大模型推理技術最新綜述-AI.x社區

三、RL的多模態大模型推理

系統回顧了基于強化學習(RL)的多模態大型語言模型(MLLMs)推理的最新進展,涵蓋了關鍵的算法設計、獎勵機制創新以及實際應用。

3.1 從LLMs到MLLMs的RL訓練范式

  • 標準化R1訓練范式

Kimi K1.5:通過在線策略鏡像下降(OPMD)算法,將強化學習應用于MLLMs,增強了其在多模態領域的推理能力。

DeepSeek R1:通過驗證性獎勵機制(Verifiable Reward Mechanism, VRM),展示了如何通過簡單的規則化激勵機制和輕量級的RL算法,使LLMs能夠自主發展復雜的推理能力。

ORM(Outcome Reward Mechanism):基于最終輸出的正確性來評估模型,適用于數學問題解決和代碼生成等任務,但存在獎勵信號稀疏和延遲的問題。

PRM(Process Reward Mechanism):通過評估推理過程中的中間步驟來提供更細粒度的監督,有助于提高模型的邏輯一致性和可解釋性。

  • MLLMs中的R1訓練范式

MedVLM-R1:將DeepSeek R1的訓練范式擴展到醫學領域的視覺問答任務中,通過顯式的推理路徑提高預測準確性和泛化能力。

Vision-R1:通過逐步推理抑制訓練(PTST)策略,逐步擴展推理鏈的長度,同時分離格式和準確性獎勵,緩解了過思考的問題。

LMM-R1:采用兩階段訓練策略,先在純文本數據上進行RL訓練,再擴展到圖像-文本數據,以提高模型在視覺感知和其他多模態任務中的泛化能力。

一篇多模態大模型推理技術最新綜述-AI.x社區

3.2 多模態感知中的獎勵機制設計

  • 結果導向獎勵機制(ORM)

任務導向獎勵策略:根據任務的內在屬性設計獎勵,如圖像分類任務使用標簽匹配作為獎勵信號,目標檢測任務優化IoU(交并比)。

跨模態交互獎勵策略:通過聯合評估不同模態的輸出來促進更積極的跨模態交互,例如UI-R1通過評估預測的動作類型、參數選擇和輸出格式的有效性來建立模態之間的對齊反饋。

  • 過程導向獎勵機制(PRM)

結構化獎勵框架:通過引入結構化獎勵,如邏輯一致性、信息完整性和引用可靠性,來提高模型的可解釋性和用戶信任度。

R1-VL:通過StepGRPO框架,引入StepRAR(關鍵中間推理步驟評估)和StepRVR(推理鏈邏輯連貫性評估)兩個結構化獎勵組件,顯著提高了模型在復雜任務中的邏輯一致性。

3.3 訓練效率與穩定性

  • 課程學習

Kimi K1.5:通過課程采樣逐步訓練模型,從簡單任務到復雜任務,同時結合優先采樣,優化學習過程。

Curr-ReFT:將訓練分為三個階段:二元分類、多項選擇和開放式問答,每個階段都由特定任務的獎勵函數引導,逐步發展模型的推理能力。

  • 樣本效率

Reason-RFT:通過GPT-4o過濾低質量或錯誤樣本,重構高質量數據集,確保數據質量和適用性。

Skywork R1V:通過自適應長度鏈式推理蒸餾和混合優化框架,動態調整推理鏈長度,減少對大規模標注數據的依賴。

  • 災難性遺忘

Curr-ReFT:通過拒絕樣本的自我改進機制,選擇性地從高質量的多模態和文本示例中學習,以保持MLLMs的基本能力,緩解災難性遺忘問題。

一篇多模態大模型推理技術最新綜述-AI.x社區

一篇多模態大模型推理技術最新綜述-AI.x社區

本文轉載自???PaperAgent??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲欧美一区二区三区在线 | 成人在线精品视频 | 中文字幕第二十页 | 亚洲视频一区二区 | 欧美操操操 | 国户精品久久久久久久久久久不卡 | 蜜桃传媒av | 免费精品| 在线欧美视频 | 亚洲国产精品精华素 | 操人网 | 亚洲一av| 国产片侵犯亲女视频播放 | 日韩不卡一区二区 | 91精品久久久久久久久久入口 | 亚洲精品9999久久久久 | 欧美日韩不卡在线 | 伊人伊成久久人综合网站 | 国产视频精品免费 | 国产二区三区 | 精品日韩一区二区 | 精品久久久久久久人人人人传媒 | 精品国产一区二区三区久久狼黑人 | 久久久av | 精品一区二区三区在线观看国产 | 毛片日韩 | 天天干天天操天天射 | 精品96久久久久久中文字幕无 | 国产欧美精品一区二区 | jav成人av免费播放 | 日韩综合在线视频 | www四虎影视 | 国产激情一区二区三区 | 亚洲精品国产电影 | 欧美视频在线观看 | av中文在线 | 精品99在线 | 完全免费在线视频 | 成人激情视频在线观看 | 精品国产乱码久久久久久丨区2区 | 欧美激情精品久久久久久免费 |