一篇多模態大模型推理技術最新綜述
盡管多模態大型語言模型(Multimodal Large Language Models, MLLMs)顯著擴展了LLMs以處理視覺、音頻和視頻等多種模態,但在多模態輸入之間實現穩健的推理仍然是一個重大挑戰。華東師大&字節跳動系統回顧了基于強化學習的MLLMs推理的最新進展,涵蓋了關鍵的算法設計、獎勵機制創新以及實際應用。
一、MLLMs&RL基礎
MLLMs與MM-CoT
- 多模態大型語言模型(MLLMs):將大型語言模型(LLMs)與其他模態(如視覺、音頻和視頻)的模型結合,以處理多種模態的數據。MLLMs通過將LLMs作為核心認知引擎,并利用其他模態的基礎模型提供高質量的非文本數據表示,從而擴展了LLMs的能力。
- 多模態鏈式推理(MM-CoT):在多模態推理任務中,模型生成中間推理步驟(鏈式推理),這些步驟可以僅依賴于文本信息,也可以整合多模態信號。MM-CoT的目標是通過逐步推理解決復雜問題,同時在推理過程中融入多模態信息。
強化學習(RL)
- 策略優化方法:
近端策略優化(PPO):通過最大化代理目標來優化LLMs,同時引入裁剪機制以穩定訓練。PPO需要同時訓練策略模型和價值模型,這在模型參數或標記數量較大時會帶來顯著的計算需求。
REINFORCE留一法(RLOO):省略了價值模型和GAE的使用,直接利用蒙特卡洛方法計算基線,通過留一法減少策略梯度估計的方差。
組相對策略優化(GRPO):通過直接比較生成的響應組來優化模型,省略了價值模型,通過相對獎勵來評估響應的質量,減少了對硬件資源的需求。
- 獎勵機制:
結果導向獎勵機制(ORM):僅根據最終輸出的正確性來評估模型,獎勵信號稀疏且延遲,難以解決長期信用分配問題。
過程導向獎勵機制(PRM):強調模型在推理過程中的中間行為,提供更細粒度的監督,但設計過程獎勵依賴于對中間推理步驟的準確評估,具有挑戰性。
- 訓練效率:
課程強化學習:通過逐步引入任務,幫助模型逐步積累知識,提高在復雜任務上的收斂速度和性能。
數據高效學習:通過優先采樣和選擇高質量樣本,提高樣本效率,減少不必要的計算開銷。
二、關鍵設計與優化:RL在LLMs/MLLMs中應用
深入探討了強化學習(RL)算法在大型語言模型(LLMs)和多模態大型語言模型(MLLMs)中的關鍵設計和優化策略:無價值方法(value-free)和基于價值的方法(value-based)。
2.1 Value-Free 方法
無價值方法通過直接優化策略,而無需計算價值函數,從而簡化了訓練過程并提高了計算效率。這些方法在處理長推理鏈(long-CoT)任務時表現出色,但可能會遇到熵崩潰(entropy collapse)和獎勵噪聲(reward noise)等問題:
- GRPO(Group Relative Policy Optimization):
核心思想:通過比較生成的響應組來優化模型,避免了復雜的價值模型訓練。
挑戰:熵崩潰和獎勵噪聲,可能導致模型生成低質量的輸出。
優化策略:引入動態采樣機制,避免梯度信號消失;采用token-level策略梯度損失,確保長序列中的每個token都能公平地貢獻梯度。
- DAPO(Dynamic Asymmetric Policy Optimization):
不對稱裁剪策略:通過解耦裁剪上下界,增強低概率token的探索能力。
動態采樣:過濾掉準確率為0或1的樣本,確保每個批次中都有有效的梯度信號。
token-level策略梯度損失:確保長序列中的每個token都能公平地貢獻梯度。
過長獎勵塑形:通過逐步增加長度依賴的懲罰,減少獎勵噪聲,穩定訓練過程。
核心思想:在GRPO的基礎上,引入不對稱裁剪策略、動態采樣機制、token-level策略梯度損失和過長獎勵塑形(overlong reward shaping)。
優化策略:
- Dr.GRPO(Debiased Group Relative Policy Optimization):
消除長度歸一化:避免模型偏好生成更長的錯誤響應。
消除標準差歸一化:確保不同難度的問題在優化過程中被平等對待。
- 核心思想:通過消除GRPO中的長度偏差和問題難度偏差,提高模型的公平性和穩定性。
- 優化策略:
CPPO(Completion Pruning Policy Optimization):
- 剪枝策略:僅保留具有最高絕對優勢值的top-k完成項,減少冗余計算。
- 動態完成分配策略:結合剩余剪枝的完成項和新查詢的高質量完成項,充分利用GPU的并行計算能力。
- 核心思想:通過剪枝策略減少計算開銷,同時保持或提高模型性能。
- 優化策略:
3.2 Value-Based方法
基于價值的方法通過精確的逐步信用分配來優化策略,適合處理復雜推理任務。這些方法在長推理鏈任務中面臨挑戰,但通過創新的優化技術,可以提高訓練的穩定性和性能:
PPO(Proximal Policy Optimization):
- Open-Reasoner-Zero:通過簡單的規則化獎勵函數和大量的訓練數據,顯著提高了響應長度和基準性能。
- VC-PPO:通過值初始化偏差和解耦GAE(Decoupled-GAE)來優化PPO,減少訓練過程中的方差。
- 核心思想:通過最大化代理目標來優化策略,同時引入裁剪機制以穩定訓練。
- 挑戰:在長推理鏈任務中,PPO可能會遇到訓練不穩定和性能下降的問題。
- 優化策略:
VC-PPO(Value Corrected PPO):
- 值預訓練:通過離線訓練價值模型,確保其能夠準確估計預期回報。
- 解耦GAE:通過為策略和價值優化分別設置不同的??值,獨立優化偏差-方差權衡。
- 核心思想:通過值預訓練和解耦GAE來優化PPO,減少訓練過程中的方差。
- 優化策略:
三、RL的多模態大模型推理
系統回顧了基于強化學習(RL)的多模態大型語言模型(MLLMs)推理的最新進展,涵蓋了關鍵的算法設計、獎勵機制創新以及實際應用。
3.1 從LLMs到MLLMs的RL訓練范式
- 標準化R1訓練范式:
Kimi K1.5:通過在線策略鏡像下降(OPMD)算法,將強化學習應用于MLLMs,增強了其在多模態領域的推理能力。
DeepSeek R1:通過驗證性獎勵機制(Verifiable Reward Mechanism, VRM),展示了如何通過簡單的規則化激勵機制和輕量級的RL算法,使LLMs能夠自主發展復雜的推理能力。
ORM(Outcome Reward Mechanism):基于最終輸出的正確性來評估模型,適用于數學問題解決和代碼生成等任務,但存在獎勵信號稀疏和延遲的問題。
PRM(Process Reward Mechanism):通過評估推理過程中的中間步驟來提供更細粒度的監督,有助于提高模型的邏輯一致性和可解釋性。
- MLLMs中的R1訓練范式:
MedVLM-R1:將DeepSeek R1的訓練范式擴展到醫學領域的視覺問答任務中,通過顯式的推理路徑提高預測準確性和泛化能力。
Vision-R1:通過逐步推理抑制訓練(PTST)策略,逐步擴展推理鏈的長度,同時分離格式和準確性獎勵,緩解了過思考的問題。
LMM-R1:采用兩階段訓練策略,先在純文本數據上進行RL訓練,再擴展到圖像-文本數據,以提高模型在視覺感知和其他多模態任務中的泛化能力。
3.2 多模態感知中的獎勵機制設計
- 結果導向獎勵機制(ORM):
任務導向獎勵策略:根據任務的內在屬性設計獎勵,如圖像分類任務使用標簽匹配作為獎勵信號,目標檢測任務優化IoU(交并比)。
跨模態交互獎勵策略:通過聯合評估不同模態的輸出來促進更積極的跨模態交互,例如UI-R1通過評估預測的動作類型、參數選擇和輸出格式的有效性來建立模態之間的對齊反饋。
- 過程導向獎勵機制(PRM):
結構化獎勵框架:通過引入結構化獎勵,如邏輯一致性、信息完整性和引用可靠性,來提高模型的可解釋性和用戶信任度。
R1-VL:通過StepGRPO框架,引入StepRAR(關鍵中間推理步驟評估)和StepRVR(推理鏈邏輯連貫性評估)兩個結構化獎勵組件,顯著提高了模型在復雜任務中的邏輯一致性。
3.3 訓練效率與穩定性
- 課程學習:
Kimi K1.5:通過課程采樣逐步訓練模型,從簡單任務到復雜任務,同時結合優先采樣,優化學習過程。
Curr-ReFT:將訓練分為三個階段:二元分類、多項選擇和開放式問答,每個階段都由特定任務的獎勵函數引導,逐步發展模型的推理能力。
- 樣本效率:
Reason-RFT:通過GPT-4o過濾低質量或錯誤樣本,重構高質量數據集,確保數據質量和適用性。
Skywork R1V:通過自適應長度鏈式推理蒸餾和混合優化框架,動態調整推理鏈長度,減少對大規模標注數據的依賴。
- 災難性遺忘:
Curr-ReFT:通過拒絕樣本的自我改進機制,選擇性地從高質量的多模態和文本示例中學習,以保持MLLMs的基本能力,緩解災難性遺忘問題。
本文轉載自???PaperAgent??
