DeepSeek-R1的風吹到了多模態,Visual-RFT發布,視覺任務性能飆升20%
盡管DeepSeek-R1風格的模型在語言模型中已經取得了成功,但其在多模態領域的應用仍然有待深入探索。
上交大等提出并開源 Visual-RFT,將 RFT 擴展到視覺任務,通過設計針對不同視覺任務的可驗證獎勵函數,提升 LVLMs 在視覺感知和推理任務中的性能。
視覺強化微調(Visual-RFT)的概述。與(a)數據驅動的視覺指令微調相比,(b)視覺強化微調(Visual-RFT)在有限數據下更具數據效率。(c)成功地將RFT應用于一系列多模態任務,并在底部展示了模型的推理過程示例。
Visual-RFT 的核心在于利用 LVLMs 生成多個包含推理過程和最終答案的響應,并通過可驗證獎勵函數對模型進行策略優化。具體步驟如下:
- 任務輸入:模型接收圖像和問題作為輸入。
- 響應生成:LVLMs 生成多個可能的響應,每個響應包含推理過程和最終答案。
- 獎勵計算:針對不同任務(如目標檢測、分類等),設計特定的可驗證獎勵函數,如 IoU 獎勵(用于目標檢測)和分類準確率獎勵。
- 策略優化:使用 GRPO 等策略優化算法,根據獎勵函數更新模型參數。
可驗證獎勵函數
- IoU 獎勵(目標檢測):通過計算預測邊界框與真實邊界框的交并比(IoU)來評估檢測任務的獎勵。
- 分類準確率獎勵(分類任務):通過比較模型輸出類別與真實類別來評估獎勵。
視覺強化微調(Visual-RFT)的框架。給定問題和視覺圖像輸入后,策略模型會生成多個包含推理步驟的響應。然后,使用可驗證獎勵(如IoU獎勵和分類獎勵)與策略梯度優化算法來更新策略模型。
在細粒度圖像分類、少樣本目標檢測、推理定位以及開放詞匯目標檢測基準測試中的實驗結果表明,與監督微調(SFT)相比,Visual-RFT具有競爭力的性能和先進的泛化能力:
- 在大約100個樣本的單樣本細粒度圖像分類中,Visual-RFT的準確率比基線提高了24.3%。
- 在少樣本目標檢測中,Visual-RFT在COCO的兩樣本設置中超過了基線21.9,在LVIS上超過了15.4。
Visual-RFT代表了對LVLMs微調范式的一種轉變,提供了一種數據高效、由獎勵驅動的方法,增強了對特定領域任務的推理能力和適應性。
細粒度圖像分類的定性結果。推理過程顯著提升了大型視覺語言模型(LVLMs)的推理能力,從而提高了圖像分類的性能。
在LISA [11] 數據集上的推理定位任務的定性結果。通過Visual-RFT,推理過程顯著提升了模型的推理定位能力。
https://arxiv.org/pdf/2503.01785
Visual-RFT: Visual Reinforcement Fine-Tuning
https://github.com/Liuziyu77/Visual-RFT
本文轉載自??PaperAgent??
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦