DeepSeek-R1的風吹到了多模態，Visual-RFT發布，視覺任務性能飆升20%

PaperAgent

發布于 2025-3-14 00:29

瀏覽

0收藏

盡管DeepSeek-R1風格的模型在語言模型中已經取得了成功，但其在多模態領域的應用仍然有待深入探索。

上交大等提出并開源 Visual-RFT，將 RFT 擴展到視覺任務，通過設計針對不同視覺任務的可驗證獎勵函數，提升 LVLMs 在視覺感知和推理任務中的性能。

視覺強化微調（Visual-RFT）的概述。與（a）數據驅動的視覺指令微調相比，（b）視覺強化微調（Visual-RFT）在有限數據下更具數據效率。（c）成功地將RFT應用于一系列多模態任務，并在底部展示了模型的推理過程示例。

DeepSeek-R1的風吹到了多模態，Visual-RFT發布，視覺任務性能飆升20%-AI.x社區

Visual-RFT 的核心在于利用 LVLMs 生成多個包含推理過程和最終答案的響應，并通過可驗證獎勵函數對模型進行策略優化。具體步驟如下：

任務輸入：模型接收圖像和問題作為輸入。
響應生成：LVLMs 生成多個可能的響應，每個響應包含推理過程和最終答案。
獎勵計算：針對不同任務（如目標檢測、分類等），設計特定的可驗證獎勵函數，如 IoU 獎勵（用于目標檢測）和分類準確率獎勵。
策略優化：使用 GRPO 等策略優化算法，根據獎勵函數更新模型參數。

可驗證獎勵函數

IoU 獎勵（目標檢測）：通過計算預測邊界框與真實邊界框的交并比（IoU）來評估檢測任務的獎勵。
分類準確率獎勵（分類任務）：通過比較模型輸出類別與真實類別來評估獎勵。

視覺強化微調（Visual-RFT）的框架。給定問題和視覺圖像輸入后，策略模型會生成多個包含推理步驟的響應。然后，使用可驗證獎勵（如IoU獎勵和分類獎勵）與策略梯度優化算法來更新策略模型。

DeepSeek-R1的風吹到了多模態，Visual-RFT發布，視覺任務性能飆升20%-AI.x社區

在細粒度圖像分類、少樣本目標檢測、推理定位以及開放詞匯目標檢測基準測試中的實驗結果表明，與監督微調（SFT）相比，Visual-RFT具有競爭力的性能和先進的泛化能力：

在大約100個樣本的單樣本細粒度圖像分類中，Visual-RFT的準確率比基線提高了24.3%。
在少樣本目標檢測中，Visual-RFT在COCO的兩樣本設置中超過了基線21.9，在LVIS上超過了15.4。

Visual-RFT代表了對LVLMs微調范式的一種轉變，提供了一種數據高效、由獎勵驅動的方法，增強了對特定領域任務的推理能力和適應性。

DeepSeek-R1的風吹到了多模態，Visual-RFT發布，視覺任務性能飆升20%-AI.x社區

細粒度圖像分類的定性結果。推理過程顯著提升了大型視覺語言模型（LVLMs）的推理能力，從而提高了圖像分類的性能。

DeepSeek-R1的風吹到了多模態，Visual-RFT發布，視覺任務性能飆升20%-AI.x社區

在LISA [11] 數據集上的推理定位任務的定性結果。通過Visual-RFT，推理過程顯著提升了模型的推理定位能力。

DeepSeek-R1的風吹到了多模態，Visual-RFT發布，視覺任務性能飆升20%-AI.x社區

https://arxiv.org/pdf/2503.01785
Visual-RFT: Visual Reinforcement Fine-Tuning
https://github.com/Liuziyu77/Visual-RFT

本文轉載自??PaperAgent??

標簽

DeepSeek

Visual

視覺任務

贊

回復

舉報

回復

相關推薦

o1推理擴展的風吹到了RAG，性能飆升58.9%！

PaperAgent ? 2757瀏覽 ? 0回復
o1快慢思考的風又吹到了Agent！

PaperAgent ? 3091瀏覽 ? 0回復
DeepSeek-AI 發布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 ? 4143瀏覽 ? 0回復
圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理

Baihai_IDP ? 5655瀏覽 ? 0回復
Unsloth：僅需7GB顯存就能訓練自己的DeepSeek-R1！

PyTorch研習社 ? 3881瀏覽 ? 0回復
7G顯存，訓練自己的 DeepSeek-R1：GRPO 資源下降80%

鴻煊的學習筆記 ? 3225瀏覽 ? 0回復
Deepseek AI模型本地部署步驟簡記：ollama + deepseek-r1 + 本地AI模型的Web UI

lintoms ? 3036瀏覽 ? 0回復
DeepSeek-R1技術大揭秘：論文核心原理拆解與模型性能突破關鍵

arnoldzhw ? 3630瀏覽 ? 0回復
滿血DeepSeek-R1免費用！附帶數據蒸餾的一些想法！

NLP工作站 ? 3030瀏覽 ? 0回復
Deepseek AI模型本地部署步驟簡記：ollama + deepseek-r1 + 本地AI模型的Web UI

parson2000 ? 2198瀏覽 ? 0回復
Grok 3 與 DeepSeek-R1 是怎么學會思考的？

機器學習與數學 ? 3527瀏覽 ? 0回復
在消費級硬件上微調 DeepSeek-R1

AIGC前沿技術追蹤 ? 2263瀏覽 ? 0回復
Vision-R1：多模態領域的DeepSeek R1-Zero，7B參數比肩OpenAI O1

Syrupup ? 2371瀏覽 ? 0回復
DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路

大模型自然語言處理 ? 2418瀏覽 ? 0回復
多模態獎勵大一統！UNIFIEDREWARD突破任務邊界，圖像視頻雙域性能飆升的秘密

angel ? 2175瀏覽 ? 0回復
DeepSeek-R1關鍵創新技術再總結

大模型自然語言處理 ? 2796瀏覽 ? 0回復
Deepseek-R1，論文番外篇!

NLP前沿1 ? 1290瀏覽 ? 0回復
一文讀懂 DeepSeek-R1 的 “最強外掛” GRPO 算法

鴻煊的學習筆記 ? 2856瀏覽 ? 0回復
端到端視覺Tokenizer調優讓多模態任務性能飆升！智源&盧湖川團隊等發布ETT

angel ? 791瀏覽 ? 0回復

PaperAgent

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

DeepSeek-R1的風吹到了多模態，Visual-RFT發布，視覺任務性能飆升20%

可驗證獎勵函數

目錄