VLM-R1:一種穩(wěn)定且具有泛化性的 R1 風(fēng)格大型視覺語言模型 原創(chuàng) 精華
摘要
最近,DeepSeek R1 表明,強化學(xué)習(xí)(RL)可以通過一種簡單而有效的設(shè)計,大幅提升大語言模型(LLMs)的推理能力。R1 的核心在于其基于規(guī)則的獎勵公式,它利用具有確定性正確答案的任務(wù),實現(xiàn)精確且穩(wěn)定的獎勵計算。在視覺領(lǐng)域,我們同樣觀察到,許多視覺理解任務(wù)本質(zhì)上都配備了定義明確的真實標注。這一特性使它們自然地與基于規(guī)則的獎勵機制兼容。受此啟發(fā),我們研究將 R1 風(fēng)格的強化學(xué)習(xí)擴展到視覺語言模型(VLMs)中,旨在提升其視覺推理能力。為此,我們開發(fā)了 VLM-R1,這是一個專門設(shè)計的框架,利用強化學(xué)習(xí)來提高視覺語言模型在通用視覺語言任務(wù)上的性能。通過這個框架,我們進一步探索了強化學(xué)習(xí)在視覺領(lǐng)域應(yīng)用的可行性。實驗結(jié)果表明,基于強化學(xué)習(xí)的模型不僅在視覺理解任務(wù)上表現(xiàn)出色,而且在泛化能力上超過了監(jiān)督微調(diào)(SFT)。此外,我們進行了全面的消融研究,揭示了一系列值得關(guān)注的發(fā)現(xiàn),包括目標檢測中的獎勵作弊現(xiàn)象、“目標檢測頓悟時刻” 的出現(xiàn)、訓(xùn)練數(shù)據(jù)質(zhì)量的影響,以及強化學(xué)習(xí)在不同模型規(guī)模下的縮放行為。通過這些分析,我們旨在加深對強化學(xué)習(xí)如何提升視覺語言模型能力的理解,并且希望我們的研究結(jié)果和開源貢獻能夠推動視覺語言強化學(xué)習(xí)社區(qū)的持續(xù)發(fā)展。我們的代碼和模型可在??https://github.com/om-ai-lab/VLM-R1???上獲取。
圖1. VLM-R1提供了一個標準流程,通過強化學(xué)習(xí)來增強基礎(chǔ)視覺語言模型(VLMs)。
1. 引言
OpenAI o1 的推出表明,強化學(xué)習(xí)(RL)能夠讓大語言模型(LLMs)直接從對其輸出的反饋中學(xué)習(xí),從而顯著提升它們的推理能力。最近,DeepSeek R1 進一步推進了這一觀點,表明簡單的基于規(guī)則的獎勵(無需單獨訓(xùn)練的獎勵模型)就足以讓大語言模型自主獲得復(fù)雜的推理能力。
這一成功的關(guān)鍵因素在于,基于規(guī)則的獎勵設(shè)計易于應(yīng)用于具有確定性正確答案的任務(wù),從而實現(xiàn)穩(wěn)定且可解釋的獎勵信號。類似地,在視覺領(lǐng)域,存在許多視覺理解任務(wù),這些任務(wù)本質(zhì)上包含精確且客觀定義的真實標注。例如,指代表達理解(REC)等任務(wù)可以直接采用預(yù)測邊界框與真實標注之間的交并比(IoU)作為明確的獎勵指標。受這些觀察的啟發(fā),研究類似的強化學(xué)習(xí)方法是否能同樣提升視覺語言模型(VLMs)的推理能力,就變得很自然了。
為此,我們開發(fā)了 VLM-R1,這是一個專門設(shè)計且可擴展的框架,旨在應(yīng)用強化學(xué)習(xí)來提高視覺語言模型在通用視覺語言任務(wù)上的性能。VLM-R1 在設(shè)計時考慮了靈活性、可擴展性和易于實驗性。它支持廣泛的配置,專為視覺語言模型背景下基于強化學(xué)習(xí)的優(yōu)化研究而定制。VLM-R1 的主要特點包括:
?GRPO 兼容性:完全支持原生的 GRPO 算法,并可對所有超參數(shù)進行細粒度控制。
?基于 LoRA 的訓(xùn)練:通過 LoRA 實現(xiàn)高效的參數(shù)訓(xùn)練,適用于資源有限的場景。
?多節(jié)點訓(xùn)練:支持跨多個 GPU 或服務(wù)器節(jié)點的分布式訓(xùn)練,以實現(xiàn)可擴展性。
?多圖像輸入:每個樣本支持多個圖像,便于處理復(fù)雜的多圖像推理任務(wù)。
?模型靈活性:與多種視覺語言模型兼容,目前支持 QwenVL 和 InternVL。
?自定義數(shù)據(jù)集支持:輕松集成用戶定義的數(shù)據(jù)集,允許進行特定任務(wù)或特定領(lǐng)域的實驗。
?混合模態(tài)訓(xùn)練:支持在圖像文本和純文本數(shù)據(jù)集上進行訓(xùn)練,包括混合組合。
通過提供統(tǒng)一、模塊化且高度適應(yīng)性的訓(xùn)練流程,VLM-R1 成為推進強化學(xué)習(xí)與視覺語言建模交叉領(lǐng)域研究的有力工具。
在本報告中,我們利用 VLM-R1 框架,選擇了兩個視覺理解任務(wù) —— 指代表達壓縮(REC)和開放詞匯目標檢測(OVD),來探索強化學(xué)習(xí)在視覺語言模型中應(yīng)用的可行性和有效性。REC 和 OVD 具有相同的輸出格式 —— 邊界框,但任務(wù)復(fù)雜度差異顯著。在 REC 中,模型需要根據(jù)給定的查詢預(yù)測單個邊界框,而在 OVD 中,模型必須為每個查詢目標準確輸出相應(yīng)的邊界框。這種對比使我們能夠分析具有相似輸出結(jié)構(gòu)但難度不同的任務(wù),如何影響強化學(xué)習(xí)在視覺語言模型中的有效性。此外,我們觀察到,在這些任務(wù)上,視覺語言模型的表現(xiàn)往往不如專門的視覺模型(例如 Grounding DINO、OmDet)。如表 1 所示,盡管 Qwen2.5-VL-3B 的參數(shù)數(shù)量是 Grounding DINO 的 10 倍以上,但在 REC 和 OVD 基準測試中,其性能仍落后于后者。這種性能差距引發(fā)了一個重要問題:強化學(xué)習(xí)能否用于提升視覺語言模型在這些具有挑戰(zhàn)性的視覺理解任務(wù)上的有效性?
表 1. Qwen2.5-VL-3B 與 Grounding DINO 在 REC 和 OVD 任務(wù)上的性能對比。盡管 Qwen2.5-VL-3B 的參數(shù)數(shù)量是 Grounding DINO 的 10 倍以上,但在這些評估數(shù)據(jù)集上仍表現(xiàn)不佳。這顯示了視覺語言模型在這些視覺理解任務(wù)上的不足。
實驗結(jié)果表明,與監(jiān)督微調(diào)(SFT)相比,強化學(xué)習(xí)顯著提升了視覺語言模型的視覺理解性能。更重要的是,在復(fù)雜的真實世界基準測試中,強化學(xué)習(xí)在泛化能力上取得了更大的提升。在 REC 任務(wù)中,我們的 30 億參數(shù)強化學(xué)習(xí)模型在域外評估基準 LISAGrounding 上的得分達到 63.16(監(jiān)督微調(diào)模型為 54.82)。在 OVD 任務(wù)中,30 億參數(shù)強化學(xué)習(xí)模型在 COCO 數(shù)據(jù)集上的平均精度均值(AP)達到 21.1(監(jiān)督微調(diào)模型為 17.8;70 億參數(shù)基線模型為 14.2),在 OVDEval 基準測試中達到了新的最優(yōu)成績 31.01 nms-AP(監(jiān)督微調(diào)模型為 26.50;70 億參數(shù)模型為 29.08),在復(fù)雜子任務(wù)中表現(xiàn)尤為出色。
此外,全面的消融研究進一步揭示了一系列重要發(fā)現(xiàn)。例如,我們觀察到目標檢測中的獎勵作弊現(xiàn)象,并通過獎勵工程來緩解這一問題,在此過程中模型出現(xiàn)了 “目標檢測頓悟時刻”,即先推理目標是否存在,再進行預(yù)測。此外,我們還證明了仔細選擇訓(xùn)練數(shù)據(jù)可以提高最終性能,并分析了模型大小的影響。綜上所述,我們的研究結(jié)果表明,更復(fù)雜的任務(wù)(如開放詞匯目標檢測)需要額外的優(yōu)化才能取得優(yōu)異的性能,而相對簡單的任務(wù)(如指代表達理解)則可以通過較少的修改得到有效解決。我們的貢獻可以總結(jié)如下:
?我們基于 open-r1 開發(fā)了 VLM-R1,這是一個專門設(shè)計且可擴展的框架,旨在應(yīng)用強化學(xué)習(xí)來提高視覺語言模型的性能,注重靈活性、可擴展性、易于實驗性,并支持廣泛的強化學(xué)習(xí)配置。
?我們通過訓(xùn)練指代表達壓縮和開放詞匯目標檢測這兩個基本的視覺理解任務(wù),證明了強化學(xué)習(xí)在視覺語言模型中的有效性。使用 VLM-R1 訓(xùn)練的強化學(xué)習(xí)模型與監(jiān)督微調(diào)模型相比,性能有所提升,尤其是在復(fù)雜的真實世界域外基準測試中。
?我們擴展的消融研究揭示了一系列有趣的發(fā)現(xiàn),包括目標檢測中獎勵作弊現(xiàn)象的存在、“目標檢測頓悟時刻” 的出現(xiàn)、訓(xùn)練數(shù)據(jù)質(zhì)量的影響,以及強化學(xué)習(xí)在不同模型規(guī)模上的效果。我們報告了這些發(fā)現(xiàn),并分析了如何優(yōu)化強化學(xué)習(xí)以提升視覺語言模型的性能。
?我們發(fā)布了框架代碼庫和所有模型權(quán)重,希望為視覺語言強化學(xué)習(xí)的開源社區(qū)做出貢獻。
2. 相關(guān)工作
2.1 視覺語言模型
自大語言模型(LLMs)出現(xiàn)以來,它們在各種語言應(yīng)用中取得了成功,推動了視覺語言模型(VLMs)的發(fā)展,開創(chuàng)性的工作包括 [4, 22, 26]。隨后,LLaVA 利用 GPT-4 開發(fā)訓(xùn)練數(shù)據(jù),并在視覺對話和視覺推理中取得了不錯的成績,激發(fā)了一系列專注于視覺指令數(shù)據(jù)的研究 [8, 13, 29]。然而,當(dāng)時視覺語言模型的一個關(guān)鍵限制在于其圖像輸入分辨率受底層視覺編碼器能力的制約 [43, 47, 57]。為了克服這一問題,AnyRes 機制被引入,允許靈活處理不同分辨率和寬高比的圖像。這一進展提高了視覺語言模型對各種視覺輸入的感知能力,并進一步增強了它們的推理能力。如今,一些最廣泛采用的開源視覺語言模型系列包括 LLaVA、QwenVL 和 InternVL。
2.2 將 R1 應(yīng)用于視覺語言模型的嘗試
有幾項同期研究探索了將 R1 應(yīng)用于視覺語言模型(VLMs)。同期工作 R1-OneVision 和 R1-V 是這一方向的重要研究。R1-OneVision 提出了一種跨模態(tài)推理流程,將圖像轉(zhuǎn)換為視覺形式表示,然后通過語言模型構(gòu)建視覺推理數(shù)據(jù)集。視覺語言模型首先在該數(shù)據(jù)集上進行訓(xùn)練,隨后通過強化學(xué)習(xí)階段進一步提升其推理能力。與此同時,R1-V 將 DeepSeek R1 中的 GRPO 方法引入視覺語言模型訓(xùn)練,針對目標計數(shù)任務(wù),使一個 30 億參數(shù)的模型性能超過了一個 720 億參數(shù)的模型。不久之后,VisualThinker-R1-Zero 被提出,它表明將 R1 應(yīng)用于基礎(chǔ)視覺語言模型(而非指令微調(diào)模型)可以實現(xiàn)更顯著的性能提升,并成功觸發(fā)了所謂的 “視覺頓悟時刻”。另一項觀察到頓悟時刻出現(xiàn)以及模型響應(yīng)長度增加(類似于 DeepSeek R1 中的現(xiàn)象)的工作是 MMEureka,它將 RLOO 應(yīng)用于 80 億參數(shù)的指令微調(diào)視覺語言模型和 380 億參數(shù)的基礎(chǔ)視覺語言模型。與 R1-OneVision 類似,Vision-R1 通過將視覺信息轉(zhuǎn)換為語言格式并輸入到語言推理模型中,構(gòu)建了一個多模態(tài)思維鏈(CoT)數(shù)據(jù)集。該數(shù)據(jù)集作為冷啟動訓(xùn)練數(shù)據(jù),隨后通過 GRPO 進一步增強模型的多模態(tài)推理能力。此外,Curr-ReFT 提出了一種具有漸進難度獎勵的三階段強化學(xué)習(xí)方法來優(yōu)化強化學(xué)習(xí)訓(xùn)練,LMM-R1 提出了一種兩階段基于規(guī)則的強化學(xué)習(xí)方法,首先采用純文本數(shù)據(jù)增強模型的基本推理能力,然后在有限的復(fù)雜多模態(tài)推理任務(wù)上繼續(xù)進行強化學(xué)習(xí)。
上述大多數(shù)研究主要集中在提高多模態(tài)數(shù)學(xué)任務(wù)的性能上 [36, 48, 58]。相比之下,Visual-RFT 將強化學(xué)習(xí)應(yīng)用于視覺感知任務(wù),與我們的工作更為相關(guān)。然而,我們的研究提供了更全面的調(diào)查,不僅僅是監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)之間的簡單比較。具體來說,我們進一步分析了獎勵工程的作用,并系統(tǒng)地研究了仔細選擇訓(xùn)練數(shù)據(jù)的影響,特別是對于復(fù)雜任務(wù)。
3. VLM-R1 框架
在本節(jié)中,我們簡要介紹所提出的 VLM-R1 框架。VLM-R1 基于 OpenR1 構(gòu)建,OpenR1 是一個用于重現(xiàn) DeepSeek R1 語言推理能力的開源框架。我們將其實現(xiàn)擴展到視覺語言領(lǐng)域。
除了我們的框架,還有其他幾個針對視覺語言強化學(xué)習(xí)的開源框架 [1, 9]。需要注意的是,我們的主要目標是將 R1 風(fēng)格的方法應(yīng)用于視覺語言模型(VLMs)。因此,我們目前的實現(xiàn)僅專注于 DeepSeek R1 最初采用的 GRPO 算法。目前,VLM-R1 僅支持 GRPO,計劃在未來的工作中集成更多的強化學(xué)習(xí)算法。接下來,我們首先概述該框架,然后詳細描述 VLM 模塊,該模塊能夠無縫支持各種視覺語言模型架構(gòu)。
3.1 概述
如圖 2 所示,VLM-R1 框架由兩個主要組件組成:grpo_jsonl.py 和 grpo_trainer.py,它們共同構(gòu)成了將 GRPO 算法應(yīng)用于視覺語言模型的完整流程。
圖 2:VLM-R1 框架流程圖。此圖展示了框架的功能轉(zhuǎn)換。VLM-R1 的關(guān)鍵特性由綠色矩形顯示。
在第一階段(grpo_jsonl.py),作為準備階段,用戶可以靈活定義自定義獎勵函數(shù),并根據(jù)自己的任務(wù)準備訓(xùn)練數(shù)據(jù)。該框架還通過模塊化的 VLM 模塊定義支持各種視覺語言模型,這將在 3.2 節(jié)中描述。第二階段(grpo_trainer.py)管理 GRPO 訓(xùn)練過程。它從模型初始化開始,然后根據(jù)用戶自定義參數(shù)確定訓(xùn)練參數(shù)。我們支持 LoRA 微調(diào)、視覺塔凍結(jié)訓(xùn)練和全參數(shù)訓(xùn)練,以適應(yīng)不同的計算資源和任務(wù)要求。隨后,模型生成多個序列,并使用定義的獎勵函數(shù)對其進行評分。這些獎勵信號用于計算 GRPO 損失,以進行參數(shù)優(yōu)化。
VLM-R1 為 GRPO 訓(xùn)練提供了全面支持,同時在獎勵設(shè)計、模型選擇和優(yōu)化策略方面提供了靈活性,使其成為基于強化學(xué)習(xí)的視覺語言研究的通用工具。
3.2 VLM 模塊
為了便于將各種視覺語言模型無縫集成到訓(xùn)練過程中,我們設(shè)計了一個統(tǒng)一的組件,稱為 VLM 模塊。該模塊封裝了通用的視覺語言模型功能,例如檢索模型的類名,以及將輸入問題格式化為特定模型的聊天模板。通過抽象這些操作,GRPOTrainer 可以通過簡單調(diào)用 VLM 模塊提供的標準化接口與不同的視覺語言模型進行交互,而無需處理特定模型的實現(xiàn)細節(jié)。這種設(shè)計不僅簡化了新模型的集成,還增強了整個框架的模塊化和可讀性。Trainer 與 VLM 模塊之間的交互如圖 3 所示。
圖 3:Trainer 與 VLM 模塊之間的交互。通過 VLM 模塊,GRPOTrainer 可以通過簡單調(diào)用標準化接口與不同的視覺語言模型進行交互,而無需處理特定模型的實現(xiàn)。
4. 獎勵設(shè)計
如第 1 節(jié)所述,我們選擇指代表達理解(REC)和開放詞匯目標檢測(OVD)作為代表性任務(wù),主要基于兩點考慮。首先,這兩個任務(wù)都具有相同的邊界框輸出格式,但復(fù)雜度不同,為研究強化學(xué)習(xí)在不同難度任務(wù)中的影響提供了合適的設(shè)置。其次,專門的視覺模型在這些基準測試中始終優(yōu)于視覺語言模型,這為評估強化學(xué)習(xí)是否有助于縮小這一性能差距提供了寶貴的機會。
在本節(jié)中,我們首先簡要介紹通用的 GRPO 算法,然后介紹為 REC 和 OVD 任務(wù)設(shè)計的、集成到 GRPO 中的獎勵函數(shù)。
4.1 GRPO 算法概述
與 PPO 等強化學(xué)習(xí)算法不同(PPO 需要額外的價值評估模型來估計策略性能),分組相對策略優(yōu)化(GRPO)直接比較候選響應(yīng)組,無需單獨的價值評估模型。給定一個問題 q,GRPO 從策略\pi_{\theta}中采樣 N 個候選響應(yīng)\{o_{1}, o_{2}, ..., o_{N}\},并使用獎勵函數(shù)R(q, o_{i})評估每個響應(yīng)o_{i},該函數(shù)衡量在給定問題背景下候選響應(yīng)的質(zhì)量。為了確定這些響應(yīng)的相對質(zhì)量,GRPO 通過計算獎勵的均值和標準差對獎勵進行歸一化,然后得出優(yōu)勢值:
其中A_{i}表示候選響應(yīng)o_{i}相對于其他采樣響應(yīng)的優(yōu)勢值。GRPO 通過使用以下目標更新策略\pi_{\theta},鼓勵模型在組內(nèi)生成具有更高優(yōu)勢值的響應(yīng):
圖片
如 3.1 節(jié)所述,上述公式中的所有超參數(shù)都包含在我們提出的 VLM-R1 框架中。
隨后,我們將介紹為 REC 和 OVD 任務(wù)采用的獎勵函數(shù) R。遵循 DeepSeek-R1,我們使用兩種類型的獎勵:準確率獎勵和格式獎勵。
4.2 指代表達理解的獎勵函數(shù)
準確率獎勵:指代表達理解(REC)是要求模型識別由指代表達描述的對象的區(qū)域邊界框的任務(wù)。用 q 表示輸入問題,b^{*}表示真實邊界框,o表示視覺語言模型的輸出句子,f_{rec}表示從輸出句子中提取邊界框的函數(shù)。REC 的準確率獎勵定義為:
其中 IoU 是交并比度量。這個獎勵函數(shù)旨在鼓勵模型生成與真實邊界框緊密匹配的邊界框。
?格式獎勵:REC 的格式獎勵檢查響應(yīng)是否遵循指定格式,要求模型在標簽中輸出 json 格式的響應(yīng),并包含一個邊界框(...{...[x1, y1, x2, y2] .... }),根據(jù)合規(guī)情況返回 1 或 0。
4.3 開放詞匯目標檢測的獎勵函數(shù)
?準確率獎勵:開放詞匯目標檢測(OVD)要求模型在圖像中檢測給定的對象標簽,并輸出相應(yīng)的邊界框和類別標簽。這個任務(wù)與 REC 具有相似的輸出格式,但由于需要同時生成邊界框和類別標簽,所以更加復(fù)雜。在這個任務(wù)中,我們促使視覺語言模型輸出一個邊界框列表以及它們相應(yīng)的類別標簽,這些可以通過一個函數(shù)f_{ood}提取為一個組合列表b_{pred }={(b_{1}, c_{1}),(b_{2}, c_{2}), ...,(b_{n}, c_{n})},其中b_{i}是邊界框,c_{i}是類別標簽。設(shè)q表示輸入問題,mAP()表示計算平均精度均值度量的函數(shù),b_{gt}表示真實邊界框和類別標簽的組合列表,L_{gt}表示真實組合的數(shù)量,L_{pred }表示預(yù)測組合的數(shù)量。OVD 的準確率獎勵定義為:
其中s_{ovd}是對視覺語言模型冗余預(yù)測的懲罰因子,我們的實驗表明這個懲罰因子有助于提高 OVD 任務(wù)的性能。這個獎勵被指定為 odLength 獎勵。
?格式獎勵:OVD 的格式獎勵檢查響應(yīng)是否遵循指定格式,要求模型在標簽中輸出 markdown 格式的 JSON 響應(yīng)(... ‘‘‘json...‘‘‘),根據(jù)合規(guī)情況返回 1 或 0。
5. 實驗
5.1 實現(xiàn)細節(jié)
?選擇的視覺語言模型:我們采用 Qwen2.5VL-3B-Instruct 作為基礎(chǔ)模型,因為它在視覺語言理解方面具有很強的潛在性能,有望通過強化學(xué)習(xí)進一步挖掘。在一些實驗中,我們還引入了 Qwen2.5VL-7B-Instruct 和 32B 模型,以研究模型大小的影響。
?超參數(shù)設(shè)置:在使用強化學(xué)習(xí)訓(xùn)練 REC 時,我們采用默認的 GRPO 參數(shù)設(shè)置,將N設(shè)置為 8,溫度設(shè)置為 0.9,迭代次數(shù)設(shè)置為 1,KL 散度比率(即\beta)設(shè)置為 0.04。我們訓(xùn)練模型 2 個 epoch,強化學(xué)習(xí)和監(jiān)督微調(diào)的學(xué)習(xí)率均為1e-6。對于 OVD 任務(wù),我們僅將\beta設(shè)置為 0,其他參數(shù)保持不變。
?提示模板
?REC 的問題模板:請?zhí)峁┻@句話描述區(qū)域的邊界框坐標:{query}。
?OVD 的問題模板:請仔細檢查圖像并檢測以下對象:{目標列表}。以 JSON 格式輸出每個檢測到的目標的邊界框坐標。邊界框坐標的格式為:“‘json [”bbox 2d”: [x1, y1, x2, y2], ”label”: ” 目標名稱”, ”bbox 2d”: [x1, y1, x2, y2], ”label”: ” 目標名稱”]。如果圖像中沒有這些目標,只需回復(fù) None。
?思考提示:{問題} 在 標簽中輸出思考過程,在 標簽中輸出最終答案。
5.2 主要結(jié)果
5.2.1 指代表達理解
?訓(xùn)練數(shù)據(jù)集:我們使用 Refcoco/+/g 的訓(xùn)練分割作為訓(xùn)練數(shù)據(jù)。這些是 REC 任務(wù)中使用最廣泛的數(shù)據(jù)集,主要包含基于空間或外觀屬性的對象描述,不涉及明確的推理信息。我們的目標是研究在這種非推理數(shù)據(jù)集上訓(xùn)練的模型,能否將通過強化學(xué)習(xí)過程獲得的推理能力泛化到更具挑戰(zhàn)性的評估場景中。
?評估數(shù)據(jù)集:我們選擇 Refcoco/+/g 的驗證分割進行域內(nèi)評估,選擇 LISA-Grounding 的測試分割進行域外評估。LISA-Grounding 是一個推理密集型數(shù)據(jù)集,要求模型進行細粒度的視覺感知、對指代表達的精確理解以及對象之間的關(guān)系推理,才能正確定位目標邊界框。圖 4 展示了兩個數(shù)據(jù)集之間差異的示例。對 LISA-Grounding 的評估是對模型將從較少推理需求的域內(nèi)數(shù)據(jù)集獲得的推理技能,泛化到更具挑戰(zhàn)性的域外場景能力的關(guān)鍵測試。
圖 4:REC 任務(wù)中域內(nèi)和域外數(shù)據(jù)集的差異。域內(nèi)數(shù)據(jù)僅描述對象的空間或外觀屬性信息,而域外數(shù)據(jù)要求模型利用開放世界知識識別足球守門員的角色,然后進行定位。
?結(jié)果:表 2 展示了監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)(RL)模型在四個數(shù)據(jù)集上的性能,圖 5 提供了相應(yīng)的可視化,以便更清晰地進行比較。在域內(nèi)測試數(shù)據(jù)中,無論訓(xùn)練步數(shù)多少,SFT 模型相對于基礎(chǔ)模型(即步驟 0)的改進都很有限,而 RL 模型始終能實現(xiàn)穩(wěn)定的性能提升(圖 5 頂部)。更關(guān)鍵的是,在域外測試數(shù)據(jù)上,隨著訓(xùn)練的進行,SFT 模型的性能略有下降。相比之下,RL 模型有效地將其推理能力泛化到域外設(shè)置,保持穩(wěn)定且優(yōu)異的性能(圖 5 底部)。這些結(jié)果清楚地證明了強化學(xué)習(xí)在提高視覺語言模型在需要密集推理的具有挑戰(zhàn)性場景中的泛化能力方面的優(yōu)勢。
表 2. 監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)(RL)在域內(nèi)和域外評估數(shù)據(jù)集上的性能比較。所有結(jié)果均來自在 Refcoco/+/g 訓(xùn)練分割上訓(xùn)練的 Qwen2.5VL3B-Instruct 模型。步驟 0 表示 Qwen2.5VL-3B-Instruct 模型本身的結(jié)果。?RL?SFT 表示 RL 模型相對于 SFT 模型的改進值。
圖 5:監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)(RL)模型的性能比較。與 SFT 模型相比,RL 模型在域外評估數(shù)據(jù)集上表現(xiàn)出明顯更好的泛化能力。
5.2.2 開放詞匯目標檢測
?訓(xùn)練數(shù)據(jù)集:我們使用描述檢測數(shù)據(jù)集(D^{3})作為訓(xùn)練數(shù)據(jù),它為訓(xùn)練目標檢測模型提供了幾個獨特的優(yōu)勢:(1)完整的注釋覆蓋;(2)不受限制的語言描述;(3)實例級注釋;(4)支持不存在表達。在訓(xùn)練過程中,我們隨機從其他訓(xùn)練樣本中引入 1 - 3 個描述作為負樣本。
?評估數(shù)據(jù)集:我們選擇COCO_{filtered}和 OVDEval 進行評估。COCO_{filtered}是從 COCO 數(shù)據(jù)集的實例 val2017.json 文件創(chuàng)建的。由于視覺語言模型在目標檢測任務(wù)中的召回率通常較低(詳見 [21]),我們過濾掉注釋框超過 10 個的類別,確保只包含注釋框較少的類別。OVDEval 用于評估模型的能力。這是一個專門為開放詞匯檢測設(shè)計的綜合基準,它從六個關(guān)鍵語言方面系統(tǒng)地評估模型。它進一步引入了硬負樣本以評估模型的魯棒性,并使用一種新穎的 NMS-AP 度量來解決常見的 “膨脹 AP 問題”,從而提供更準確的 OVD 評估。在計算 AP 時,視覺語言模型生成的所有輸出框的置信度分數(shù)都設(shè)為 1。在 COCO 評估中,{目標列表} 始終設(shè)置為所有 COCO 80 個類別。對于 OVDEval 評估,我們保持官方的評估設(shè)置。
?結(jié)果:表 3 展示了在COCO_{filtered}上的性能。經(jīng)過強化學(xué)習(xí)訓(xùn)練的模型相對于監(jiān)督微調(diào)模型有顯著改進,平均精度均值(mAP)提高了 2.6 個百分點(21.1% 對 18.5%),貪婪精度提高了 4.42 個百分點(57.57% 對 53.15%),貪婪召回率提高了 4.33 個百分點(43.73% 對 39.4%)。這些在所有指標上的持續(xù)改進證明了強化學(xué)習(xí)卓越的泛化能力。
表 3. 在COCO_{filtered}上的 OVD 任務(wù)結(jié)果。基礎(chǔ) 3B 表示 Qwen2.5VL-3B-Instruct,基礎(chǔ) 7B 表示 70 億參數(shù)模型。GP 和 GR 分別表示貪婪精度和貪婪召回率。
表 4. 在 OVDEval 上的 OVD 任務(wù)結(jié)果。基礎(chǔ)模型表示 Qwen2.5VL-3B-Instruct,基礎(chǔ) 7B 表示 70 億參數(shù)模型。?RL?SFT 表示 RL 模型相對于 SFT 模型的改進值。我們還列出了當(dāng)前專門的開放詞匯檢測領(lǐng)域的最優(yōu)模型 OmDet 的性能,以進行全面比較。
在更具挑戰(zhàn)性和綜合性的 OVDEval 基準測試中,從表 4 中可以觀察到,強化學(xué)習(xí)模型在 9 個檢測類別中的 7 個上優(yōu)于監(jiān)督微調(diào)模型,表現(xiàn)出卓越的泛化能力。最值得注意的是,它在需要更深入理解的復(fù)雜任務(wù)中取得了顯著改進:位置檢測(提高 9.2 個百分點)、關(guān)系檢測(提高 8.4 個百分點)和否定處理(提高 3.3 個百分點)。此外,盡管監(jiān)督微調(diào)在名人、標志和地標檢測等特定類別中表現(xiàn)出較強的性能,但強化學(xué)習(xí)在不同的視覺任務(wù)中表現(xiàn)出更平衡的改進,表明其在視覺理解方面具有更好的整體泛化能力。
結(jié)果表明,雖然監(jiān)督微調(diào)在某些特定任務(wù)中可能有效,但強化學(xué)習(xí)提供了更全面的改進。平均 nms-ap 提高 4.51 個百分點(31.01 對 26.50)表明強化學(xué)習(xí)具有更強的學(xué)習(xí)可泛化特征的能力。
?與最優(yōu)目標檢測模型的比較:OmDet:OmDet 代表了當(dāng)前專門的開放詞匯檢測領(lǐng)域的最先進水平。然而,我們的 VLM-R1 模型表明,視覺語言模型可以在幾個關(guān)鍵方面超越專門的架構(gòu)。
強化學(xué)習(xí)模型和 OmDet 之間的性能差距揭示了不同方法的優(yōu)勢和局限性:
?世界知識和實體識別:在名人檢測中,VLM-R1 達到了 55.0 的 nms-ap,而 OmDet 僅為 1.8。這種巨大的差異(超過 50 個百分點)展示了視覺語言模型預(yù)訓(xùn)練的世界知識的價值,類似的模式也出現(xiàn)在標志和地標檢測中,在這些任務(wù)中語義理解至關(guān)重要。
?細粒度檢測:我們注意到 OVDEval 中的屬性類別包含許多小物體。在這些小物體檢測場景中,OmDet 表現(xiàn)出更強的性能優(yōu)勢(顏色檢測:22.9 對 4.5)。這表明專門的架構(gòu)在細粒度、局部特征檢測方面表現(xiàn)出色。
這些比較為未來的研究方向提供了有前景的思路:結(jié)合兩種方法的互補優(yōu)勢。專門的目標檢測架構(gòu)在細粒度檢測和高召回場景中表現(xiàn)出色,而視覺語言模型則帶來了豐富的世界知識。未來的研究可以集中在創(chuàng)建混合架構(gòu)上,利用專門目標檢測模型的精確定位能力和視覺語言模型的語義理解能力。
5.3 消融實驗和擴展實驗
5.3.1 關(guān)于 “獎勵作弊” 的研究
?什么是獎勵作弊:強化學(xué)習(xí)中的獎勵作弊 [5] 是指智能體利用獎勵函數(shù)中的漏洞,在沒有真正完成預(yù)期任務(wù)的情況下獲得高獎勵的現(xiàn)象。當(dāng)獎勵函數(shù)與設(shè)計者的實際目標不一致時,就會發(fā)生這種情況,導(dǎo)致智能體采取意外或捷徑行為。例如,在一個迷宮導(dǎo)航任務(wù)中,智能體每走一步獲得 +1 獎勵,走出迷宮獲得 +100 獎勵,智能體可能會學(xué)會無限循環(huán)行走以積累步數(shù)獎勵,而不是解決迷宮問題。這種行為在技術(shù)
上實現(xiàn)了獎勵最大化,但未能達到任務(wù)的真正目標。一些文獻 [15, 33, 40, 41, 49, 51] 也在大語言模型研究中探討了這一現(xiàn)象。
?OVD 任務(wù)中的獎勵作弊:表 5 展示了我們提出的 odLength 獎勵相對于原生AP_{50}和mAP獎勵的優(yōu)越性能。經(jīng)過仔細研究,我們發(fā)現(xiàn)了原生AP_{50}和mAP獎勵函數(shù)的關(guān)鍵局限性。具體來說,我們觀察到,在使用官方 COCO 評估 API 計算 AP 值時,給定圖像的真實標注中不存在的類別會被排除在評估之外。由于我們的提示設(shè)計始終包含所有正類別和幾個負類別,模型被激勵去預(yù)測所有類別以最大化獎勵,這就是一種獎勵作弊的情況。在對包含所有 COCO 80 個類別的完整數(shù)據(jù)集進行評估時,這種行為會對精度產(chǎn)生負面影響,因為此時沒有類別會被排除。相比之下,我們的 odLength 獎勵通過為冗余預(yù)測引入額外的懲罰項解決了這個問題。這鼓勵模型使預(yù)測的對象數(shù)量與真實情況一致,從而促使視覺語言模型產(chǎn)生更精確、更可靠的輸出。
表 5. AP_{50}獎勵、mAP獎勵和 odLength 獎勵的性能比較。所有結(jié)果均由基于 Qwen2.5VL-3B-Instruct 訓(xùn)練的強化學(xué)習(xí)模型獲得。GP:貪婪精度;GR:貪婪召回率;Cel:名人;Land:地標;Mat:材質(zhì);Pos:位置;Rel:關(guān)系;Neg:否定。
?完成長度的可視化:圖 6 展示了不同獎勵設(shè)置下輸出序列長度的變化。值得注意的是,使用原生AP_{50}獎勵訓(xùn)練的模型,尤其是那些沒有 KL 正則化的模型,在訓(xùn)練過程中輸出長度急劇增加。這一趨勢表明存在嚴重的獎勵作弊現(xiàn)象,即模型被激勵去枚舉過多的對象類別以最大化獎勵,導(dǎo)致輸出高度冗余。相比之下,使用我們提出的 odLength 獎勵訓(xùn)練的模型保持穩(wěn)定且明顯更短的輸出,有效地抑制了不必要的預(yù)測。
圖 6:OVD 任務(wù)中不同獎勵設(shè)置下完成長度的可視化。可以觀察到,使用原生 AP 獎勵時,模型總是生成過長的完成內(nèi)容,表明存在冗余預(yù)測的對象。
?OD 頓悟時刻:圖 7 展示了有無我們提出的 odLength 獎勵的情況對比。沒有 odLength 獎勵時,視覺語言模型會產(chǎn)生極其冗余的輸出,包括正確但重復(fù)以及錯誤但重復(fù)的檢測結(jié)果。盡管檢測結(jié)果質(zhì)量很差,但原生mAP仍然給予相對較高的獎勵,這表明它容易受到獎勵作弊的影響。然而,有了我們提出的 odLength 獎勵,視覺語言模型被激勵去精確地定位每個對象,展現(xiàn)出一種新興的推理行為,我們稱之為 “OD 頓悟時刻”。面對涉及多個潛在目標(包括硬負樣本)的復(fù)雜檢測任務(wù)時,模型會自發(fā)地采用兩步策略:它首先通過明確的 “思考” 步驟識別哪些對象確實存在,然后進行準確的邊界框預(yù)測。
圖 7:有無 odLength 獎勵的情況對比。左圖:沒有 odLength 獎勵時,模型生成冗余和重復(fù)的邊界框,但仍從原生 mAP 獲得高獎勵。每個圓圈表示一個預(yù)測的邊界框,相同顏色的圓圈表示坐標相同的邊界框。右圖:有 odLength 獎勵時,模型表現(xiàn)出 “OD 頓悟時刻”,先推理對象是否存在,然后生成準確的邊界框。
5.3.2 訓(xùn)練數(shù)據(jù)的選擇
表 6 展示了在 COCO 和D^{3}數(shù)據(jù)集上訓(xùn)練的模型的性能比較。值得注意的是,在D^{3}數(shù)據(jù)集上訓(xùn)練的模型,即使在與 COCO 訓(xùn)練數(shù)據(jù)分布一致的域內(nèi)COCO_{filtered}評估集上,也顯著優(yōu)于在 COCO 數(shù)據(jù)集上訓(xùn)練的模型。一個關(guān)鍵的區(qū)別在于訓(xùn)練查詢的語義復(fù)雜度:COCO 類別通常很簡單,往往由單個單詞標簽組成(例如,人、汽車),而D^{3}查詢在語義上更豐富,通常是完整且含義豐富的句子(示例見圖 7)。我們假設(shè)這種語義豐富度的差異在觀察到的性能差距中起著關(guān)鍵作用。在強化學(xué)習(xí)的背景下,具有挑戰(zhàn)性和語義復(fù)雜的數(shù)據(jù)對于鼓勵模型發(fā)展更強大的推理鏈至關(guān)重要,最終會帶來更優(yōu)異的任務(wù)表現(xiàn)。
5.3.3 強化學(xué)習(xí)在不同模型規(guī)模上的效果
表 7 展示了不同大小模型及其相應(yīng)強化學(xué)習(xí)增強版本之間的性能比較。有幾個值得注意的發(fā)現(xiàn):
?關(guān)系子任務(wù)需要推理能力,在所有模型規(guī)模上應(yīng)用強化學(xué)習(xí)后,其性能都有顯著提升(13.1 提升到 21.5,16.2 提升到 20.1,20.6 提升到 27.0),這表明強化學(xué)習(xí)可以利用視覺語言模型卓越的推理能力。
?另一個推理密集型子任務(wù) —— 否定處理,7B 和 32B 的強化學(xué)習(xí)模型都實現(xiàn)了性能提升(39.0 提升到 43.1,47.0 提升到 51.7),而 3B 模型則出現(xiàn)了輕微的性能下降(38.7 下降到 37.7)。我們認為這種差異源于基礎(chǔ)模型的固有能力。正如 [34] 所表明的,強化學(xué)習(xí)主要是為了強化正確的推理模式,而不是注入新的知識。鑒于 7B 和 32B 基礎(chǔ)模型具有更大的能力,強化學(xué)習(xí)更有可能有效地利用它們潛在的推理能力。
?在顏色子任務(wù)中,7B 和 32B 的強化學(xué)習(xí)模型比 3B 模型表現(xiàn)出更大的性能提升(2.9 提升到 4.5,而 3.0 提升到 7.8,4.4 提升到 7.8)。鑒于 OVDEval 中的顏色子任務(wù)主要涉及小物體,這種比較突出了大型視覺語言模型在細粒度視覺細節(jié)方面卓越的視覺感知能力。
?在COCO_{filtered}子集上,所有規(guī)模的模型在貪婪精度上的提升都比貪婪召回率更大。這種差異與 odLength 獎勵的設(shè)計一致,odLength 獎勵明確懲罰冗余的邊界框預(yù)測。雖然這種調(diào)整通過抑制過度預(yù)測提高了精度,但由于模型在輸出預(yù)測時更加保守,可能會導(dǎo)致召回率略有下降。
?較大的模型通常表現(xiàn)略好。
6. 討論
6.1 強化學(xué)習(xí)與監(jiān)督微調(diào)
在指代表達理解的背景下,強化學(xué)習(xí)模型不僅在域內(nèi)任務(wù)上實現(xiàn)了穩(wěn)定的性能提升,還將從非推理訓(xùn)練數(shù)據(jù)中獲得的推理模式泛化到需要更細致理解和復(fù)雜推理的域外設(shè)置中。這表明強化學(xué)習(xí)不僅針對已見場景的性能進行優(yōu)化,還鼓勵模型發(fā)展可轉(zhuǎn)移的能力,以適用于更具挑戰(zhàn)性的未見任務(wù)。
此外,在開放詞匯目標檢測實驗中,強化學(xué)習(xí)模型在復(fù)雜的 OVDEval 基準測試的大多數(shù)子任務(wù)中優(yōu)于監(jiān)督微調(diào)的對應(yīng)模型,特別是在一些具有挑戰(zhàn)性的子任務(wù)中取得了顯著的提升。而且,如 5.3.3 節(jié)所討論的,幾乎所有規(guī)模的模型在這些以推理為重點的任務(wù)中都從強化學(xué)習(xí)中受益,進一步驗證了這種訓(xùn)練范式在泛化方面的優(yōu)勢。
這些發(fā)現(xiàn)有力地支持了 [12] 提出的結(jié)論:“監(jiān)督微調(diào)側(cè)重于記憶,強化學(xué)習(xí)側(cè)重于泛化”。我們的結(jié)果進一步證實了強化學(xué)習(xí)在增強視覺語言模型泛化能力方面的有效性,尤其是在需要推理模式的場景中。
6.2 通過獎勵工程防止獎勵作弊
在本報告中,我們揭示了在使用原生 mAP 獎勵進行 OVD 任務(wù)時出現(xiàn)的獎勵作弊現(xiàn)象,并展示了我們提出的 odLength 獎勵在緩解這一問題方面的有效性。如圖 7 所示,設(shè)計不佳的獎勵函數(shù)會激勵模型生成過多且不加區(qū)分的預(yù)測,以追求更高的獎勵值。這種行為會導(dǎo)致在評估基準上的性能下降。相比之下,引入 odLength 獎勵顯著抑制了這種冗余輸出,使獎勵信號與評估指標更加一致,更重要的是,出現(xiàn)了 “OD 頓悟時刻”,即模型先推理對象是否存在,然后生成準確的邊界框。
這些結(jié)果強調(diào)了在強化學(xué)習(xí)流程中精心設(shè)計獎勵的重要性,特別是對于復(fù)雜任務(wù),簡單定義的目標可能無法捕捉到期望的模型行為。
6.3 數(shù)據(jù)在推理和泛化中的作用
我們的發(fā)現(xiàn)突出了訓(xùn)練數(shù)據(jù)在塑造模型性能方面的關(guān)鍵作用。我們觀察到,復(fù)雜且具有挑戰(zhàn)性的訓(xùn)練樣本可以有效地激發(fā)視覺語言模型的推理行為,這與 [38] 中的觀察結(jié)果一致。相反,低質(zhì)量或過于簡單的數(shù)據(jù)可能會阻礙學(xué)習(xí),甚至對泛化產(chǎn)生負面影響(表 6)。這些見解強調(diào)了仔細選擇訓(xùn)練數(shù)據(jù)的必要性。
同樣重要的是評估數(shù)據(jù)的選擇。全面且具有適當(dāng)挑戰(zhàn)性的基準對于準確評估模型的推理和感知能力至關(guān)重要。在本研究中,我們選擇 LISA-Grounding 和 OVDEval 作為評估數(shù)據(jù)集,因為它們都旨在探究復(fù)雜的語義理解以及在復(fù)雜的現(xiàn)實世界場景中的泛化能力。總之,我們的結(jié)果強調(diào)了高質(zhì)量訓(xùn)練數(shù)據(jù)和評估數(shù)據(jù)對于提升視覺語言模型能力的重要性。
6.4 從簡單到復(fù)雜:為 OVD 任務(wù)適配強化學(xué)習(xí)
在本報告中,我們探索了將 R1 風(fēng)格的強化學(xué)習(xí)框架應(yīng)用于兩個結(jié)構(gòu)相似的任務(wù)的可行性:指代表達理解(REC)和開放詞匯目標檢測(OVD),這兩個任務(wù)都要求模型根據(jù)文本描述輸出邊界框。盡管它們表面上相似,但我們的對比分析表明,要成功地將強化學(xué)習(xí)應(yīng)用于更復(fù)雜的 OVD 任務(wù),額外的優(yōu)化是必不可少的。
首先,雖然簡單的獎勵函數(shù)對于 REC 任務(wù)就足夠了,但在 OVD 任務(wù)中,由于獎勵作弊問題,它無法產(chǎn)生有效的訓(xùn)練效果,因此需要設(shè)計更強大、定制的獎勵,例如我們提出的 odLength 獎勵。其次,盡管在相對簡單的域內(nèi)數(shù)據(jù)集(即 RefCOCO)上訓(xùn)練的模型在 REC 任務(wù)中泛化效果良好,但同樣的方法在 OVD 任務(wù)中卻不能有效轉(zhuǎn)移。為了解決這個問題,我們?yōu)?OVD 任務(wù)精心選擇了更合適的訓(xùn)練數(shù)據(jù)集(即D^{3}),從而取得了更好的結(jié)果。
這些發(fā)現(xiàn)強調(diào)了在將強化學(xué)習(xí)應(yīng)用于更復(fù)雜場景時,進行特定任務(wù)優(yōu)化的必要性。
7. 結(jié)論
在這項工作中,我們引入了 VLM-R1,這是一個統(tǒng)一的框架,將 R1 風(fēng)格的強化學(xué)習(xí)引入視覺理解領(lǐng)域。我們的框架是為視覺語言模型量身定制的,支持靈活的數(shù)據(jù)定義、模型模塊化和訓(xùn)練可擴展性。使用 VLM-R1,我們成功地將強化學(xué)習(xí)應(yīng)用于兩個代表性的視覺理解任務(wù) —— 指代表達理解和開放詞匯目標檢測,在任務(wù)性能和域外泛化方面都取得了顯著的提升。除了實證結(jié)果,我們還對獎勵工程、數(shù)據(jù)選擇和模型縮放提供了實用的見解,這些對于有效地將強化學(xué)習(xí)應(yīng)用于復(fù)雜的視覺語言任務(wù)至關(guān)重要。我們的工作為在視覺語言研究中更廣泛地應(yīng)用強化學(xué)習(xí)奠定了基礎(chǔ)。在未來的工作中,我們旨在探索跨任務(wù)泛化,并將 VLM-R1 擴展到更具挑戰(zhàn)性的多模態(tài)場景中。
本文轉(zhuǎn)載自公眾號AIRoobt ,作者:Haozhan Shen等
原文鏈接:??https://mp.weixin.qq.com/s/qq2MpQsd9wnf2l5yYrpT6g??
