Vision-R1:多模態領域的DeepSeek R1-Zero,7B參數比肩OpenAI O1
DeepSeek在領域內獲得廣泛關注的核心在于R1-Zero僅通過強化學習(RL)便成功實現了推理能力的涌現,即發現Aha moment。那么,在多模態領域,是否也能獲得借鑒R1-Zero的思路呢?
今天介紹的Vision-R1就是這一方面的探索的代表, 其目的就是研究如何有效利用 RL 來增強多模態大型語言模型(MLLM)的推理能力。然而,研究團隊發現,由于缺乏大規模、高質量的多模態推理數據,直接應用 RL 訓練 MLLM 在激發其深層推理能力(如提問和反思)方面面臨巨大挑戰。
為解決這一難題,Vision-R1 項目創新性地提出了一個推理型 MLLM,并采取了由冷啟動初始化和 RL 訓練 組成的兩階段策略。項目首先著力構建高質量、大規模且無需人工標注的多模態 Chain-of-Thought (CoT) 數據集——Vision-R1-cold 數據集。該數據集規模達 20 萬條,巧妙地利用現有的 MLLM 和 DeepSeek-R1,通過模態橋接和數據過濾等技術,將視覺信息轉化為文本信息,并融入 DeepSeek-R1 生成的高質量 CoT 推理過程,為 Vision-R1 提供了至關重要的冷啟動知識。
數據集例子
冷啟動初始化數據準備
RL訓練
為緩解冷啟動后模型易出現的“過度思考優化問題”,Vision-R1 進一步創新性地提出了漸進式思維抑制訓練 (PTST) 策略。PTST 結合群體相對策略優化 (GRPO) 算法和硬格式化結果獎勵函數 (HFRRF),在 1 萬條多模態數學數據集上進行 RL 訓練,逐步精煉模型學習正確且復雜的推理過程的能力。PTST 策略在訓練初期抑制模型推理長度,引導模型關注正確的推理路徑,并隨著訓練深入,逐步放寬長度限制,最終使 Vision-R1 能夠自主掌握更高級的推理技巧。
從實驗結果上看,在多個多模態數學推理基準測試中,Vision-R1 模型較之于其基礎模型Qwen-2.5-VL-7B 平均取得了 6% 的性能提升。尤其在廣泛使用的 MathVista 基準測試中,僅使用 70 億參數的 Vision-R1-7B 模型,其準確率便達到了 73.5%,僅比領先的推理模型 OpenAI O1 低 0.4%,大幅超越開源推理MLLM LLaVA-Cot-11B近9%。這充分展現了 Vision-R1 在多模態推理任務上的強大實力。
Vision-R1的成功說明采用DeepSeek R1的思路是普遍有效的,這對于其它研究者來講給予了非常大的示范意義,如何更好的使用RL激發大模型的潛力將成為重點的研究方向。
github:https://github.com/Osilly/Vision-R1
論文:https://arxiv.org/abs/2503.06749
本文轉載自 ??AI工程化??,作者: ully
