DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路 原創
剛開始琢磨使用DeepSeek-R1風格訓練多模態R1模型,就看到這個工作,本文一起看看,供參考。
先提出問題,僅靠 RL 是否足以激勵 MLLM 的推理能力?
結論:不能,因為如果 RL 能有效激勵推理能力,Vision-R1-Zero 應該表現出生成復雜 CoT 的能力,并在基準測試中提升準確率。如下圖D和E所示:
方法:從未經專門推理優化的原始 MLLM(例如 Qwen-2.5VL-7B-Instruct)開始,直接應用 RL 訓練。使用與 Vision-R1 相同的獎勵函數,即硬格式結果獎勵函數(HFRRF):如果輸出格式正確且答案正確,獎勵為 1,否則為 0。訓練目標是激勵模型生成多模態 CoT,解決數學推理任務。
系統提示與獎勵格式和Deepseek相似:
- 系統提示:
A conversation between User and
Assistant. ... first thinks about
the reasoning process ... provides
the user with the answer. The
reasoning process and answer are
enclosed within <think> </think> and
<answer> </answer> tags ...
- 獎勵格式:
<think> </think><answer></answer>
方法架構
僅靠強化學習(RL)無法有效激勵多模態大型語言模型(MLLM)的推理能力,主要原因是缺乏高質量初始數據和優化策略。
因此,可以知道Vision-R1 的目標是:
- 生成高質量的多模態推理鏈(CoT)數據集,無需人工標注。
- 通過 RL 優化模型,使其生成邏輯清晰、長度適中的 CoT,避免過度思考(Overthinking)。
基于此,Vision-R1 提出了一種兩階段方法,通過冷啟動初始化和漸進式 RL 訓練。
Vision-R1流程
1. 冷啟動初始化
冷啟動初始化是通過構建一個高質量的多模態鏈式推理(CoT)數據集來實現的。目的是為模型提供一個初始的、高質量的推理示例,以便在后續的強化學習過程中更好地學習和改進推理能力。
冷啟動初始化的核心在于如何從多模態數據中提取出高質量的推理過程。由于多模態大型語言模型(MLLMs)通常難以直接處理多模態輸入,提出了一種稱為“模態橋接”(Modality Bridging)的方法來實現這一目標。
整體數據生成流程
實現細節
步驟 | 作用 | 方法 |
1. 偽 CoT 生成 | MLLM 處理圖像-文本對,生成初步推理步驟 | 使用 Qwen-2.5VL-72B |
2. 詳細描述獲取 | 通過提示獲取支持回答問題的詳細圖像描述 | 提示模板見論文 |
3. CoT 提取與優化 | DeepSeek-R1 提取并優化 CoT | DeepSeek-R1 見 |
4. 數據過濾 | 規則過濾確保數據質量 | 200K Vision-R1-cold 數據集 |
- 偽CoT生成:首先,使用現有的多模態大型語言模型(MLLM)來生成“偽CoT”(Pseudo-CoT)。具體的,輸入一個圖像-問題-答案對和一個提示到一個MLLM中,模型會生成一個包含圖像描述和推理過程的文本。這個“偽CoT”不僅包含了圖像的描述,還嘗試進行初步的推理,但可能缺乏深度和復雜性。
通過帶有和不帶“偽CoT”的描述生成的CoT過程比較。
- 文本描述生成:將生成的“偽CoT”與原始的圖像-問題對以及一個新的提示一起輸入到同一個MLLM中,以獲取更詳細的圖像描述。這一步驟的目的是通過MLLM的文本生成能力,將圖像中的視覺信息轉化為更詳細的文本描述,從而為后續的推理提供更多的上下文信息。
- 推理生成:將經過文本化的圖像-問題對輸入到一個專門的推理大型語言模型(如DeepSeek-R1)中,以生成高質量的CoT推理過程。DeepSeek-R1能夠生成包含自然認知過程的推理過程,如質疑、反思和檢查等。
- 數據過濾:從生成的CoT數據中保留那些最終答案與真實值一致的樣本。使用規則進行數據過濾,去除邏輯不一致的樣本,并替換一些詞匯以提高語義連貫性。
冷啟動數據源:
小結:冷啟動初始化的主要目的是為模型提供一個高質量的起點,使得模型在后續的強化學習過程中能夠更快地學習和改進其推理能力。
2.漸進式思維抑制訓練(PTST)
為了解決冷啟動后的過度思考問題,Vision-R1 采用漸進式思維抑制訓練(PTST),通過 RL 進一步優化模型的推理能力。
- 分組相對策略優化(GRPO):GRPO 是一種 RL 算法,通過分組類似狀態或動作來優化策略,提高學習效率。 詳細的可參考往期《??DeepSeek采用的GRPO算法數學原理及算法過程淺析??》
- 硬格式結果獎勵函數(HFRRF):獎勵函數簡單:如果輸出格式正確且答案正確,則獎勵為 1,否則為 0。
- 分階段訓練:訓練分為多個階段,逐步增加序列長度(如 4K、8K、16K 標記)和調整組大小(如 16、8、4)。
a.每個階段訓練 100 步,使用 64 個 NVIDIA H800 80G GPU,約 2 天,使用 Verl 框架。
b.與固定長度 16K、300 步訓練的 Vision-R1-Long 相比,PTST 表現更好,平均長度 2057,平均準確率 55.4%。
效果與實驗
出現“頓悟時刻”:
數學評測:
參考文獻:Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models, https://arxiv.org/abs/2503.06749) code:https://github.com/Osilly/Vision-R1
公眾號大模型自然語言處理 作者:余俊暉
