復旦:基于強化微調的統一多模態思維鏈獎勵模型
本文介紹了一種新的統一多模態鏈式思維獎勵模型,該模型通過強化微調方法實現了對復雜推理過程的學習和激勵。傳統的獎勵模型通常只能提供直接響應或淺層推理,而新提出的模型能夠進行多層次、逐步的長鏈推理,從而提高了獎勵信號的準確性和可靠性。該模型采用了探索驅動的強化微調方法,首先利用小規模圖像生成偏好數據來學習GPT-4o的推理過程,并將其用于模型的冷啟動;然后利用模型的先驗知識和泛化能力,準備大規模的統一多模態偏好數據來引導模型在各種視覺任務中進行推理;最后使用群體相對策略優化(GRPO)進行強化微調,使模型能夠探索多樣化的推理路徑并優化正確的解決方案。實驗結果表明,引入長鏈推理顯著增強了獎勵信號的準確性。值得注意的是,在掌握長鏈推理后,模型還具有隱式推理能力,即使沒有明確的推理軌跡也能超越現有基準線。
該工作旨在將長鏈思考(CoT)推理納入獎勵模型的決策過程中,以增強獎勵信號的可靠性和魯棒性。然而,由于缺乏大規模CoT獎勵數據,傳統的訓練方法如監督微調(SFT)仍具有高度挑戰性。因此,本文提出了統一多模態CoT獎勵模型(UNIFIEDREWARD-THINK),并采用了探索驅動的強化學習微調來激活和優化視覺語言模型(VLM)的多維和分步長期推理能力。具體而言,該流程包括三個關鍵階段:冷啟動、拒絕采樣和相對策略優化(GRPO)。
在冷啟動階段,使用少量經過蒸餾的CoT獎勵數據來初始化獎勵模型,并教導其遵循結構化的CoT推理格式。在拒絕采樣階段,利用大量統一偏好數據激發模型的一般化CoT推理能力,通過保留正確推理樣本進行拒絕采樣來進一步加強模型的CoT推理能力。最后,在GRPO階段,引入可驗證獎勵(format reward和accuracy reward)來引導模型的學習,并采用GRPO強化學習微調來提高模型的CoT推理能力。
該方法的主要創新在于采用了探索驅動的強化學習微調(GRPO)來進一步提高模型的CoT推理能力。此外,該方法還引入了可驗證獎勵機制,以確保模型生成的響應既符合特定的推理結構,又準確無誤地回答問題。
解決的問題
該方法主要解決了傳統訓練方法中缺乏大規模CoT獎勵數據的問題,以及如何提高獎勵信號的可靠性和魯棒性的問題。通過采用統一多模態CoT獎勵模型和探索驅動的強化學習微調,該方法能夠有效地激活和優化VLM的多維和分步長期推理能力,從而提高模型的CoT推理能力和可靠性。
本文主要介紹了四個實驗,分別是圖像生成、視頻生成、圖像理解以及視頻理解任務的實驗。在這些實驗中,作者使用了多個數據集和獎勵模型,并進行了詳細的評估和比較分析。
第一個實驗是圖像生成任務,作者使用了HPD、OIP、EvalMuse等數據集,并使用了統一獎勵模型來評估生成結果。結果顯示,作者的方法在所有測試樣本上都表現出了優異的表現。
第二個實驗是視頻生成任務,作者使用了VideoDPO和Text2Video-Human Preferences等數據集,并使用了統一獎勵模型來評估生成結果。結果顯示,作者的方法在所有測試樣本上都表現出了優異的表現。
第三個實驗是圖像理解任務,作者從LLava-Critic-113K數據集中隨機抽取了30K個數據,并使用了統一獎勵模型來評估理解結果。結果顯示,作者的方法在所有測試樣本上都表現出了優異的表現。
第四個實驗是視頻理解任務,作者使用了ShareGPTVideo-DPO數據集,并使用了統一獎勵模型來評估理解結果。結果顯示,作者的方法在所有測試樣本上都表現出了優異的表現。
總的來說,作者的方法在所有實驗中都表現出了優異的表現,證明了其在視覺生成和理解任務中的有效性。此外,作者還進行了幾個重要的實驗,包括每個訓練階段的效果評估、去除CoT推理的GRPO方法的效果評估等,進一步驗證了作者的方法的有效性和優越性。
本文轉載自??柏企閱文??
