只訓練數學,卻在物理化學生物戰勝o1!新強化學習算法帶來顯著性能提升,還緩解訓練崩潰問題
只訓練數學,卻在物理化學生物戰勝o1!強化學習提升模型推理能力再添例證。
來自上海創智學院、上海AI Lab的MM-Eureka系列工作提出了新的強化學習算法CPGD(Clipped Policy Gradient Optimization with Policy Drift)——
相比于傳統GRPO、RLOO等算法顯著緩解了訓練不穩定(甚至崩潰)的問題,并帶來顯著性能提升。
在多個基準測試上,使用GRPO訓練的模型在QwenVL2.5-7B基礎上平均提升了6%,而采用CPGD的MM-Eureka-CPGD-7B則進一步將整體提升幅度擴大到11%,驗證了CPGD在穩定性與性能上的雙重優勢。
具體的,相較基礎模型QwenVL2.5-7B,基于CPGD和15k多模態數學數據MMK12訓練的模型MM-Eureka-CPGD-7B在MMK12測試集(包括數學,以及訓練數據分布外領域的物理、化學、生物)上平均提升21.8%,在MathVista和MathVision等訓練數據分布外領域上也分別提升8.5%與11.4%,展現了優異的泛化能力。
模型規模擴展到MM-Eureka-CPGD-32B上則進一步在MMK12測試集上超越了o1,值得注意的是,盡管MM-Eureka-CPGD-32B只在數學數據集上進行RL訓練,但在物理、化學和生物等學科均超過了o1。
△不同模型在MMK12測試集中不同學科上的表現
今年2月,他們推出MM-Eureka系列是最早在多模態領域利用大規模Rule-based RL復現DeepSeek-R1關鍵能力(例如Visual aha-moment、穩定的回答長度增長)的工作之一,并將模型、代碼、高質量多模態數據集MMK12、過程獎勵模型MM-PRM全部開源,發布三個月以來獲得了學術界和開源社區廣泛關注——模型已被下載超10000次,相關代碼庫獲得超1000 star,論文引用近100次。
近日,MM-Eureka系列工作在底層訓練框架、高質量多模態推理數據、高效穩定的RL訓練算法和過程獎勵模型等方面持續耕耘,在近期取得重要進展。
多模態強化學習框架
基于OpenRLHF,團隊構建了一個高效、可擴展的多模態強化學習框架,支持Qwen-VL、InternVL等多種模型與RL算法,包括GRPO、REINFORCE++、RLOO,以及提出的新型RL算法CPGD,并已成功訓練出Qwen2.5VL-32B、InternVL2.5-38B等大型模型。
該框架相較于已有方案(如R1-V),具備更強的可擴展性與穩定性,為大規模多模態強化學習提供了基礎設施支撐。
強化學習訓練的穩定性突破:CPGD算法
在第一階段的探索中,團隊發現移除新策略與參考模型之間的KL散度項后,規則型強化學習訓練在性能上限和資源效率方面表現更優。然而,這也極易導致訓練過程不穩定甚至崩潰。
為此,團隊在GRPO算法的基礎上,提出了雙邊裁剪、online filter以及兩階段訓練等應對方案,構建了MM-Eureka-7B與MM-Eureka-32B模型,并獲得良好結果。
盡管上述方法在實踐中有效,但仍存在繁瑣且治標不治本的問題。團隊在深入分析后發現,問題核心在于新舊策略比值的極端高值行為。
為此,他們提出新算法CPGD(Clipped Policy Gradient Optimization with Policy Drift),主要特性包括:
策略比值對數化處理:在原始PPO損失基礎上,團隊將策略比值取對數,以削弱異常高值的影響,使訓練過程更穩定,解決了現有的規則型強化學習方法(如 GRPO、REINFORCE++、RLOO)常面臨訓練崩潰與梯度不穩定的問題。
引入策略漂移項(Policy Drift):在損失函數中引入新舊策略之間的KL散度項,有效約束策略變化幅度。團隊證明了CPGD對策略漂移的控制能力優于PPO,并具有理論收斂性保障。
細粒度、可實現的損失函數形式:團隊設計了按token粒度計算的損失函數,可拆分的裁剪項結合加權優勢函數,既便于引入GRPO式歸一化,也兼容online filter策略的等價加權方式。
新型KL估計器:在K3估計器基礎上,團隊構造了新的KL估計方式,以在保持梯度方向準確性的同時緩解高方差問題。
借助CPGD,團隊成功訓練出MM-Eureka-CPGD-7B/32B兩個版本的推理模型,不僅顯著提升了穩定性,還進一步提高了性能表現。
值得注意的是,近期Minimax發布的M1模型中提出的CISPO優化算法也提出了相應的訓練不穩定瓶頸和基于policy gradient的改進方案,與在五月開源的CPGD算法有異曲同工之妙。
顯著性能提升,泛化能力優越
在多個數據集上的測試表明,CPGD帶來的性能提升顯著:
- 相較基礎模型QwenVL2.5-7B,MM-Eureka-CPGD-7B在 MMK12上提升21.8%,在MathVista和MathVision等訓練數據分布外領域上也分別提升8.5%與11.4%,展現了較好的泛化能力;
- 對比主流強化學習算法(GRPO、REINFORCE++、RLOO等),CPGD在穩定性、性能和泛化能力上全面領先,;在多個基準測試上,使用GRPO訓練的模型在QwenVL2.5-7B基礎上平均提升了6%,而采用CPGD的MM-Eureka-CPGD-7B則進一步將整體提升幅度擴大到11%;
- 在與同規模開源模型對比中,MM-Eureka-CPGD-32B模型已接近閉源模型的表現。
△不同模型的表現
其中Overall的計算是以QwenVL2.5-7B為基準。表現最佳的模型以粗體顯示,第二好的模型以下劃線顯示(不包括OpenAI-o1/GPT-4o)
△不同模型的表現
其中Overall的計算是以QwenVL2.5-32B為基準。表現最佳的模型以粗體顯示,第二好的模型以下劃線顯示(不包括OpenAI-o1/GPT-4o)
高質量多模態數學數據集MMK12
為解決現有數據集題型單一、答案不準的問題,團隊推出了MMK12數據集,覆蓋小學至高中階段、總計超過15000道多模態數學推理題,涵蓋幾何、函數、圖形推理等典型領域。
每道題都包含:
- 圖文題干與配圖;
- 標準答案;
- 結構化的思維鏈(Chain-of-Thought)解題過程。
評測集還額外提供了包含數學、物理、化學、生物等學科的2000道選擇題,支持跨學科、多模態推理評測。目前,MMK12已被下載超1700 次,成為多模態推理任務中的重要基準。
MM-PRM:自動化過程監督,推理路徑更可信
推理不應只關注最終答案,更重要的是每一步是否合理。為此,團隊推出 MM-PRM(多模態過程獎勵模型),關注模型“如何推理”的過程本身。
三階段全自動過程監督流程:
使用500萬條數據訓練獲得推理增強的MM-Policy模型;
結合MCTS自動生成超過70萬條推理過程標注;
基于上述數據訓練過程獎勵模型MM-PRM,對每一步推理進行評估與引導。
它具備以下優勢:
- 高效生成,無需人工標注:僅用1萬道K12數學題,即可生成大規模過程監督數據;
- 顯著提升推理路徑質量:模型推理步驟更加嚴謹,而非僅靠“撞對”答案;
- 跨任務泛化性強:在MMK12準確率提升近9%,在MathVista、OlympiadBench等挑戰集上同樣表現優異;
- 全模型適用:適配從8B到78B的多種規模模型;
- 訓練穩定性強:結合小學習率與軟標簽策略,有效降低訓練崩潰風險。
對強化學習與推理能力的思考
推理能力能否脫離知識獨立發展?
團隊觀察到:強化學習顯著提高了模型在“曾經答對過”的問題上的表現,但對“始終無法答對”的問題,效果有限。這表明RL主要在優化已有知識調用和推理路徑的組織上發揮作用,但無法替代知識本身的缺失。
RL比SFT泛化能力更強
通過實驗,他們發現RL在跨學科任務(如物理、化學、生物)中的泛化能力遠超SFT或CoT-SFT。以數學與物理為例,RL分別帶來12.8和10.8 分的提升,而其他方法幾乎無效。這進一步說明,強化學習可能是提升模型邏輯推理能力的關鍵路徑。
PRM與RL的結合具備潛力,值得進一步探索
目前的強化學習訓練多聚焦于最終答案的準確性,尚未充分利用推理過程中的中間監督信號。團隊認為,PRM有望成為強化學習訓練的重要補充。通過對模型每一步推理過程的打分與引導,PRM可以提供更細粒度的反饋,幫助模型在策略優化中更穩定地提升推理質量與可解釋性。未來,團隊計劃探索將PRM與RL框架相結合,以構建“結果+過程”雙重優化的多模態推理體系。這不僅有助于提升模型在復雜推理任務中的穩健性,也可能為構建可控、安全的通用推理能力奠定基礎。
他們在策略優化與過程監督兩個核心方向,分別推出MM-Eureka-CPGD 與MM-PRM,構建了一套高度自動化、可復現、訓練穩定、效果顯著的多模態推理方案。
該方案實現了準確率與推理長度的穩定提升;推理路徑的可控化與解釋性增強,以及在多個任務與模型規模上的廣泛適配與泛化能力。
目前已開源所有模型、代碼與數據,并提供完整技術報告,歡迎社區參與共建。未來,團隊將持續推進更高水平的多模態推理訓練與系統化優化,敬請關注!
開源代碼:
https://github.com/ModalMinds/MM-EUREKA
https://github.com/ModalMinds/MM-EUREKA/tree/mm-prm
技術報告:
https://arxiv.org/abs/2503.07365
https://arxiv.org/abs/2505.12504
https://arxiv.org/abs/2505.13427
MMK12數據集:
https://huggingface.co/datasets/FanqingM/MMK12
模型權重:
https://huggingface.co/FanqingM/MM-Eureka-Qwen-7B
https://huggingface.co/FanqingM/MM-Eureka-Qwen-32B
https://huggingface.co/Zkkkai/CPGD-7B