只訓練數學，卻在物理化學生物戰勝o1！新強化學習算法帶來顯著性能提升，還緩解訓練崩潰問題

2025-06-24 08:45:00

來自上海創智學院、上海AI Lab的MM-Eureka系列工作提出了新的強化學習算法CPGD（Clipped Policy Gradient Optimization with Policy Drift）——

只訓練數學，卻在物理化學生物戰勝o1！強化學習提升模型推理能力再添例證。

來自上海創智學院、上海AI Lab的MM-Eureka系列工作提出了新的強化學習算法CPGD（Clipped Policy Gradient Optimization with Policy Drift）——

相比于傳統GRPO、RLOO等算法顯著緩解了訓練不穩定（甚至崩潰）的問題，并帶來顯著性能提升。

在多個基準測試上，使用GRPO訓練的模型在QwenVL2.5-7B基礎上平均提升了6%，而采用CPGD的MM-Eureka-CPGD-7B則進一步將整體提升幅度擴大到11%，驗證了CPGD在穩定性與性能上的雙重優勢。

具體的，相較基礎模型QwenVL2.5-7B，基于CPGD和15k多模態數學數據MMK12訓練的模型MM-Eureka-CPGD-7B在MMK12測試集（包括數學，以及訓練數據分布外領域的物理、化學、生物）上平均提升21.8%，在MathVista和MathVision等訓練數據分布外領域上也分別提升8.5%與11.4%，展現了優異的泛化能力。

模型規模擴展到MM-Eureka-CPGD-32B上則進一步在MMK12測試集上超越了o1，值得注意的是，盡管MM-Eureka-CPGD-32B只在數學數據集上進行RL訓練，但在物理、化學和生物等學科均超過了o1。

△不同模型在MMK12測試集中不同學科上的表現

今年2月，他們推出MM-Eureka系列是最早在多模態領域利用大規模Rule-based RL復現DeepSeek-R1關鍵能力（例如Visual aha-moment、穩定的回答長度增長）的工作之一，并將模型、代碼、高質量多模態數據集MMK12、過程獎勵模型MM-PRM全部開源，發布三個月以來獲得了學術界和開源社區廣泛關注——模型已被下載超10000次，相關代碼庫獲得超1000 star，論文引用近100次。

近日，MM-Eureka系列工作在底層訓練框架、高質量多模態推理數據、高效穩定的RL訓練算法和過程獎勵模型等方面持續耕耘，在近期取得重要進展。

多模態強化學習框架

基于OpenRLHF，團隊構建了一個高效、可擴展的多模態強化學習框架，支持Qwen-VL、InternVL等多種模型與RL算法，包括GRPO、REINFORCE++、RLOO，以及提出的新型RL算法CPGD，并已成功訓練出Qwen2.5VL-32B、InternVL2.5-38B等大型模型。

該框架相較于已有方案（如R1-V），具備更強的可擴展性與穩定性，為大規模多模態強化學習提供了基礎設施支撐。

強化學習訓練的穩定性突破：CPGD算法

在第一階段的探索中，團隊發現移除新策略與參考模型之間的KL散度項后，規則型強化學習訓練在性能上限和資源效率方面表現更優。然而，這也極易導致訓練過程不穩定甚至崩潰。

為此，團隊在GRPO算法的基礎上，提出了雙邊裁剪、online filter以及兩階段訓練等應對方案，構建了MM-Eureka-7B與MM-Eureka-32B模型，并獲得良好結果。

盡管上述方法在實踐中有效，但仍存在繁瑣且治標不治本的問題。團隊在深入分析后發現，問題核心在于新舊策略比值的極端高值行為。

為此，他們提出新算法CPGD（Clipped Policy Gradient Optimization with Policy Drift），主要特性包括：

策略比值對數化處理：在原始PPO損失基礎上，團隊將策略比值取對數，以削弱異常高值的影響，使訓練過程更穩定，解決了現有的規則型強化學習方法（如 GRPO、REINFORCE++、RLOO）常面臨訓練崩潰與梯度不穩定的問題。

引入策略漂移項（Policy Drift）：在損失函數中引入新舊策略之間的KL散度項，有效約束策略變化幅度。團隊證明了CPGD對策略漂移的控制能力優于PPO，并具有理論收斂性保障。

細粒度、可實現的損失函數形式：團隊設計了按token粒度計算的損失函數，可拆分的裁剪項結合加權優勢函數，既便于引入GRPO式歸一化，也兼容online filter策略的等價加權方式。

新型KL估計器：在K3估計器基礎上，團隊構造了新的KL估計方式，以在保持梯度方向準確性的同時緩解高方差問題。

借助CPGD，團隊成功訓練出MM-Eureka-CPGD-7B/32B兩個版本的推理模型，不僅顯著提升了穩定性，還進一步提高了性能表現。

值得注意的是，近期Minimax發布的M1模型中提出的CISPO優化算法也提出了相應的訓練不穩定瓶頸和基于policy gradient的改進方案，與在五月開源的CPGD算法有異曲同工之妙。

顯著性能提升，泛化能力優越

在多個數據集上的測試表明，CPGD帶來的性能提升顯著：

相較基礎模型QwenVL2.5-7B，MM-Eureka-CPGD-7B在 MMK12上提升21.8%，在MathVista和MathVision等訓練數據分布外領域上也分別提升8.5%與11.4%，展現了較好的泛化能力；
對比主流強化學習算法（GRPO、REINFORCE++、RLOO等），CPGD在穩定性、性能和泛化能力上全面領先，；在多個基準測試上，使用GRPO訓練的模型在QwenVL2.5-7B基礎上平均提升了6%，而采用CPGD的MM-Eureka-CPGD-7B則進一步將整體提升幅度擴大到11%；
在與同規模開源模型對比中，MM-Eureka-CPGD-32B模型已接近閉源模型的表現。

△不同模型的表現

其中Overall的計算是以QwenVL2.5-7B為基準。表現最佳的模型以粗體顯示，第二好的模型以下劃線顯示（不包括OpenAI-o1/GPT-4o）

△不同模型的表現

其中Overall的計算是以QwenVL2.5-32B為基準。表現最佳的模型以粗體顯示，第二好的模型以下劃線顯示（不包括OpenAI-o1/GPT-4o）

高質量多模態數學數據集MMK12

為解決現有數據集題型單一、答案不準的問題，團隊推出了MMK12數據集，覆蓋小學至高中階段、總計超過15000道多模態數學推理題，涵蓋幾何、函數、圖形推理等典型領域。

每道題都包含：

圖文題干與配圖；
標準答案；
結構化的思維鏈（Chain-of-Thought）解題過程。

評測集還額外提供了包含數學、物理、化學、生物等學科的2000道選擇題，支持跨學科、多模態推理評測。目前，MMK12已被下載超1700 次，成為多模態推理任務中的重要基準。

MM-PRM：自動化過程監督，推理路徑更可信

推理不應只關注最終答案，更重要的是每一步是否合理。為此，團隊推出 MM-PRM（多模態過程獎勵模型），關注模型“如何推理”的過程本身。

三階段全自動過程監督流程：

使用500萬條數據訓練獲得推理增強的MM-Policy模型；

結合MCTS自動生成超過70萬條推理過程標注；

基于上述數據訓練過程獎勵模型MM-PRM，對每一步推理進行評估與引導。

它具備以下優勢：

高效生成，無需人工標注：僅用1萬道K12數學題，即可生成大規模過程監督數據；
顯著提升推理路徑質量：模型推理步驟更加嚴謹，而非僅靠“撞對”答案；
跨任務泛化性強：在MMK12準確率提升近9%，在MathVista、OlympiadBench等挑戰集上同樣表現優異；
全模型適用：適配從8B到78B的多種規模模型；
訓練穩定性強：結合小學習率與軟標簽策略，有效降低訓練崩潰風險。

對強化學習與推理能力的思考

推理能力能否脫離知識獨立發展？

團隊觀察到：強化學習顯著提高了模型在“曾經答對過”的問題上的表現，但對“始終無法答對”的問題，效果有限。這表明RL主要在優化已有知識調用和推理路徑的組織上發揮作用，但無法替代知識本身的缺失。

RL比SFT泛化能力更強

通過實驗，他們發現RL在跨學科任務（如物理、化學、生物）中的泛化能力遠超SFT或CoT-SFT。以數學與物理為例，RL分別帶來12.8和10.8 分的提升，而其他方法幾乎無效。這進一步說明，強化學習可能是提升模型邏輯推理能力的關鍵路徑。

PRM與RL的結合具備潛力，值得進一步探索

目前的強化學習訓練多聚焦于最終答案的準確性，尚未充分利用推理過程中的中間監督信號。團隊認為，PRM有望成為強化學習訓練的重要補充。通過對模型每一步推理過程的打分與引導，PRM可以提供更細粒度的反饋，幫助模型在策略優化中更穩定地提升推理質量與可解釋性。未來，團隊計劃探索將PRM與RL框架相結合，以構建“結果+過程”雙重優化的多模態推理體系。這不僅有助于提升模型在復雜推理任務中的穩健性，也可能為構建可控、安全的通用推理能力奠定基礎。

他們在策略優化與過程監督兩個核心方向，分別推出MM-Eureka-CPGD 與MM-PRM，構建了一套高度自動化、可復現、訓練穩定、效果顯著的多模態推理方案。

該方案實現了準確率與推理長度的穩定提升；推理路徑的可控化與解釋性增強，以及在多個任務與模型規模上的廣泛適配與泛化能力。

目前已開源所有模型、代碼與數據，并提供完整技術報告，歡迎社區參與共建。未來，團隊將持續推進更高水平的多模態推理訓練與系統化優化，敬請關注！

開源代碼：

https://github.com/ModalMinds/MM-EUREKA

https://github.com/ModalMinds/MM-EUREKA/tree/mm-prm

技術報告：

https://arxiv.org/abs/2503.07365

https://arxiv.org/abs/2505.12504

https://arxiv.org/abs/2505.13427

MMK12數據集：

https://huggingface.co/datasets/FanqingM/MMK12

模型權重：

https://huggingface.co/FanqingM/MM-Eureka-Qwen-7B

https://huggingface.co/FanqingM/MM-Eureka-Qwen-32B

https://huggingface.co/Zkkkai/CPGD-7B

責任編輯：張燕妮來源：量子位

強化學習算法 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看