成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

只訓練數學,卻在物理化學生物戰勝o1!新強化學習算法帶來顯著性能提升,還緩解訓練崩潰問題

人工智能 新聞
來自上海創智學院、上海AI Lab的MM-Eureka系列工作提出了新的強化學習算法CPGD(Clipped Policy Gradient Optimization with Policy Drift)——

只訓練數學,卻在物理化學生物戰勝o1!強化學習提升模型推理能力再添例證。

來自上海創智學院、上海AI Lab的MM-Eureka系列工作提出了新的強化學習算法CPGD(Clipped Policy Gradient Optimization with Policy Drift)——

相比于傳統GRPO、RLOO等算法顯著緩解了訓練不穩定(甚至崩潰)的問題,并帶來顯著性能提升。

在多個基準測試上,使用GRPO訓練的模型在QwenVL2.5-7B基礎上平均提升了6%,而采用CPGD的MM-Eureka-CPGD-7B則進一步將整體提升幅度擴大到11%,驗證了CPGD在穩定性與性能上的雙重優勢。

具體的,相較基礎模型QwenVL2.5-7B,基于CPGD和15k多模態數學數據MMK12訓練的模型MM-Eureka-CPGD-7B在MMK12測試集(包括數學,以及訓練數據分布外領域的物理、化學、生物)上平均提升21.8%,在MathVista和MathVision等訓練數據分布外領域上也分別提升8.5%與11.4%,展現了優異的泛化能力。

模型規模擴展到MM-Eureka-CPGD-32B上則進一步在MMK12測試集上超越了o1,值得注意的是,盡管MM-Eureka-CPGD-32B只在數學數據集上進行RL訓練,但在物理、化學和生物等學科均超過了o1

圖片

△不同模型在MMK12測試集中不同學科上的表現

今年2月,他們推出MM-Eureka系列是最早在多模態領域利用大規模Rule-based RL復現DeepSeek-R1關鍵能力(例如Visual aha-moment、穩定的回答長度增長)的工作之一,并將模型、代碼、高質量多模態數據集MMK12、過程獎勵模型MM-PRM全部開源,發布三個月以來獲得了學術界和開源社區廣泛關注——模型已被下載超10000次,相關代碼庫獲得超1000 star,論文引用近100次。

近日,MM-Eureka系列工作在底層訓練框架、高質量多模態推理數據、高效穩定的RL訓練算法和過程獎勵模型等方面持續耕耘,在近期取得重要進展。

多模態強化學習框架

基于OpenRLHF,團隊構建了一個高效、可擴展的多模態強化學習框架,支持Qwen-VL、InternVL等多種模型與RL算法,包括GRPO、REINFORCE++、RLOO,以及提出的新型RL算法CPGD,并已成功訓練出Qwen2.5VL-32B、InternVL2.5-38B等大型模型。

該框架相較于已有方案(如R1-V),具備更強的可擴展性與穩定性,為大規模多模態強化學習提供了基礎設施支撐。

強化學習訓練的穩定性突破:CPGD算法

在第一階段的探索中,團隊發現移除新策略與參考模型之間的KL散度項后,規則型強化學習訓練在性能上限和資源效率方面表現更優。然而,這也極易導致訓練過程不穩定甚至崩潰。

為此,團隊在GRPO算法的基礎上,提出了雙邊裁剪、online filter以及兩階段訓練等應對方案,構建了MM-Eureka-7B與MM-Eureka-32B模型,并獲得良好結果。

盡管上述方法在實踐中有效,但仍存在繁瑣且治標不治本的問題。團隊在深入分析后發現,問題核心在于新舊策略比值的極端高值行為

為此,他們提出新算法CPGD(Clipped Policy Gradient Optimization with Policy Drift),主要特性包括:

策略比值對數化處理:在原始PPO損失基礎上,團隊將策略比值取對數,以削弱異常高值的影響,使訓練過程更穩定,解決了現有的規則型強化學習方法(如 GRPO、REINFORCE++、RLOO)常面臨訓練崩潰與梯度不穩定的問題。

引入策略漂移項(Policy Drift):在損失函數中引入新舊策略之間的KL散度項,有效約束策略變化幅度。團隊證明了CPGD對策略漂移的控制能力優于PPO,并具有理論收斂性保障。

細粒度、可實現的損失函數形式:團隊設計了按token粒度計算的損失函數,可拆分的裁剪項結合加權優勢函數,既便于引入GRPO式歸一化,也兼容online filter策略的等價加權方式。

新型KL估計器:在K3估計器基礎上,團隊構造了新的KL估計方式,以在保持梯度方向準確性的同時緩解高方差問題。

借助CPGD,團隊成功訓練出MM-Eureka-CPGD-7B/32B兩個版本的推理模型,不僅顯著提升了穩定性,還進一步提高了性能表現。

值得注意的是,近期Minimax發布的M1模型中提出的CISPO優化算法也提出了相應的訓練不穩定瓶頸和基于policy gradient的改進方案,與在五月開源的CPGD算法有異曲同工之妙。

顯著性能提升,泛化能力優越

在多個數據集上的測試表明,CPGD帶來的性能提升顯著:

  • 相較基礎模型QwenVL2.5-7B,MM-Eureka-CPGD-7B在 MMK12上提升21.8%,在MathVista和MathVision等訓練數據分布外領域上也分別提升8.5%與11.4%,展現了較好的泛化能力;
  • 對比主流強化學習算法(GRPO、REINFORCE++、RLOO等),CPGD在穩定性、性能和泛化能力上全面領先,;在多個基準測試上,使用GRPO訓練的模型在QwenVL2.5-7B基礎上平均提升了6%,而采用CPGD的MM-Eureka-CPGD-7B則進一步將整體提升幅度擴大到11%;
  • 在與同規模開源模型對比中,MM-Eureka-CPGD-32B模型已接近閉源模型的表現。

圖片

△不同模型的表現

其中Overall的計算是以QwenVL2.5-7B為基準。表現最佳的模型以粗體顯示,第二好的模型以下劃線顯示(不包括OpenAI-o1/GPT-4o)

圖片

△不同模型的表現

其中Overall的計算是以QwenVL2.5-32B為基準。表現最佳的模型以粗體顯示,第二好的模型以下劃線顯示(不包括OpenAI-o1/GPT-4o)

高質量多模態數學數據集MMK12

為解決現有數據集題型單一、答案不準的問題,團隊推出了MMK12數據集,覆蓋小學至高中階段、總計超過15000道多模態數學推理題,涵蓋幾何、函數、圖形推理等典型領域。

每道題都包含:

  • 圖文題干與配圖;
  • 標準答案;
  • 結構化的思維鏈(Chain-of-Thought)解題過程。

評測集還額外提供了包含數學、物理、化學、生物等學科的2000道選擇題,支持跨學科、多模態推理評測。目前,MMK12已被下載超1700 次,成為多模態推理任務中的重要基準。

圖片

MM-PRM:自動化過程監督,推理路徑更可信

推理不應只關注最終答案,更重要的是每一步是否合理。為此,團隊推出 MM-PRM(多模態過程獎勵模型),關注模型“如何推理”的過程本身。

三階段全自動過程監督流程:

使用500萬條數據訓練獲得推理增強的MM-Policy模型;

結合MCTS自動生成超過70萬條推理過程標注;

基于上述數據訓練過程獎勵模型MM-PRM,對每一步推理進行評估與引導。

它具備以下優勢:

  • 高效生成,無需人工標注:僅用1萬道K12數學題,即可生成大規模過程監督數據;
  • 顯著提升推理路徑質量:模型推理步驟更加嚴謹,而非僅靠“撞對”答案;
  • 跨任務泛化性強:在MMK12準確率提升近9%,在MathVista、OlympiadBench等挑戰集上同樣表現優異;
  • 全模型適用:適配從8B到78B的多種規模模型;
  • 訓練穩定性強:結合小學習率與軟標簽策略,有效降低訓練崩潰風險。

對強化學習與推理能力的思考

推理能力能否脫離知識獨立發展?

團隊觀察到:強化學習顯著提高了模型在“曾經答對過”的問題上的表現,但對“始終無法答對”的問題,效果有限。這表明RL主要在優化已有知識調用和推理路徑的組織上發揮作用,但無法替代知識本身的缺失

RL比SFT泛化能力更強

通過實驗,他們發現RL在跨學科任務(如物理、化學、生物)中的泛化能力遠超SFT或CoT-SFT。以數學與物理為例,RL分別帶來12.8和10.8 分的提升,而其他方法幾乎無效。這進一步說明,強化學習可能是提升模型邏輯推理能力的關鍵路徑

PRM與RL的結合具備潛力,值得進一步探索

目前的強化學習訓練多聚焦于最終答案的準確性,尚未充分利用推理過程中的中間監督信號。團隊認為,PRM有望成為強化學習訓練的重要補充。通過對模型每一步推理過程的打分與引導,PRM可以提供更細粒度的反饋,幫助模型在策略優化中更穩定地提升推理質量與可解釋性。未來,團隊計劃探索將PRM與RL框架相結合,以構建“結果+過程”雙重優化的多模態推理體系。這不僅有助于提升模型在復雜推理任務中的穩健性,也可能為構建可控、安全的通用推理能力奠定基礎。

他們在策略優化與過程監督兩個核心方向,分別推出MM-Eureka-CPGD 與MM-PRM,構建了一套高度自動化、可復現、訓練穩定、效果顯著的多模態推理方案。

該方案實現了準確率與推理長度的穩定提升;推理路徑的可控化與解釋性增強,以及在多個任務與模型規模上的廣泛適配與泛化能力。

目前已開源所有模型、代碼與數據,并提供完整技術報告,歡迎社區參與共建。未來,團隊將持續推進更高水平的多模態推理訓練與系統化優化,敬請關注!

開源代碼:

https://github.com/ModalMinds/MM-EUREKA

https://github.com/ModalMinds/MM-EUREKA/tree/mm-prm

技術報告:

https://arxiv.org/abs/2503.07365

https://arxiv.org/abs/2505.12504

https://arxiv.org/abs/2505.13427

MMK12數據集:

https://huggingface.co/datasets/FanqingM/MMK12

模型權重:

https://huggingface.co/FanqingM/MM-Eureka-Qwen-7B

https://huggingface.co/FanqingM/MM-Eureka-Qwen-32B

https://huggingface.co/Zkkkai/CPGD-7B

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-18 10:37:00

強化學習AI模型

2025-01-21 09:00:00

2025-05-28 02:25:00

2022-11-02 14:02:02

強化學習訓練

2025-02-20 09:11:28

2024-09-13 06:32:25

2024-09-14 14:00:00

AI模型

2021-07-27 15:55:01

人工智能機器學習技術

2024-03-15 15:26:00

AI數據

2025-01-17 13:41:24

2025-06-25 09:28:38

2024-10-11 13:30:00

2023-04-23 10:12:14

算法強化學習

2020-04-15 16:44:38

谷歌強化學習算法

2024-10-25 13:40:00

2023-05-04 15:53:34

強化學習開發

2025-02-03 00:00:01

Ai2o1LLM

2025-03-10 01:00:00

2025-01-14 13:20:56

2021-04-29 14:53:14

谷歌強化學習開發
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本久久一区 | 成人高清在线 | 久久爱一区 | 久久成人18免费网站 | 在线播放精品视频 | 波霸ol一区二区 | 国产精品久久久久一区二区三区 | 毛片视频免费观看 | 91国内外精品自在线播放 | 免费精品| av香蕉 | 色婷婷精品 | 成人免费大片黄在线播放 | 亚洲一区二区三区视频免费观看 | 欧美一区二区三区国产 | 色婷婷综合久久久中字幕精品久久 | 中文字幕国产日韩 | 日韩久久久久久久久久久 | 成人精品久久日伦片大全免费 | 亚洲成人精品 | 欧美日韩综合一区 | 成人网av | www.五月婷婷.com | 黄色av网站在线免费观看 | 成人免费淫片aa视频免费 | 成人欧美一区二区三区黑人孕妇 | www312aⅴ欧美在线看 | 精品国产欧美在线 | 国产区在线观看 | 区一区二区三在线观看 | 欧美久久精品 | 久久久久久免费免费 | 五月综合激情婷婷 | 99精品一区二区三区 | 四虎永久免费在线 | 99久久精品视频免费 | 粉嫩一区二区三区国产精品 | 成人福利网站 | 日韩a在线| 成人毛片在线观看 | 国产精品福利视频 |