成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視覺"頓悟時刻"被破解!MM-Eureka:大規模強化學習觸發多模態模型能力涌現

發布于 2025-3-10 10:25
瀏覽
0收藏

Code:??https://github.com/ModalMinds/MM-EUREKA??? 

Model:??https://huggingface.co/FanqingM/MM-Eureka-Zero-38B  ???

??https://huggingface.co/FanqingM/MM-Eureka-8B??Dataset:

??https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset??

視覺"頓悟時刻"被破解!MM-Eureka:大規模強化學習觸發多模態模型能力涌現-AI.x社區

Why We DO?

目前的研究大多未能在多模態環境中復現DeepSeek-R1的關鍵特性,如回答長度的穩定增長和準確率獎勵。例如,R1-V僅在簡單計數任務上有所改進,但未能復現回答長度增長和"頓悟時刻";R1-Multimodal-Journey探索了幾何問題,但隨著訓練進行,回答長度反而下降;LMM-R1雖然在準確率獎勵和回答長度方面取得了進步,但這種成功尚未在大規模圖文數據訓練中得到驗證。雖然Kimi1.5在多模態推理中取得了有競爭力的結果,但它并未向社區開源其模型或訓練數據。

What We do?

開源框架:我們基于OpenRLHF構建了一個可擴展的多模態大規模強化學習框架,支持包括InternVL在內的多種模型和多種RL算法。與R1-V等框架相比,我們的框架具有更強的可擴展性,成功訓練了InternVL2.5-38B等大型模型


穩定的訓練:MM-Eureka-8B基于InternVL2.5-Instruct-8B開發,MM-Eureka-Zero-38B基于InternVL2.5-Pretrained-38B開發。兩者均可以復現出穩定的accuracy reward以及response length增長,并且具備visual aha-moment!

視覺"頓悟時刻"被破解!MM-Eureka:大規模強化學習觸發多模態模型能力涌現-AI.x社區

驚人的數據效率:僅使用54K圖文數據進行規則型RL訓練,平均性能超過使用1M數據的MPO模型;整體基準準確率與使用12M數據進行CoT SFT訓練的模型相當! MM-Eureka-Zero僅使用8K圖文數學推理數據(僅為指令模型的0.05%),在我們自己構建的K12基準測試上比指令模型高出8.2%,在MathVerse上表現相當

視覺"頓悟時刻"被破解!MM-Eureka:大規模強化學習觸發多模態模型能力涌現-AI.x社區

What is Important?

極簡的RL設計足以獲得很好的效果,如果是在instruct model上進行實驗,添加KL散度往往會限制模型的探索,導致無法觀測到response length的提高。

視覺"頓悟時刻"被破解!MM-Eureka:大規模強化學習觸發多模態模型能力涌現-AI.x社區

基于難度的數據過濾策略對于RL訓練穩定性及其重要,我們發現在8B-instruct模型上訓練,如果不進行數據過濾,RL的訓練將會非常不穩定。

視覺"頓悟時刻"被破解!MM-Eureka:大規模強化學習觸發多模態模型能力涌現-AI.x社區

What We Find?

模型在RL訓練的過程中同樣會展示出類似DeepSeek-R1的aha-moment。特別得是:除了展示出反思和回溯操作,模型還學會了重新審視圖像中的關鍵信息,我們認為這個是visual aha moment的關鍵特征

視覺"頓悟時刻"被破解!MM-Eureka:大規模強化學習觸發多模態模型能力涌現-AI.x社區

What We Wanna Do?

我們在復現過程中進行了許多其他的嘗試,再次我們分享一些我們認為有幫助,但是并沒有work的操作,我們認為這并不代表這些有問題,而是需要進一步地探索。

Curriculum Learning:

得益于我們基于難度劃分數據,每個數據都有難度標簽,自然的我們把數據按難度從低到高進行RL訓練,然而我們發現這并不能使得性能獲得收益。我們認為這是因為模型在簡單題目上的學習難以直接泛化到難題,如何進行curriculum learning的數據組織仍然重要。

視覺"頓悟時刻"被破解!MM-Eureka:大規模強化學習觸發多模態模型能力涌現-AI.x社區

Online Data Filter:

我們將我們預先基于難度的數據篩選策略記為Offline Data Filter。這種方案雖然可以幫助RL進行穩定訓練,但是其數據利用率降低了,所以我們希望在模型訓練的過程中動態進行基于難度的數據篩選(類似PRIME)。但是我們發現訓練結果并不如offline data filter穩定,我們認為這是因為每次更新時候的數據量不同,導致梯度不穩定。

視覺"頓悟時刻"被破解!MM-Eureka:大規模強化學習觸發多模態模型能力涌現-AI.x社區

Model Size:

盡管目前一些工作比如ORZ,SimpleRL在7B level的LLM上也復現了R1的表現,但是我們在多模態推理場景下,難以通過8B的internvl pretrained進行成功復現。我們認為這受制于多模態推理數據質量以及多模態預訓練數據中很少存在long cot數據。

視覺"頓悟時刻"被破解!MM-Eureka:大規模強化學習觸發多模態模型能力涌現-AI.x社區

What We Hope?

我們開源了全套數據(包括我們自助收集的多模態K12數據集),代碼,以及模型等。除此之外我們推出一個詳細的技術報告(在我們的repo中),包括我們所有的復現程序以及一些未成功的嘗試。我們希望這可以幫助社區共同推理多模態推理發展。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/5c3q3Z9coOdC_L1t7Nw6wQ??


已于2025-3-10 10:48:49修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 一区视频| 国产美女久久久 | 欧美一级电影免费 | 国产一级片免费视频 | 中文字幕精品视频 | 亚洲精品一区二区三区 | 97国产精品视频人人做人人爱 | 中文字幕不卡在线观看 | 黄色大片在线播放 | 一区二区精品 | 久久国产激情视频 | 亚洲视频在线一区 | 免费精品| 九九久久国产精品 | 欧美日韩久久精品 | 国产91在线播放精品91 | 911网站大全在线观看 | 久久在线 | 久久精品国产亚洲一区二区三区 | 久久久久久电影 | 日韩色在线 | 免费在线日韩 | 久草免费在线视频 | 日韩av大片免费看 | 亚洲黄色一区二区三区 | 一区二区在线看 | 蜜桃精品噜噜噜成人av | 国产精品永久久久久 | 久久久久久久久久久91 | 久久一起草 | 中文字幕欧美一区 | 日日噜噜夜夜爽爽狠狠 | 亚洲精品乱码久久久久久久久 | 亚洲免费一 | 中文字幕日韩在线 | 久久精品69 | 丁香久久 | 韩日一区 | 成人欧美一区二区三区白人 | 亚洲国产成人av好男人在线观看 | 一级做a毛片 |