成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開源推理模型RL訓(xùn)練方法

人工智能 新聞
現(xiàn)在,開源RL訓(xùn)練方法只需要用1/30的訓(xùn)練步驟就能趕上相同尺寸的DeepSeek-R1-Zero蒸餾Qwen。

DeepSeek啥都開源了,就是沒有開源訓(xùn)練代碼和數(shù)據(jù)。

現(xiàn)在,開源RL訓(xùn)練方法只需要用1/30的訓(xùn)練步驟就能趕上相同尺寸的DeepSeek-R1-Zero蒸餾Qwen

圖片

國內(nèi)大模型六小強(qiáng)之一的階躍星辰聯(lián)與清華聯(lián)合發(fā)布Open Reasoner Zero(ORZ),由AI大拿沈向洋、階躍星辰創(chuàng)始人/CEO姜大昕、ResNet作者張祥雨等一眾大佬親自署名。

圖片

在響應(yīng)長度上,用約17%的訓(xùn)練步驟就能趕上DeepSeek-R1-Zero 671B。

圖片

值得關(guān)注的是,團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)重要的轉(zhuǎn)折點(diǎn)——

在訓(xùn)練步驟約680步時(shí),模型的訓(xùn)練獎(jiǎng)勵(lì)值、反思能力和回答長度同時(shí)出現(xiàn)顯著提升,疑似出現(xiàn)了DeepSeek-R1-Zero論文中類似的“頓悟時(shí)刻”(aha moment)

目前,研究訓(xùn)練數(shù)據(jù)、訓(xùn)練代碼、論文、模型全都100%開源,開源許可證用的也是寬松的MIT Lisence。

開源48小時(shí),就已速攬700+星星。

圖片

以下是更多細(xì)節(jié)。

復(fù)雜的獎(jiǎng)勵(lì)函數(shù)不必要?!

通過廣泛的實(shí)驗(yàn),團(tuán)隊(duì)證明了一種極簡主義的方法,帶有GAE的原版PPO就可以有效地?cái)U(kuò)展RL訓(xùn)練(關(guān)鍵的參數(shù)設(shè)置是GAE λ= 1,折扣因子γ=1)

再加上基于規(guī)則的獎(jiǎng)勵(lì)函數(shù),足以在推理任務(wù)上同時(shí)擴(kuò)大響應(yīng)長度和基準(zhǔn)性能,類似于DeepSeek-R1-Zero中觀察到的現(xiàn)象。

這一結(jié)果表明復(fù)雜的獎(jiǎng)勵(lì)函數(shù)是不必要的。

圖片

另外,團(tuán)隊(duì)在不依賴任何基于KL的正則化技術(shù)的情況下實(shí)現(xiàn)了穩(wěn)定的訓(xùn)練,這與RLHF和推理模型領(lǐng)域目前的認(rèn)知不同,這也為進(jìn)一步擴(kuò)大強(qiáng)化學(xué)習(xí)規(guī)模提供了希望。

同時(shí)擴(kuò)大數(shù)據(jù)數(shù)量和多樣性對(duì)于Open Reasoner Zero的訓(xùn)練至關(guān)重要。雖然在像MATH這樣有限的學(xué)術(shù)數(shù)據(jù)集上訓(xùn)練會(huì)導(dǎo)致性能快速達(dá)到平臺(tái)期,但精心策劃的大規(guī)模多樣化數(shù)據(jù)集能夠?qū)崿F(xiàn)持續(xù)擴(kuò)展,在訓(xùn)練集和測試集上都沒有飽和的跡象。

在以Qwen2.5-Base-7B為基礎(chǔ)模型的實(shí)驗(yàn)中,所有基準(zhǔn)測試在某個(gè)時(shí)間點(diǎn)都會(huì)經(jīng)歷獎(jiǎng)勵(lì)和響應(yīng)長度的突然增加,這種現(xiàn)象類似于涌現(xiàn)行為。

圖片

在整個(gè)訓(xùn)練過程中,Average Correct Reflection Length始終高于 Average Response Length。一個(gè)特別值得注意的現(xiàn)象出現(xiàn)在第 680步附近,可以觀察到三個(gè)指標(biāo)同時(shí)加速。

圖片

最終,Open-Reasoner-Zero模型在MMLU和MMLU_PRO基準(zhǔn)測試中,無需任何額外的指令調(diào)整即可超越 Qwen2.5 Instruct。

圖片

One More Thing

昨天,在階躍星辰生態(tài)開放日上,階躍星辰創(chuàng)始人兼CEO姜大昕就有簡單提及這項(xiàng)研究。

圖片

只提了一嘴,是因?yàn)檠芯窟€未完全完成(Working in Progress),隨時(shí)可能有新進(jìn)展,感興趣的盆友可以關(guān)注一哈。

圖片

項(xiàng)目地址: 

https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-06 18:37:46

GPUQwen2.5模型

2025-04-23 15:23:25

AI模型代碼

2025-02-03 14:17:27

2025-02-08 14:03:25

2025-03-06 10:14:39

2025-02-11 16:15:09

2025-03-19 09:20:00

2025-03-11 08:37:42

2025-03-06 09:55:49

2025-04-22 09:12:00

AI模型數(shù)據(jù)

2025-02-14 09:20:00

模型數(shù)據(jù)訓(xùn)練

2025-03-06 17:29:21

2025-05-12 14:23:42

AI算法訓(xùn)練

2025-03-24 10:00:00

2025-01-21 11:53:53

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-02-11 16:17:42

2025-02-07 14:08:45

2025-03-10 07:00:00

阿里開源QwQ-32B
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 午夜爱爱网 | 97国产精品| 久久久国产一区二区三区 | 国产欧美一级二级三级在线视频 | 天天色天天射天天干 | 成人高清在线 | 免费国产视频在线观看 | 欧美一级www片免费观看 | 亚洲成人精选 | 久久er99热精品一区二区 | 伊人网伊人 | 久久精品国产免费高清 | 国产一级一级毛片 | 一区二区av | 国产区高清 | 一区视频在线播放 | 黄网站免费入口 | 中文字幕一区二区三区精彩视频 | 久久999| 超级乱淫av片免费播放 | 成人国产精品久久 | 日韩区 | 在线观看国产精品一区二区 | 搞av.com| 免费不卡av | 精品久久久久久久久久 | 久久精品国产免费看久久精品 | 亚洲成人av一区二区 | 日本羞羞影院 | 成人国产一区二区三区精品麻豆 | 色橹橹欧美在线观看视频高清 | 日韩人体视频 | 自拍偷拍亚洲一区 | 国产综合精品一区二区三区 | 亚洲天天干 | 国产免费福利小视频 | 国产成人精品av | 高清黄色毛片 | 风间由美一区二区三区在线观看 | 日韩中文字幕在线视频 | 色一级 |