成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

4500美元驗證強化學習「魔力」,1.5B模型也能超越o1預覽版,模型、數據、代碼全開源

人工智能 新聞
DeepScaleR-1.5B-Preview 的成功,不僅展示了小模型在強化學習中的無限潛力,也證明了高效訓練策略的重要性。團隊希望通過開源數據集、代碼和訓練日志,推動 RL 在 LLM 推理中的廣泛應用。

Deepseek-R1 的卓越表現引發了廣泛關注,但其訓練方法始終未曾公開。雖然 Deepseek 的模型已開源,但其訓練方法、數據和腳本等關鍵信息仍未對外披露。

根據 Deepseek 公布的信息,許多人認為,只有訓練更大規模的模型,才能真正發揮強化學習(RL)的威力。然而,訓練大模型需要龐大的計算資源,讓開源社區望而卻步。目前的工作(如 TinyZero)僅在簡單任務上復現了所謂的 “Aha moment”,或者僅提供訓練基礎設施和數據(如 OpenR)。

一個由伯克利團隊領銜的研究小組提出了一個大膽的想法:能否用僅 1.5B 參數的小模型,以低成本復現 Deepseek 的訓練秘方?他們發現,簡單復現 Deepseek-R1 的訓練方法需要巨大成本,即使在最小的模型上也需要數十萬美元。但通過一系列訓練技巧,團隊成功將成本大幅降低,最終僅用 4500 美元,就在一個 1.5B 參數的模型上復現了 Deepseek 的關鍵訓練方法。

他們的成果 ——DeepScaleR-1.5B-Preview,基于 Deepseek-R1-Distilled-Qwen-1.5B 模型,通過強化學習(RL)微調,實現了驚人的 43.1% Pass@1 準確率,提升了 14.3%,并在 AIME 2024 競賽中超越了 O1-Preview。

這一成果不僅打破了 “大模型才能強大” 的固有認知,更展示了 RL 在小型模型中的無限可能。

更重要的是,伯克利團隊開源了所有的訓練秘方,包括模型、數據、訓練代碼和訓練日志,為推動 LLM 強化學習訓練的普及邁出了重要一步。


  • 博客地址:https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2
  • 項目地址:https://github.com/agentica-project/deepscaler
  • 項目網站:https://agentica-project.com/
  • Hugging Face 模型:https://huggingface.co/agentica-org/DeepScaleR-1.5B-Preview
  • Hugging Face 數據集:https://huggingface.co/datasets/agentica-org/DeepScaleR-Preview-Dataset
  • Wandb 訓練日志:https://wandb.ai/mluo/deepscaler-1.5b?nw=nwusermluo

這項研究一經公布,受到網友廣泛好評,有網友表示:「DeepScaleR-1.5B-Preview 正在撼動人工智能領域?!?/span>

「DeepScaleR 開創了 AI 擴展的新時代?!?/span>

「開源界又贏了一局?!?/span>

還有人盛贊:「這才是研究者想要的東西?!?/span>

1. 小模型的反擊:DeepScaleR 的秘密

挑戰 RL 的極限

強化學習一直被視為大模型的 “專屬武器”,高昂的計算成本讓很多人望而卻步。研究團隊發現,假如直接復現 Deepseek-R1 的結果 (32K 上下文長度,8000 訓練步數),即使在一個 1.5B 的小模型上,需要的 A100 GPU 時長高達 70,000 小時。但研究團隊并未退縮,他們提出了一種巧妙的策略,讓 RL 的訓練成本降低至常規方法的 5%,最終只用了 3800 A100 GPU 小時和 4500 美元,就在 1.5B 的模型上訓練出了一個超越 OpenAI o1-preview 的模型,DeepScaleR 的秘密,在于提出了一個迭代式上下文擴展的訓練策略。

迭代式上下文擴展:小步快跑,突破瓶頸

在 RL 訓練中,上下文窗口的選擇至關重要。選擇一個比較長的上下文會導致訓練變慢,而選擇一個短的上下文則可能導致模型沒有足夠的上下文去思考困難的問題。

研究團隊在訓練前進行了先驗測試,發現錯誤答案的平均長度是正確答案的 3 倍。這表明,如果直接在大窗口上進行訓練,不僅訓練速度慢,效果也可能受限,因為有效訓練的字符(token) 數量較少。

基于這個發現,因此他們采用了迭代式上下文擴展策略:

  • 8K 上下文窗口:模型先在較短的上下文中簡化自己的推理,精進推理技巧。
  • 擴展至 16K & 24K:逐步加大窗口,讓模型適應更復雜的數學推理任務。

這種策略證明是有效的 —— 在第一輪 8K 上下文訓練后,模型的平均回答長度從 9000 字符降至 3000 字符,而 AIME 測試集上的正確率提高了 5%。隨著上下文窗口擴展至 16K 和 24K,模型更簡潔的回答方式使訓練時間至少提升了兩倍。

數據集:四萬道數學難題的試煉

團隊精心構建了一套高質量的數學訓練集,包括:

  • AIME(1984-2023)
  • AMC(2023 年前)
  • Omni-MATH & Still 數據集

數據篩選的關鍵步驟:

  • 答案提?。豪?gemini-1.5-pro-002 自動提取標準答案。
  • 去重:采用 sentence-transformers/all-MiniLM-L6-v2 進行語義去重,避免數據污染。
  • 過濾不可評分題目:確保訓練數據的高質量,使模型能夠專注于可驗證的答案。

獎勵函數:精準激勵模型進步

傳統的 RL 訓練往往使用過程獎勵模型(PRM),但容易導致 “獎勵濫用”,即模型學會取巧而非真正優化推理能力。為了解決這一問題,研究團隊選擇了跟 Deepseek-R1 一樣的結果獎勵模型(ORM),嚴格按照答案正確性和格式進行評分,確保模型真正提升推理能力。

2. 實驗結果:數據不會說謊

在多項數學競賽基準測試中,DeepScaleR-1.5B-Preview 展現了驚人的實力:

關鍵突破點:

  • DeepScaleR 在 AIME 2024 上超越 O1-Preview,證明了 RL 在小模型上的可行性。
  • 在所有測試集中,DeepScaleR 的平均表現遠超基礎模型,展現了強化學習的巨大潛力。

3. 關鍵發現:為什么 DeepScaleR 能成功?

(1)RL 并非大模型專屬,小模型同樣能崛起

DeepScaleR 的成功打破了強化學習只能用于大模型的迷思。研究團隊通過高質量的 SFT 數據,讓 1.5B 小模型的 AIME 準確率從 28.9% 提升至 43.1%,證明了小模型也能通過 RL 實現飛躍。

(2)迭代式上下文擴展:比暴力訓練更高效

直接在 24K 上下文窗口中進行強化學習,效果遠不如逐步擴展。先學短推理,再擴展長推理,可以讓模型更穩定地適應復雜任務,同時減少訓練成本。

4. 結論:RL 的新紀元

DeepScaleR-1.5B-Preview 的成功,不僅展示了小模型在強化學習中的無限潛力,也證明了高效訓練策略的重要性。團隊希望通過開源數據集、代碼和訓練日志,推動 RL 在 LLM 推理中的廣泛應用。

下一步,他們計劃在更大規模的模型上復現這一策略,并邀請社區共同探索 RL 的新可能。

或許,下一個挑戰 OpenAI 的模型,就藏在這樣一個小小的實驗之中。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-11 16:17:42

2024-12-09 12:10:07

2024-09-13 06:32:25

2025-01-21 10:10:56

2025-02-03 14:17:27

2025-02-12 12:04:54

2025-04-07 02:25:00

DeepSeek模型訓練GRPO

2024-11-05 14:20:00

AI模型

2024-07-22 07:10:00

小模型機器學習蘋果

2024-09-18 09:17:00

OpenAI模型開源

2025-03-05 10:21:04

DeepSeekLVLM

2024-11-19 15:00:00

模型開源

2024-11-25 17:23:10

2025-02-19 13:50:00

明星編程軟件

2025-01-10 12:58:37

2024-09-24 11:01:03

2025-04-15 09:19:00

模型AI數據

2009-04-16 07:50:51

GoogleAndroid移動OS

2024-09-14 14:00:00

AI模型

2025-04-09 09:15:00

數據模型AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩av在线一区 | 久久久久久国模大尺度人体 | 国产一区二区三区久久 | 91久久婷婷 | 欧美日产国产成人免费图片 | www.日本在线 | 久久亚洲国产精品日日av夜夜 | 久久精品伊人 | 国产一区三区在线 | 日本午夜网 | 国产一区二区三区 | 亚洲综合99 | а_天堂中文最新版地址 | 国产精品久久久久久吹潮 | 丝袜天堂| 色免费视频 | 日韩在线观看 | 国产精品久久久久久久午夜片 | 国产剧情一区 | 伊人久久成人 | 理论片免费在线观看 | 成人在线视频一区 | 午夜精品一区二区三区在线观看 | 国产欧美视频一区二区 | 亚洲国产一区二区在线 | 色花av| 国产乱人伦 | 成人一区二 | 日韩欧美视频在线 | 午夜www| 毛片99 | 国产精品国产成人国产三级 | www.欧美.com| 日韩在线观看 | 亚洲国产高清高潮精品美女 | 天天躁人人躁人人躁狂躁 | 国产成人99久久亚洲综合精品 | 久久久91精品国产一区二区三区 | 国产精品美女久久久久aⅴ国产馆 | 黄网免费 | av电影手机版 |