成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

360智腦開源Light-R1!1000美元數(shù)學上首次從零超越DeepSeek-R1-Distill

人工智能 開源
360 智腦聯(lián)合北大開源了 TinyR1-32B-Preview,從 DeepSeek-R1-Distill-Qwen-32B 訓練,在數(shù)學、科學和代碼上取得了接近 DeepSeek-R1 滿血版的優(yōu)異效果。

2025 年 3 月 4 日,360 智腦開源了 Light-R1-32B 模型,以及全部訓練數(shù)據(jù)、代碼。僅需 12 臺 H800 上 6 小時即可訓練完成,從沒有長思維鏈的 Qwen2.5-32B-Instruct 出發(fā),僅使用 7 萬條數(shù)學數(shù)據(jù)訓練,得到 Light-R1-32B,在 AIME24 測試基準中取得 76.6 分、AIME25 取得 64.6 分,在數(shù)學評測上開源首次實現(xiàn)從零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。

一周前,360 智腦聯(lián)合北大開源了 TinyR1-32B-Preview,從 DeepSeek-R1-Distill-Qwen-32B 訓練,在數(shù)學、科學和代碼上取得了接近 DeepSeek-R1 滿血版的優(yōu)異效果。Light-R1-32B 則不依賴 DeepSeek-R1-Distill,從沒有長思維鏈的模型出發(fā),在數(shù)學上從零復現(xiàn)并超越了 DeepSeek-R1-Distill-Qwen-32B。360 智腦希望這些工作助力開源社區(qū)發(fā)展。

圖片

注:表中為 64 次采樣均分,較 16 次平均更穩(wěn)定;其他開源模型截取開源匯報的結果,若沒有則測試 64 次取均分。

  • 模型倉庫:https://huggingface.co/qihoo360/Light-R1-32B
  • 項目地址:https://github.com/Qihoo360/Light-R1

低成本從零超越,領域專精

DeepSeek-R1 模型發(fā)布以來,盡管許多開源工作試圖在 72B 或更小的模型上復現(xiàn)長思維鏈的 DeepSeek-R1 的性能,但至今還沒有在 AIME24 等高難度數(shù)學競賽中達到接近 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成績。

360 智腦開源的 Light-R1-32B 實現(xiàn)了突破,從沒有長思維鏈的 Qwen2.5-32B-Instruct 開始訓練,它在 AIME24 上取得了 76.6 的高分、在 AIME25 上 64.6 分,均顯著超越 DeepSeek-R1-Distill-Qwen-32B。

Light-R1-32B 的這套從零訓練的方案,按 H800 租用價格估算,訓練成本僅需 1000 美元左右。僅使用了 7 萬條數(shù)學數(shù)據(jù),通過兩階段的課程學習 SFT 接著 DPO,即可超過 DeepSeek-R1-Distill-Qwen-32B,12 臺 H800 機器的訓練時長僅需 6 小時以內(約 4+0.5+0.5 小時)。

雖然僅使用數(shù)學數(shù)據(jù)訓練了模型的長思維鏈能力,但在 GPQA Diamond 任務上的優(yōu)秀結果,讓我們相信 Light-R1 的訓練方案的泛化性及有效性。相比于內部目前正在研發(fā)的強化學習路線,Light-R1 的課程學習 SFT+DPO 對整個訓練流程更輕便,成本也更友好。隨著訓練和推理技術的不斷發(fā)展,未來長思維鏈模型將更加普及,Light-R1 正為低成本快速訓練一個領域專精推理模型提供了重要參考。

全量開源,簡單易用

Light-R1 開源首日即開源全量訓練和評測資產(chǎn):

  • Light-R1-32B 模型:沿用 Qwen2.5-32B Apache 2.0 License;
  • 課程學習 SFT+DPO 數(shù)據(jù)集:兩階段課程學習 SFT 和 DPO 的全部數(shù)據(jù);
  • 360-LLaMA-Factory 訓練框架:在長思維鏈數(shù)據(jù) Post-Training(尤其是 DPO)上解鎖序列并行;
  • 完整評測代碼和結果:基于 DeepScaleR 的評測工具,Light-R1-32B 的原始采樣結果也在 Huggingface 模型目錄下。

Fully open at Day 1,確保可信度和可復現(xiàn)性。360 智腦也正在探索強化學習續(xù)訓,未來性能有望進一步提升。

Light-R1-32B 基于 Qwen tokenizer 增加了個別特殊 token。使用 Light-R1-32B 模型時,因其長思維鏈能力目前僅通過數(shù)學數(shù)據(jù)訓練,故并不會對所有用戶輸入輸出長思維鏈。參照 DeepSeek 的推理建議,我們在聊天模板中硬編碼了 < think> token 強制其思考。建議使用較新版本的 vLLM 或 SGLang 進行推理。

課程 SFT+DPO,穩(wěn)步提升

數(shù)據(jù)準備

訓練用的數(shù)學題來自 OpenR1-Math-220k、OpenThoughts-114k、Omni-MATH、AIME(截至 2023 年)等多個開源的數(shù)學數(shù)據(jù)集,并對 AIME、MATH、GPQA 等基準測試的數(shù)據(jù)泄露去除了污染的題目。

數(shù)學題的答案抓取了 DeepSeek-R1 的結果并經(jīng)過驗證過濾。同時使用 DeepScaleR-1.5B-Preview 進行采樣根據(jù)回答正確率估算題目的難度分級。

圖片

課程學習 SFT+DPO

基于 Qwen2.5-32B-Instruct,依次進行 Post-Training:

  • SFT 階段 1:根據(jù)驗證結果和難度分級初篩,得到 7 萬條數(shù)據(jù)進行 SFT;
  • SFT 階段 2:在 SFT 階段 1 之后,篩選出難度最大的 3 千條數(shù)據(jù),進行 SFT;
  • DPO 階段:在 SFT 階段 2 之后,在 3 千條數(shù)據(jù)上多次采樣 Light-R1-SFT 階段 2 的回答,根據(jù)驗證結果和 DeepSeek-R1 的回答構建 DPO pair 對,進行 DPO,使用 DPO 原始 loss 或 NCA loss。

模型融合

最終,智腦團隊將 SFT 階段 2、DPO 和另一個 DPO 版本的模型(AIME24 74.7 分)融合,使用 Arcee 團隊的 mergekit 工具,得到 Light-R1-32B。這兩個 DPO 版本在訓練數(shù)據(jù)和超參上略有不同。

整個訓練流程中,每一步的提升都在前文的表格中體現(xiàn)。在完全沒訓練的科學類題目評測 GPQA 上,數(shù)學專項訓練導致了部分遺忘,但 Light-R1-32B 也體現(xiàn)了較強的泛化性。

數(shù)據(jù)去重,助力開源生態(tài)

基準測試分數(shù)既有其重要性,也有局限性。雖然預訓練階段的個別基準測試污染難以完全避免,但在后訓練階段,應當嚴格杜絕數(shù)據(jù)污染,在訓練集中對測試數(shù)據(jù)嚴格去重。360 智腦在研發(fā)過程中發(fā)現(xiàn),雖然開源數(shù)據(jù)集對 AIME 都沒有污染,但是在 MATH-500 和 GPQA 上都存在一定污染,通過 N-gram 或純字母匹配檢測,可以發(fā)現(xiàn)原題或僅更改數(shù)字的計算題。針對這種情況,Light-R1-32B 在訓練過程中做了嚴格去重。

圖片

在開源社區(qū)中,Light-R1-32B 是首個從零訓練超越 DeepSeek-R1-Distill-Qwen-32B 的模型。Light-R1-32B 基于開源模型 Qwen2.5-32B-Instruct 和 DeepSeek-R1 和多個開源數(shù)據(jù),使用開源框架 360-LLaMA-Factory 訓練,使用開源項目 DeepScaleR 和 verl 評測。360 希望通過 Light-R1-32B 和上周開源的 TinyR1 等工作助力開源生態(tài)發(fā)展,加速中國 AI。

注:本文 “從零” 表示從沒有長思維鏈的模型開始訓練

圖片

團隊成員:Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-03 14:17:27

2025-04-21 08:42:00

模型開源AI

2025-01-27 12:30:07

2025-02-19 08:00:00

2025-04-23 15:23:25

AI模型代碼

2025-02-11 08:35:30

2025-02-20 15:32:28

2025-02-17 09:33:00

AI算法模型

2025-02-07 13:10:06

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-03-12 13:55:05

2025-03-13 11:07:30

2025-06-17 17:14:01

DeepSeekSOTA開源

2025-03-05 10:21:04

DeepSeekLVLM

2025-02-19 08:33:18

2025-02-17 10:40:00

DeepSeek模型AI

2025-02-25 08:20:50

AI程序員DeepSeek
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久一区 | 色资源站| 精品99久久久久久 | 欧美一级视频免费看 | 天堂色| 欧美激情区 | 午夜资源 | 日韩久久久久久久久久久 | 精品福利av导航 | 亚洲最大av网站 | 亚洲播放一区 | 欧美成年网站 | 国产精品久久久久久一级毛片 | 久久伊人精品 | 久久精品欧美一区二区三区不卡 | 免费看国产一级特黄aaaa大片 | 亚洲午夜精品视频 | 中文字幕亚洲精品 | 欧美日韩一区二区三区四区五区 | 一区二区三区亚洲精品国 | 日韩三极 | 日韩一区二区免费视频 | 亚洲男人天堂av | 特级a欧美做爰片毛片 | 久久99久久久久 | 中文久久 | 久久精品一 | 亚洲福利一区 | 亚洲福利在线观看 | 午夜精品一区二区三区免费视频 | www.97zyz.com| 91中文字幕在线 | 久久久久久久av麻豆果冻 | 亚洲在线 | www.日韩免费 | 国产一区二区观看 | 日韩手机在线看片 | 国产精品久久久久久久久久免费看 | 欧美精品片 | 日韩一区中文字幕 | 久青草影院 |