成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

450美元訓練一個「o1-preview」?UC伯克利開源32B推理模型Sky-T1,AI社區沸騰了

人工智能 新聞
近日,加州大學伯克利分校天空計算實驗室的研究團隊 NovaSky 發布了 Sky-T1-32B-Preview。有趣的是,團隊表示:「Sky-T1-32B-Preview 的訓練成本不到 450 美元,這表明可以經濟、高效地復制高級推理能力。」

450 美元的價格,乍一聽起來不算「小數目」。但如果,這是一個 32B 推理模型的全部訓練成本呢?

是的,當時間來到 2025 年,推理模型正變得越來越容易開發,且成本迅速降低到我們此前無法想象的程度。

近日,加州大學伯克利分校天空計算實驗室的研究團隊 NovaSky 發布了 Sky-T1-32B-Preview。有趣的是,團隊表示:「Sky-T1-32B-Preview 的訓練成本不到 450 美元,這表明可以經濟、高效地復制高級推理能力。」

圖片


  • 項目主頁:https://novasky-ai.github.io/posts/sky-t1/
  • 開源地址:https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview

據官方信息,這款推理模型在多個關鍵基準測試中與 OpenAI o1 的早期版本相媲美。

圖片

重點是,Sky-T1 似乎是第一個真正開源的推理模型,因為團隊發布了訓練數據集以及必要的訓練代碼,任何人都可以從頭開始復制。

大家驚呼:「數據、代碼和模型權重,多么驚人的貢獻。」

圖片

不久前,訓練一個具有同等性能的模型的價格往往高達數百萬美元。合成訓練數據或由其他模型生成的訓練數據,讓成本實現了大幅降低。

此前,一家 AI 公司 Writer 發布的 Palmyra X 004 幾乎完全基于合成數據進行訓練,開發成本僅為 70 萬美元。

想象一下,以后我們可以在 Nvidia Project Digits AI 超級計算機上運行此程序,該超級計算機售價 3000 美元(對于超級計算機來說很便宜),可以運行多達 2000 億個參數的模型。而不久的將來,不到 1 萬億個參數的模型將由個人在本地運行。

2025 年的大模型技術演進正在加速,這感受確實很強烈。

模型概述

擅長推理的 o1 和 Gemini 2.0 flash thinking 等模型通過產生長長的內部思維鏈,解決了復雜的任務,并取得了其他方面的進步。然而,技術細節和模型權重卻無法獲取,這對學術界和開源社區的參與構成了障礙。

為此,在數學領域出現了一些訓練開放權重推理模型的顯著成果,如 Still-2 和 Journey。與此同時,加州大學伯克利分校的 NovaSky 團隊一直在探索各種技術,以發展基礎模型和指令調整模型的推理能力。

在 Sky-T1-32B-Preview 這項工作中,團隊不僅在數學方面取得了有競爭力的推理性能,而且在同一模型的編碼方面也取得了有競爭力的推理性能。

圖片


為確保這項工作能「惠及更廣泛的社區」,團隊開源了所有細節(如數據、代碼、模型權重),使社區能夠輕松復制和改進:

  •  基礎設施:在單一存儲庫中構建數據、訓練和評估模型;
  •  數據:用于訓練 Sky-T1-32B-Preview 的 17K 數據;
  •  技術細節:技術報告及 wandb 日志;
  •  模型權重:32B 模型權重。

圖片

技術細節

數據整理過程

為了生成訓練數據,團隊使用了 QwQ-32B-Preview,這是一個開源模型,其推理能力與 o1-preview 相當。團隊對數據混合進行了整理,以涵蓋需要推理的不同領域,并采用拒絕采樣程序來提高數據質量。

然后,團隊受到 Still-2 的啟發,用 GPT-4o-mini 將 QwQ trace 重寫為結構規整的版本,以提高數據質量并簡化解析。

他們發現,解析的簡便性對推理模型尤其有利。它們被訓練成以特定格式做出響應,而結果往往難以解析。例如,在 APPs 數據集上,如果不重新格式化,團隊只能假設代碼是寫在最后一個代碼塊中的,而 QwQ 只能達到約 25% 的準確率。但是,有時代碼可能寫在中間,經過重新格式化后,準確率會提高到 90% 以上。

拒絕采樣。根據數據集提供的解決方案,如果 QwQ 樣本不正確,團隊就會將其丟棄。對于數學問題,團隊會與 ground truth 解決方案進行精確匹配。對于編碼問題,團隊執行數據集中提供的單元測試。團隊的最終數據包含來自 APPs 和 TACO 的 5k 編碼數據,以及來自 AIME、MATH 和 NuminaMATH 數據集的 Olympiads 子集的 10k 數學數據。此外,團隊還保留了來自 STILL-2 的 1k 科學和謎題數據。

訓練

團隊使用訓練數據來微調 Qwen2.5-32B-Instruct,這是一個不具備推理能力的開源模型。該模型采用 3 個 epoch、學習率 1e-5 和 96 的批大小進行訓練。使用 DeepSpeed Zero-3 offload(根據 Lambda Cloud 的定價約為 450 美元),在 8 個 H100 上用 19 個小時完成模型訓練。團隊使用了 Llama-Factory 進行訓練。

評估結果

Sky-T1 在 MATH500(「競賽級」數學挑戰)上的表現優于 o1 的早期預覽版本,還在一組來自 LiveCodeBench(一種編碼評估)的難題上擊敗了 o1 的預覽版本。然而,Sky-T1 不如 GPQA-Diamond 上的 o1 預覽版,后者包含博士畢業生應該了解的物理、生物和化學相關問題。

圖片

不過,OpenAI 的 o1 GA 版本比 o1 的預覽版更強大,并且 OpenAI 預計將在未來幾周發布性能更佳的推理模型 o3。

值得重視的新發現

模型大小很重要。團隊最初嘗試在較小的模型(7B 和 14B)上進行訓練,但觀察到的改進不大。例如,在 APPs 數據集上訓練 Qwen2.5-14B-Coder-Instruct 在 LiveCodeBench 上的性能略有提高,從 42.6% 提高到 46.3%。然而,在手動檢查較小模型(小于 32B 的模型)的輸出時,團隊發現它們經常生成重復內容,從而限制了它們的有效性。

數據混合很重要。團隊最初使用 Numina 數據集(由 STILL-2 提供)中的 3-4K 個數學問題訓練 32B 模型,AIME24 的準確率從 16.7% 顯著提高到 43.3%。然而,將 APPs 數據集生成的編程數據納入訓練過程時,AIME24 的準確率下降到 36.7%。可能意味著,這種下降是由于數學和編程任務所需的推理方法不同。

編程推理通常涉及額外的邏輯步驟,如模擬測試輸入或內部執行生成的代碼,而數學問題的推理往往更為直接和結構化。為了解決這些差異,團隊使用 NuminaMath 數據集中具有挑戰性的數學問題和 TACO 數據集中復雜的編程任務來豐富訓練數據。這種均衡的數據混合使模型在兩個領域都表現出色,在 AIME24 上恢復了 43.3% 的準確率,同時也提高了其編程能力。

與此同時,也有研究者表示了懷疑:

圖片

圖片


責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-14 09:20:00

模型數據訓練

2025-04-18 08:42:52

模型推理AI

2025-04-10 10:02:43

2025-04-30 09:09:00

2023-04-07 09:28:31

模型訓練

2025-01-20 13:08:25

2025-02-11 16:17:42

2025-05-21 08:53:00

2024-09-23 16:00:00

AI模型測評

2024-09-24 11:01:03

2025-02-13 08:30:00

2024-09-23 14:46:27

2025-06-18 02:30:00

推理能力強化學習大語言模型

2025-04-27 09:19:00

強化學習模型AI

2023-12-04 18:56:03

AI模型

2025-03-10 07:00:00

阿里開源QwQ-32B

2024-12-20 14:30:00

2025-03-06 17:29:21

2025-04-21 08:52:00

大語言模型生成AI

2025-06-03 08:38:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线观看日韩 | 麻豆国产一区二区三区四区 | 精品九九| 日韩亚洲视频 | 欧美精 | 91精品国产综合久久久动漫日韩 | 久久精品二区亚洲w码 | 一区二区在线 | 一区二区免费看 | 久久伊人在 | 欧美成人第一页 | 人人人人爽 | 亚洲午夜视频在线观看 | 麻豆av电影网 | 九九导航| 国产不卡一 | 99av成人精品国语自产拍 | 久久丝袜 | 夜夜爽99久久国产综合精品女不卡 | 欧美精品久久久久 | 日韩插插 | 中文字幕成人网 | 亚洲欧洲精品一区 | 久草视频在线播放 | 国产精品黄色 | 在线观看中文字幕 | 日韩网站在线观看 | 一级片在线观看 | 亚洲精品一区二区三区在线观看 | xnxx 日本免费 | 国产高清免费视频 | 日韩精品久久久久 | 能看的av | 99亚洲| 九九九视频精品 | 五十女人一级毛片 | 久久33 | 一级毛片免费看 | 麻豆天堂 | 91九色在线观看 | 欧美国产日韩精品 |