開源大模型再添猛將!昆侖萬維Skywork-OR1系列震撼發布,推理能力比肩640B模型! 原創
在人工智能技術日新月異的今天,昆侖萬維再次以驚人的創新力震撼業界——全新升級的Skywork-OR1(Open Reasoner 1)系列中文推理大模型正式發布!這不僅是一次技術迭代,更是一場關于開源精神與AI普惠化的革命性突破。
1/20參數量,比肩640B頂級模型
Skywork-OR1系列最令人驚嘆的,莫過于其"以小博大"的卓越性能。據官方數據顯示,旗艦版本Skywork-OR1-32B雖然參數量僅為32B,卻能在多項基準測試中與參數量高達640B的DeepSeek-R1打得有來有回。這意味著什么?意味著開發者們可以用1/20的計算成本,獲得接近頂級商業模型的推理能力!
在專業測試中,Skywork-OR1-32B在美國數學邀請賽(AIME)和LiveCodeBench編程能力評測中表現尤為亮眼,成績穩居同規模模型榜首。而專精數學領域的Skywork-OR1-Math-7B更是在AIME24與AIME25測試中分別取得了69.8%和52.3%的準確率,遠超許多同類產品。
全棧開源:從權重到數據集,徹底透明
昆侖萬維此次的開源策略堪稱"業界良心"——不同于許多前沿模型僅開放權重,Skywork-OR1系列實現了真正的全棧開源:
- 模型權重全面開放
- 訓練數據集完整公開
- 全套訓練代碼無保留分享
所有資源均已上傳至GitHub和Huggingface平臺,配套的技術博客也在Notion平臺同步發布,詳細闡述了數據處理流程、訓練方法和關鍵技術發現。這種"手把手教學"式的開源,讓開發者不僅能直接使用模型,更能理解其內在機制,甚至進行二次開發!
三大模型,各有所長
此次發布的Skywork-OR1系列包含三款針對性極強的模型:
- Skywork-OR1-Math-7B:數學專項"學霸",在解決復雜數學問題上表現突出,同時具備不俗的代碼能力
- Skywork-OR1-7B-Preview:全能型選手,數學與代碼能力兼備,適合多種應用場景
- Skywork-OR1-32B-Preview:旗艦"大腦",專為高復雜度任務設計,推理能力最為強悍
值得注意的是,7B和32B版本目前仍處于Preview階段,官方表示將在兩周內發布正式版本,并配套更為詳盡的技術報告。
Model | AIME24 (Avg@32) | AIME25 (Avg@32) | LiveCodeBench (8/1/24-2/1/25) (Avg@4) |
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 39.2 | 37.6 |
Light-R1-7B-DS | 59.1 | 44.3 | 39.5 |
DeepSeek-R1-Distill-Qwen-32B | 72.9 | 59.0 | 57.2 |
TinyR1-32B-Preview | 78.1 | 65.3 | 61.6 |
QwQ-32B | 79.5 | 65.3 | 61.6 |
DeepSeek-R1 | 79.8 | 70.0 | 65.9 |
Skywork-OR1-Math-7B | 69.8 | 52.3 | 43.6 |
Skywork-OR1-7B-Preview | 63.6 | 45.8 | 43.9 |
Skywork-OR1-32B-Preview | 79.7 | 69.0 | 63.9 |
訓練效率提升50%的秘訣
Skywork-OR1系列的性能飛躍,離不開昆侖萬維在訓練策略上的多項創新:
- 高質量數據集構建:團隊精心篩選了11萬道數學題目和13.7k條高質量代碼問題,通過人類審閱+LLM自動判題雙重機制確保數據質量
- 多階段訓練策略:采用GRPO(Group Relative Policy Optimization)等先進方法,動態剔除低質量樣本,使訓練效率提升50%
- 動態數據過濾:通過驗證性、正確性和挑戰性三重標準嚴格篩選訓練數據
這些技術創新不僅縮短了訓練時間,更顯著提升了模型在復雜推理任務中的表現。
免費商用
最令人振奮的是,Skywork-OR1系列不僅開源,還支持完全免費商用!這一舉措將極大降低AI技術應用門檻,讓中小企業和個人開發者也能用上頂級推理模型。
在AI技術日益成為核心競爭力的今天,昆侖萬維用實際行動踐行了"技術平權"的理念。正如一位開發者所言:"這不僅是模型的開放,更是機會的開放。"
本文轉載自公眾號AI 博物院 作者:longyunfeigu
原文鏈接:??https://mp.weixin.qq.com/s/HWiNKhzlUV08BdEo9eXUxw??
