成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里半夜開源全新推理模型,QwQ-32B比肩DeepSeek-R1滿血版

人工智能
QwQ-32B 已在 Hugging Face 和 ModelScope 開源,采用了 Apache 2.0 開源協議。大家也可通過 Qwen Chat 直接進行體驗!

今天凌晨 3 點,阿里開源發布了新推理模型 QwQ-32B,其參數量為 320 億,但性能足以比肩 6710 億參數的 DeepSeek-R1 滿血版。

千問的推文表示:「這次,我們研究了擴展 RL 的方法,并基于我們的 Qwen2.5-32B 取得了一些令人印象深刻的成果。我們發現 RL 訓練可以不斷提高性能,尤其是在數學和編碼任務上,并且我們觀察到 RL 的持續擴展可以幫助中型模型實現與巨型 MoE 模型相媲美的性能。歡迎與我們的新模型聊天并向我們提供反饋!」

QwQ-32B 已在 Hugging Face 和 ModelScope 開源,采用了 Apache 2.0 開源協議。大家也可通過 Qwen Chat 直接進行體驗!

  • 博客:https://qwenlm.github.io/zh/blog/qwq-32b/
  • Hugging Face:https://huggingface.co/Qwen/QwQ-32B
  • ModelScope:https://modelscope.cn/models/Qwen/QwQ-32B
  • 演示:https://huggingface.co/spaces/Qwen/QwQ-32B-Demo
  • Qwen Chat:https://chat.qwen.ai/

本地部署工具 Ollama 也第一時間提供了支持:ollama run qwq

千問官方發布了題為「QwQ-32B: 領略強化學習之力」的官方中文博客介紹這一吸睛無數的進展。考慮到強化學習之父 Richard Sutton 與導師 Andrew Barto 剛剛獲得圖靈獎,QwQ-32B 的發布可說是非常應景。

博客中寫到,大規模強化學習(RL)非常具有潛力,在提升模型性能方面可望超越傳統的預訓練和后訓練方法。

近期的研究表明,強化學習可以顯著提高模型的推理能力。例如,DeepSeek-R1 通過整合冷啟動數據和多階段訓練,實現了最先進的性能,使其能夠進行深度思考和復雜推理。

而千問團隊則探索了大規模強化學習(RL)對大語言模型的智能的提升作用,推理模型 QwQ-32B 便由此而生。

這是一款擁有 320 億參數的模型,其性能可媲美具備 6710 億參數(其中 370 億被激活)的 DeepSeek-R1。該團隊表示:「這一成果突顯了將強化學習應用于經過大規模預訓練的強大基礎模型的有效性。」

QwQ-32B 中還集成了與 Agent(智能體)相關的能力,使其能夠在使用工具的同時進行批判性思考,并根據環境反饋調整推理過程。該團隊表示:「我們希望我們的一點努力能夠證明強大的基礎模型疊加大規模強化學習也許是一條通往通用人工智能的可行之路。」

模型效果

QwQ-32B 在一系列基準測試中進行了評估,包括數學推理、編程和通用能力。以下結果展示了 QwQ-32B 與其他領先模型的性能對比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

可以看到,QwQ-32B 的表現非常出色,在 LiveBench、IFEval 和 BFCL 基準上甚至略微超過了 DeepSeek-R1-671B。

強化學習

QwQ-32B 的大規模強化學習是在冷啟動的基礎上開展的。

在初始階段,先特別針對數學和編程任務進行 RL 訓練。與依賴傳統的獎勵模型(reward model)不同,千問團隊通過校驗生成答案的正確性來為數學問題提供反饋,并通過代碼執行服務器評估生成的代碼是否成功通過測試用例來提供代碼的反饋。

隨著訓練輪次的推進,QwQ-32B 在這兩個領域中的性能持續提升。

在第一階段的 RL 過后,他們又增加了另一個針對通用能力的 RL。此階段使用通用獎勵模型和一些基于規則的驗證器進行訓練。結果發現,通過少量步驟的通用 RL,可以提升其他通用能力,同時在數學和編程任務上的性能沒有顯著下降。

API

如果你想通過 API 使用 QwQ-32B,可以參考以下代碼示例:

未來工作

千問團隊還在博客中分享了未來計劃,其中寫到:「這是 Qwen 在大規模強化學習(RL)以增強推理能力方面的第一步。通過這一旅程,我們不僅見證了擴展 RL 的巨大潛力,還認識到預訓練語言模型中尚未開發的可能性。在致力于開發下一代 Qwen 的過程中,我們相信將更強大的基礎模型與依托規模化計算資源的 RL 相結合,將會使我們更接近實現人工通用智能(AGI)。此外,我們正在積極探索將智能體與 RL 集成,以實現長時推理,目標是通過推理時間擴展來釋放更高的智能。」

QwQ-32B 收獲無數好評

QwQ-32B 一發布就收獲了無數好評,甚至我們的不少讀者也在催促我們趕緊報道。

在前段時間的 DeepSeek 熱潮中,大家都熱衷于討論滿血版,因為蒸餾版性能受限。但是 671B 的滿血版模型無法輕易部署,普通的端側設備只能退而求其次。現在,Qwen 把模型大小打下來了,端側有希望了嗎?

有網友表示,手機上肯定還不行,但運行內存比較高的 Mac 或許可以一戰。

還有人喊話阿里巴巴通義實驗室科學家 Binyuan Hui 去做更小的模型。

還有人曬出體驗,表示運行很快:

蘋果機器學習研究者 Awni Hannun 也同樣已經在 M4 Max 上成功運行了 QwQ-32B,看起來速度非常快。

在 Qwen 的官方聊天界面(Qwen Chat),我們已經能看到 QwQ-32B 的預覽版模型。感興趣的讀者可以前去測試。

測試鏈接:https://chat.qwen.ai/

責任編輯:趙寧寧 來源: 機器之心
相關推薦

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-07 08:30:00

2025-03-07 08:50:03

2025-03-06 10:14:39

2025-04-11 12:04:58

2025-03-10 08:30:00

AI模型訓練

2025-02-12 12:45:59

2025-03-27 10:28:32

2025-03-06 09:55:49

2025-02-14 09:20:00

模型數據訓練

2025-02-13 01:00:00

2025-03-19 09:20:00

2025-04-11 14:54:44

2025-05-27 15:40:34

模型AI訓練

2025-06-12 09:48:27

2025-03-19 10:10:43

2025-03-05 03:00:00

DeepSeek大模型調優
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩毛片 | 国产一区二区三区四 | 伊人精品视频 | 99re视频| 欧美一区二区三区精品免费 | 国产999精品久久久久久 | caoporn地址| 日日操天天射 | 日日夜夜草 | www.日韩av.com| 亚洲精品视频网站在线观看 | 六月成人网 | 国产在线拍偷自揄拍视频 | 天堂视频一区 | 中文字幕在线视频免费视频 | 婷婷激情在线 | 国产精品久久久久久久久久久久 | 日日干夜夜操天天操 | 国产日韩一区二区 | 亚洲欧美视频一区二区 | 久久欧美精品 | 亚洲综合色网站 | 久久久毛片 | 国产精品视频一区二区三区四区国 | 久久国产欧美日韩精品 | 女女百合av大片一区二区三区九县 | 福利在线看 | 国内精品视频在线观看 | 日韩视频专区 | 欧美久久国产精品 | 欧美日韩国产精品一区二区 | 粉嫩一区二区三区国产精品 | av男人的天堂在线 | 亚洲一区二区三区在线视频 | 九九99精品 | 精品国产乱码久久久久久丨区2区 | 天天玩天天操天天干 | 精品伊人 | 青青草av在线播放 | 国产精品久久久久久久白浊 | 伊色综合久久之综合久久 |