阿里千問QwQ-32B推理模型開源,比肩671B滿血DeepSeek-R1!筆記本就能跑
3月6日凌晨,阿里重磅開源全球最頂尖AI模型——通義千問QwQ-32B推理模型。
它僅用320億參數(shù),便與目前公認的開源最強6710億參數(shù)的滿血版DeepSeek-R1(370億被激活)相媲美。
甚至,QwQ-32B在多項基準(zhǔn)測試中全面超越o1-mini。
更令人興奮的是,任何人能夠直接在搭載消費級顯卡的電腦或者Mac上體驗滿血版性能。(終于,我們的5090D派上用場了)
更有開發(fā)者驚呼:AI模型徹底進入全民普及階段!
如此來看,QwQ-32B簡直堪稱「推理能力天花板」與「實用性典范」的完美結(jié)合。
蘋果機器學(xué)習(xí)研究員Awni Hannun用搭載MLX架構(gòu)的M4 Max筆記本去跑QwQ-32B,結(jié)果發(fā)現(xiàn)運行非常流暢。
如下是在8k token上的長思維過程:
已經(jīng)是上上代旗艦的3090 Ti,跑起模型來也非常之快——輸出速度可達30+token/s。
目前,阿里以寬松的Apache2.0協(xié)議將QwQ-32B全面開源,全球開發(fā)者與企業(yè)均可免費下載、商用。
魔搭社區(qū):
https://modelscope.cn/models/Qwen/QwQ-32B
Hugging Face:
https://huggingface.co/Qwen/QwQ-32B
當(dāng)然了,所有人皆可通過通義APP免費體驗最新的千問QwQ-32B模型,開啟方式——Qwen2.5 Plus+Thinking(QwQ)。
體驗地址:
https://chat.qwen.ai/?models=Qwen2.5-Plus
開源新王誕生,32B媲美DeepSeek-R1
QwQ-32B到底有多強?我們用數(shù)據(jù)來說話——
在數(shù)學(xué)AIME 2024評測集,以及評估代碼LiveCodeBenc基準(zhǔn)上,QwQ-32B均與DeepSeek-R1旗鼓相當(dāng)。
而且,其性能遠超o1-mini,甚至是相同尺寸基于Qwen系列蒸餾出的R1模型。
在LeCun領(lǐng)銜的「最難LLMs評測榜」LiveBench、谷歌等提出的指令遵循能力IFEval評測集、由UC伯克利等提出的評估準(zhǔn)確調(diào)用函數(shù)或工具方面的BFCL測試中,QwQ-32B得分均超越了DeepSeek- R1。
總的來說,QwQ-32B在數(shù)學(xué)、編程、通用能力方面取得了領(lǐng)先優(yōu)勢。
正是通過RL的Scaling,QwQ-32B才能實現(xiàn)能與DeepSeek-R1相匹敵的性能。
艾倫人工智能研究所大佬Nathan Lambert發(fā)自內(nèi)心地贊嘆:「QwQ-32B是給RL純粹主義者最好的禮物。」
大佬開始仔細研讀阿里放出的官方材料,并且敲桌板表示:我們需要更多論文!
接下來,是對QwQ-32B的最新實測。
我們已經(jīng)部署在電腦里了
首先,來一段難度不低的數(shù)學(xué)題。
n個點在一個圓中,點出現(xiàn)在圓中的位置是隨機的,求這些點出現(xiàn)在同一個半圓內(nèi)的概率。
QwQ-32B在經(jīng)過一大長串的思考之后,給出了正確答案。
同一道題,我們也在本地部署的Q4量化模型上進行了驗證。
雖然因為沒優(yōu)化本地環(huán)境導(dǎo)致輸出較慢,但QwQ-32B依然一次就做對了。
而OpenAI o3-mini-high可能覺得這道題非常簡單,只思考了幾秒,就開始作答。
最后,果不其然答錯了。
接下來是一道微積分,看它能不能解決高等數(shù)學(xué)問題。
可以看出,不管是本地部署的還是線上的QwQ-32B,都有著邏輯嚴(yán)謹(jǐn)、步驟清晰的解題過程。
從明確目標(biāo)到巧妙變量代換u = xe^x,再到逐步推導(dǎo)和結(jié)果驗證,成功將復(fù)雜積分轉(zhuǎn)化為簡單的對數(shù)形式,結(jié)果完全正確!
同樣的提示給到蒸餾版DeepSeek-R1-32B。
可以看到,它在經(jīng)過了漫長的思考之后,并沒有做對。
而最有趣的,還得是OpenAI o1。
它不僅答案不對,而且兩次都只說了個思路,剩下的……你自己去解吧。
再上一道推理題。
一群人開舞會,每人頭上都戴著一頂帽子帽子只有黑白兩種,黑的至少有一頂。每個人都能看到其它人帽子的顏色,卻看不到自己的主持人。先讓大家看看別人頭上戴的是什么帽子,然后關(guān)燈,如果有人認為自己戴的是黑帽子就打自己一個耳光。第一次關(guān)燈,沒有聲音于是再開燈,大家再看一遍,關(guān)燈時仍然鴉雀無聲。一直到第三次關(guān)燈,才有劈劈啪啪打耳光的聲音響起。問有多少人戴著黑帽子?
在思考過程中,QwQ-32B進行了邏輯嚴(yán)密的推斷。
最終,它給出了正確答案:3人戴著黑帽子。
本地模型同樣回答正確。
而在實測過QwQ-32B的寫作能力后,我們?nèi)滩蛔≠潎@:國內(nèi)的大模型中,又出了一個思想和文筆俱佳的文科生!
此前,DeepSeek-R1仿《過秦論》的風(fēng)格寫出的《過美利堅論》技驚四座,文采斐然。
現(xiàn)在讓QwQ-32B接受同樣的考驗。
可以看到,它首先分析了賈誼《過秦論》的特點——多用排比、對仗,氣勢磅礴,語言犀利。然后想到,自己需要考慮如何將美國的歷史事件與《過秦論》的結(jié)構(gòu)對應(yīng)起來。
難點就在于,要用文言文準(zhǔn)確表達一些現(xiàn)代概念,還要保證論點有邏輯性、層層遞進。
一番思考之后,QwQ-32B給出的回答果然精彩,文采絲毫不輸DeepSeek-R1。
相比之下,用于技術(shù)驗證的蒸餾版DeepSeek-R1-32B,在文采上就要稍遜一籌了。
另一個DeepSeek-R1驚艷全網(wǎng)的「續(xù)寫紅樓夢后八十回」,我們也把同樣的題交給了QwQ-32B,讓它續(xù)寫紅樓夢的第八十一回。
它在思考過程中,考慮到自己需要延續(xù)前作細膩的描寫、復(fù)雜的人物關(guān)系和隱喻,還要回應(yīng)埋下的伏筆,比如賈府的衰落、寶黛的愛情悲劇等。
甚至它還分析出,自己還要表現(xiàn)出原著的悲劇色彩和深刻的批判;如果要引入新角色或事件,就必須自然融入現(xiàn)有框架,不能突兀。
經(jīng)過這番思考后,它列出了第八十一回的故事梗概,看起來很像那么回事。
而按照這個梗概續(xù)寫的正文框架,雖然仍不及原作文筆,但已不無可取之處。
無需集群,筆記本都能跑
眾所周知,滿血版DeepSeek-R1非常強大,但671B參數(shù)量所帶來的龐大體積,使得它在本地部署起來十分吃力。
Hugging Face工程師Matthew Carrigan的部署過程,就是一個很好的參考。
想要在GPU上實現(xiàn)720GB(Q8量化)的顯存,花費可能要10萬美元以上。
當(dāng)然,也可以另辟蹊徑地使用CPU進行部署,只不過生成的速度會慢很多。此時,需要24條32GB的內(nèi)存才能裝下。
即便是Q4量化的版本DeepSeek-R1-Q4_K_M,也得需要404GB,仍然不小。
以谷歌開發(fā)者專家、UCL計算機系博士生Xihan Li的部署實操為例。
除了模型參數(shù)占用的內(nèi)存+顯存空間(404GB)以外,實際運行時還需額外預(yù)留一些內(nèi)存(顯存)空間用于上下文緩存(總計約500GB)。
在4×24GB顯卡(RTX 4090)和4×96GB內(nèi)存配置下,DeepSeek-R1-Q4_K_M的短文本生成的速度只有2-4 token/秒,長文本生成時速度會降至1-2token/秒。基本不可用。
相比之下,QwQ-32B本地部署則友好的多,消費級GPU單卡就能輕松部署,而且速度飛起!
比如,在Hugging Face上開源的QwQ-32B版本,以Q4量化精度為例,大小不到20GB。
不只是4-bit量化的版本,Hugging Face上還有從2位一直到8位不同的版本,最小僅需不到13GB,將本地部署的難度直接拉到最低!普通的辦公電腦都能運行得起來。
本地部署后,加載與運行也是相當(dāng)?shù)娜菀祝畮仔写a就能完成模型加載、處理問題并生成答案。
Ollama也上線了Q4版本的QwQ-32B模型,安裝Ollama后只需復(fù)制ollama run qwq到終端,即可體驗,簡直沒有門檻。
Nous Research的常駐研究員N8 Programs在X上稱贊QwQ-32B真是一個令人難以置信的進步。
他展示的是前沿推理模型在LiveBench上的得分(下圖)——LiveBench是一個全面的在線評估測試,覆蓋了廣泛的領(lǐng)域(并且通常與實際情況相符)。
可以看到,QwQ-32B的得分介于R1和o3-mini之間,但成本卻只有它們的十分之一。
強化學(xué)習(xí)「煉丹」,小模型也能逆襲
DeepSeek爆火之后,強化學(xué)習(xí)再次回到聚光燈之下,成為提升大模型/推理模型的關(guān)鍵鑰匙。
QwQ-32B成功的核心秘訣,便在于阿里云團隊開創(chuàng)性運用了大規(guī)模強化學(xué)習(xí)技術(shù)。
不過,與傳統(tǒng)方法不同的是,他們采用了多階段RL訓(xùn)練策略。
在初始階段,基于冷啟動數(shù)據(jù),針對數(shù)學(xué)、編程、通用任務(wù)上,進行了強化學(xué)習(xí)訓(xùn)練。
相較于傳統(tǒng)的獎勵模型,團隊創(chuàng)新性通過校驗答案正確性(數(shù)學(xué)任務(wù))和代碼執(zhí)行測試(編程任務(wù))提供反饋,確保模型逐步「進化」。
在RL Scaling過程中,隨著訓(xùn)練輪次推進,模型在數(shù)學(xué)、編程兩個領(lǐng)域的性能持續(xù)提升。
在第二階段,研究人員又針對通用能力進行了RL訓(xùn)練,主要使用通用獎勵模型和一些基于規(guī)則的驗證器進行訓(xùn)練。
實驗顯示,通過少量步驟的通用 RL,可以提升QwQ-32B的通用能力,最關(guān)鍵的是,其數(shù)學(xué)、編程性能沒有顯著下降。
QwQ-32B僅在320億參數(shù)規(guī)模下,推理能力直逼DeepSeek-R,恰恰驗證了「大規(guī)模強化學(xué)習(xí)+強大基座模型」是通往AGI的關(guān)鍵路徑。
此外,QwQ-32B不只是一個推理模型,還集成了先進的Agent相關(guān)能力。不僅在使用工具時批判性思考,還能根據(jù)環(huán)境反饋動態(tài)調(diào)整策略。
下一步,阿里還將繼續(xù)探索智能體與強化學(xué)習(xí)的深度融合,目標(biāo)直指長時推理,最終實現(xiàn)AGI。
開源先鋒,引領(lǐng)全球AI新格局
這次QwQ-32B滿血版開源,絕不是個例,而是阿里云開源戰(zhàn)略中的一個環(huán)節(jié)。
在全球人工智能浪潮席卷之下,開源早已成為推動技術(shù)創(chuàng)新的重要引擎。
作為國內(nèi)最早開源自研大模型的「大廠」,阿里云也是全球唯一一家積極研發(fā)先進AI模型,且全方位開源的云計算廠商。
自2023年8月以來,通義系列累計推出了從Qwen、Qwen1.5、Qwen2到Qwen2.5數(shù)十款大模型,覆蓋5億到千億級別的參數(shù)規(guī)模,并開源了超200款模型,支持29種語言。
這一壯舉,標(biāo)志著阿里云在業(yè)界率先實現(xiàn)了「全尺寸、全模態(tài)、多場景」的開源。
開源的Qwen系列憑借卓越的性能,數(shù)次登頂國內(nèi)外權(quán)威榜單,還多次沖上HuggingFace、Github熱榜,成為開發(fā)者心中的「爆款」。
2024年,僅Qwen2.5-1.5B一款模型就占據(jù)了HuggingFace全球模型下載量的26.6%,位列第一。
才剛剛開源的QwQ-32B,就已經(jīng)有眾多來自不同國家、說著不同語言的的開發(fā)者,在第一時間都直接用上了,而且好評如潮。
我們都知道,開源的真諦在于,眾人拾柴火焰高。
目前,Qwen衍生模型數(shù)量突破10萬,遠超Llama系列,成為全球最大的生成式語言模型族群。
阿里云的開源戰(zhàn)略不僅體現(xiàn)在技術(shù)輸出,更在于推動普惠AI的初心——讓中小企業(yè)和開發(fā)者能夠以最低成本、更快速度用上AI,加速大模型應(yīng)用落地。
另外,通過魔搭ModelScope社區(qū),阿里云還聯(lián)合1000萬開發(fā)者,打造出中國最大的AI開源生態(tài)。
阿里云堅信,開源是推動技術(shù)創(chuàng)新的關(guān)鍵。
通義千問系列的開源,不僅僅是一場技術(shù)狂歡,更是一次生態(tài)革命。從技術(shù)突破到生態(tài)賦能,他們正用實際行動詮釋了技術(shù)普惠的深刻內(nèi)涵。
正如其愿景所言,通過開源與合作,推動中國大模型生態(tài)的繁榮,助力全球AI技術(shù)邁向新高度。
在這條路上,通義千問無疑成為一顆耀眼的明星,照亮了AI的未來。