成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

32B逆襲671BDeepSeek R1!阿里推理模型炸翻了:小到筆記本就能run,成本僅1/10!又是強化學習帶來驚喜! 原創

發布于 2025-3-6 12:40
瀏覽
0收藏

編輯 | 伊風

出品 | 51CTO技術棧(微信號:blog51cto)

太震撼了。阿里直接扔了一張王炸!

QwQ-32B,一個參數量如此小的小模型,居然追平了671B的DeepSeek-R1??!

這也太卷了,看看他們給的數據,真的給人看麻了:

32B逆襲671BDeepSeek R1!阿里推理模型炸翻了:小到筆記本就能run,成本僅1/10!又是強化學習帶來驚喜!-AI.x社區圖片

這個模型到底小到什么概念呢?評論區網友在用了一臺配置M4 Max芯片的蘋果電腦就跑起來了。

網友本人直呼震撼的程度!

32B逆襲671BDeepSeek R1!阿里推理模型炸翻了:小到筆記本就能run,成本僅1/10!又是強化學習帶來驚喜!-AI.x社區

小模型還有個震撼而實用的優點,價格真的低。API成本才R1的十分之一!

32B逆襲671BDeepSeek R1!阿里推理模型炸翻了:小到筆記本就能run,成本僅1/10!又是強化學習帶來驚喜!-AI.x社區圖片

一向大方的通義這次又是上線即開源,評論區一看到是Apache 2.0許可證,就開始感謝大自然的饋贈了。這是官方給的一系列鏈接:

博客:??https://qwenlm.github.io/blog/qwq-32b??

HF:??https://huggingface.co/Qwen/QwQ-32B??

Qwen 聊天室(網頁試用):??https://chat.qwen.ai??

模型部署工具ollama也是連夜更新,緊急上線了QwQ-32B,還艾特了通義的兩位大佬表示感謝。

32B逆襲671BDeepSeek R1!阿里推理模型炸翻了:小到筆記本就能run,成本僅1/10!又是強化學習帶來驚喜!-AI.x社區圖片

有趣的是,追蹤到Binyuan Hui的推特,發現他的置頂是一張梗圖“Goodbye ChatGPT,Hello Qwen Chat”。

32B逆襲671BDeepSeek R1!阿里推理模型炸翻了:小到筆記本就能run,成本僅1/10!又是強化學習帶來驚喜!-AI.x社區圖片

國產大模型完全有底氣對ChatGPT說一聲再見了。還記得GPT-4.5推出時,那種普遍覺得乏味、失望的氛圍,人們越來越認識到,傳統的那套訓練技術玩的“大力出奇跡”似乎已經走向了盡頭。

讀了QwQ-32B的博客,我們發現:這次又是強化學習(RL)立大功了!

1.QwQ-32B的煉成:強化學習還有多少驚喜?

從阿里的技術博客我們能了解到兩點:1.強化學習擴展依然是這次性能飛躍的重中之重 2.這個方向還有很長的路能走!

在具體的訓練上,通義團隊分了兩個階段去做RL訓練。

第一階段,是從冷啟動檢查點(指模型已經過了冷啟動訓練階段,檢查點相當于“存檔”)開始,實施了一種基于結果獎勵的強化學習(RL)擴展方法。

這里有兩個突破值得關注:首先,在初期階段,有特別針對數學和編程任務進行了RL擴展,相當于對強推理比較重要的領域專門“補課”;其次,不同于傳統的獎勵模型,通義團隊采用了一個數學問題的準確性驗證器來確保最終解答的正確性,并使用代碼執行服務器來評估生成的代碼是否能成功通過預定義的測試用例。

然后就看到隨著訓練的持續,模型性能在數學和編程領域穩定拉升。

第二階段,是旨在提升通用能力的RL訓練。他們在這個過程中,采取的是通用獎勵模型的獎勵和一些基于規則的驗證器。

通義團隊說,他們發現:“通過少量步驟的訓練,其他一般能力(如指令跟隨、人類偏好對齊、智能體性能等)得到了提升,同時數學和編程能力并未出現顯著下降?!边@句話的分量大家都能懂……大模型訓練經常是只能顧一頭,沒有明顯的性能折損大大驗證了這個策略的有效性。

通義也在博客寫了未來方向:通過這一歷程,我們不僅見證了擴展強化學習(RL)的巨大潛力,也認識到了預訓練語言模型尚未開發的可能性。 

看來新的Scaling Law真的會在后訓練階段了!

2.網友實測:本地人工智能時代來臨!

一位進行了實測,發現QwQ-32B 在筆記本電腦上運行得相當絲滑。

在這里,它在裝有 MLX 的 M4 Max 上運行良好。它的 8k 代幣長思考過程的一個片段:

32B逆襲671BDeepSeek R1!阿里推理模型炸翻了:小到筆記本就能run,成本僅1/10!又是強化學習帶來驚喜!-AI.x社區圖片

另一位網友采用本地部署,推斷了一個比較復雜的推理題目:

有兩座房子,從左到右依次編號為1到2。 每間房子都住著不同的人。 每所房子都有一個獨特的屬性,分別代表以下特征:每個人都有一個獨特的名字:Arnold, Eric;每個人都擁有獨特的汽車型號:ford f150, tesla model 3;人們飼養獨特的動物:貓、馬。

線索:1. 埃里克在擁有特斯拉 Model 3 的人的正前方左邊。養馬的人在第一間房子里。

32B逆襲671BDeepSeek R1!阿里推理模型炸翻了:小到筆記本就能run,成本僅1/10!又是強化學習帶來驚喜!-AI.x社區圖片

QwQ-32B僅用了40s的思考時間就給出了正確答案。

評論區說:這是真正的本地人工智能力量!

32B逆襲671BDeepSeek R1!阿里推理模型炸翻了:小到筆記本就能run,成本僅1/10!又是強化學習帶來驚喜!-AI.x社區圖片

也有人表示:太遺憾了!你們這些人干嘛在奧特曼要開源的時候投票給o3類似模型啊?(另一個選項是手機可跑的端側模型)

32B逆襲671BDeepSeek R1!阿里推理模型炸翻了:小到筆記本就能run,成本僅1/10!又是強化學習帶來驚喜!-AI.x社區圖片

寫道這里不得不吐槽一句,OpenAI的開源是真慢啊,預熱了一下又沒影了。

32B逆襲671BDeepSeek R1!阿里推理模型炸翻了:小到筆記本就能run,成本僅1/10!又是強化學習帶來驚喜!-AI.x社區圖片

4.寫在最后:算力不再成為問題

昨天看外媒的報道說,R1帶火了消費級顯卡,新款游戲芯片RTX 5090被黃牛炒到150%。這是因為DeepSeek的模型不再需要高端AI芯片,普通消費級產品就能滿足運行需求。

那么QwQ-32B這波震撼之余,可能帶貨的就是M4 Max的蘋果電腦了。

從最初的龐然大物發展到可以家用,計算機走了幾十年的時間。從GPT-3發布后的不到五年中,我們就有了在筆電上能run起來的超強模型。

然后終將有一天,我們會在手機上部署更強悍更輕量的模型。

就像一位網友所說:

哦,我的天哪,現在每個人都會在接下來的兩周里討論QwQ-32B,DeepSeek 也會準備好另一個模型,然后 OpenAI 將別無選擇,只能推出 ChatGPT 5,在 AGI 之前這一切都不會停止。

32B逆襲671BDeepSeek R1!阿里推理模型炸翻了:小到筆記本就能run,成本僅1/10!又是強化學習帶來驚喜!-AI.x社區圖片

本文轉載自51CTO技術棧,作者:伊風

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-3-6 14:31:11修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久99精品国产 | 亚洲精品国产成人 | 中文字幕视频一区二区 | 久草视频在线播放 | 久久久久久久国产精品 | 欧美日韩专区 | 欧美在线观看一区二区 | 日韩色视频| 精品久久久网站 | 毛片在线免费播放 | 久草视频在线播放 | 成人欧美一区二区三区黑人孕妇 | 黄色毛片网站在线观看 | 亚洲成人在线免费 | av男人的天堂在线 | 伊人精品| 国产欧美一区二区三区国产幕精品 | 中文字幕免费视频 | 一本一道久久a久久精品综合 | 午夜专区 | 久久久久中文字幕 | 国产视频h | 999视频 | 在线看片网站 | 成人精品一区二区三区中文字幕 | 亚洲成人在线免费 | 欧美黄色一区 | 成人三级av | 亚洲人成网亚洲欧洲无码 | 午夜精品一区二区三区三上悠亚 | 婷婷综合色 | 久久久久亚洲 | 人人爽人人爽 | 91精品国产自产在线老师啪 | 日韩av一区在线观看 | 九九99久久 | 精品在线一区 | 精品久久中文字幕 | 日韩成人在线免费视频 | 欧洲妇女成人淫片aaa视频 | 成人久久网 |