成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

32B逆襲671BDeepSeek R1!阿里推理模型炸翻了:小到筆記本就能run,成本僅1/10!又是強(qiáng)化學(xué)習(xí)帶來驚喜!

原創(chuàng) 精選
人工智能
昨天看外媒的報(bào)道說,R1帶火了消費(fèi)級(jí)顯卡,新款游戲芯片RTX 5090被黃牛炒到150%。這是因?yàn)镈eepSeek的模型不再需要高端AI芯片,普通消費(fèi)級(jí)產(chǎn)品就能滿足運(yùn)行需求。那么QwQ-32B這波震撼之余,可能帶貨的就是M4 Max的蘋果電腦了。

編輯 | 伊風(fēng)

太震撼了。阿里直接扔了一張王炸!

QwQ-32B,一個(gè)參數(shù)量如此小的小模型,居然追平了671B的DeepSeek-R1??!

這也太卷了,看看他們給的數(shù)據(jù),真的給人看麻了:

圖片圖片

這個(gè)模型到底小到什么概念呢?評(píng)論區(qū)網(wǎng)友在用了一臺(tái)配置M4 Max芯片的蘋果電腦就跑起來了。

網(wǎng)友本人直呼震撼的程度!

小模型還有個(gè)震撼而實(shí)用的優(yōu)點(diǎn),價(jià)格真的低。API成本才R1的十分之一!

圖片圖片

一向大方的通義這次又是上線即開源,評(píng)論區(qū)一看到是Apache 2.0許可證,就開始感謝大自然的饋贈(zèng)了。這是官方給的一系列鏈接:

博客:https://qwenlm.github.io/blog/qwq-32b

HF:https://huggingface.co/Qwen/QwQ-32B

Qwen 聊天室(網(wǎng)頁試用):https://chat.qwen.ai

模型部署工具ollama也是連夜更新,緊急上線了QwQ-32B,還艾特了通義的兩位大佬表示感謝。

圖片圖片

有趣的是,追蹤到Binyuan Hui的推特,發(fā)現(xiàn)他的置頂是一張梗圖“Goodbye ChatGPT,Hello Qwen Chat”。

圖片圖片

國產(chǎn)大模型完全有底氣對(duì)ChatGPT說一聲再見了。還記得GPT-4.5推出時(shí),那種普遍覺得乏味、失望的氛圍,人們?cè)絹碓秸J(rèn)識(shí)到,傳統(tǒng)的那套訓(xùn)練技術(shù)玩的“大力出奇跡”似乎已經(jīng)走向了盡頭。

讀了QwQ-32B的博客,我們發(fā)現(xiàn):這次又是強(qiáng)化學(xué)習(xí)(RL)立大功了!

1.QwQ-32B的煉成:強(qiáng)化學(xué)習(xí)還有多少驚喜?

從阿里的技術(shù)博客我們能了解到兩點(diǎn):1.強(qiáng)化學(xué)習(xí)擴(kuò)展依然是這次性能飛躍的重中之重 2.這個(gè)方向還有很長的路能走!

在具體的訓(xùn)練上,通義團(tuán)隊(duì)分了兩個(gè)階段去做RL訓(xùn)練。

第一階段,是從冷啟動(dòng)檢查點(diǎn)(指模型已經(jīng)過了冷啟動(dòng)訓(xùn)練階段,檢查點(diǎn)相當(dāng)于“存檔”)開始,實(shí)施了一種基于結(jié)果獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RL)擴(kuò)展方法。

這里有兩個(gè)突破值得關(guān)注:首先,在初期階段,有特別針對(duì)數(shù)學(xué)和編程任務(wù)進(jìn)行了RL擴(kuò)展,相當(dāng)于對(duì)強(qiáng)推理比較重要的領(lǐng)域?qū)iT“補(bǔ)課”;其次,不同于傳統(tǒng)的獎(jiǎng)勵(lì)模型,通義團(tuán)隊(duì)采用了一個(gè)數(shù)學(xué)問題的準(zhǔn)確性驗(yàn)證器來確保最終解答的正確性,并使用代碼執(zhí)行服務(wù)器來評(píng)估生成的代碼是否能成功通過預(yù)定義的測(cè)試用例。

然后就看到隨著訓(xùn)練的持續(xù),模型性能在數(shù)學(xué)和編程領(lǐng)域穩(wěn)定拉升。

第二階段,是旨在提升通用能力的RL訓(xùn)練。他們?cè)谶@個(gè)過程中,采取的是通用獎(jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)和一些基于規(guī)則的驗(yàn)證器。

通義團(tuán)隊(duì)說,他們發(fā)現(xiàn):“通過少量步驟的訓(xùn)練,其他一般能力(如指令跟隨、人類偏好對(duì)齊、智能體性能等)得到了提升,同時(shí)數(shù)學(xué)和編程能力并未出現(xiàn)顯著下降。”這句話的分量大家都能懂……大模型訓(xùn)練經(jīng)常是只能顧一頭,沒有明顯的性能折損大大驗(yàn)證了這個(gè)策略的有效性。

通義也在博客寫了未來方向:通過這一歷程,我們不僅見證了擴(kuò)展強(qiáng)化學(xué)習(xí)(RL)的巨大潛力,也認(rèn)識(shí)到了預(yù)訓(xùn)練語言模型尚未開發(fā)的可能性。 

看來新的Scaling Law真的會(huì)在后訓(xùn)練階段了!

2.網(wǎng)友實(shí)測(cè):本地人工智能時(shí)代來臨!

一位進(jìn)行了實(shí)測(cè),發(fā)現(xiàn)QwQ-32B 在筆記本電腦上運(yùn)行得相當(dāng)絲滑。

在這里,它在裝有 MLX 的 M4 Max 上運(yùn)行良好。它的 8k 代幣長思考過程的一個(gè)片段:

圖片圖片

另一位網(wǎng)友采用本地部署,推斷了一個(gè)比較復(fù)雜的推理題目:

有兩座房子,從左到右依次編號(hào)為1到2。 每間房子都住著不同的人。 每所房子都有一個(gè)獨(dú)特的屬性,分別代表以下特征:每個(gè)人都有一個(gè)獨(dú)特的名字:Arnold, Eric;每個(gè)人都擁有獨(dú)特的汽車型號(hào):ford f150, tesla model 3;人們飼養(yǎng)獨(dú)特的動(dòng)物:貓、馬。

線索:1. 埃里克在擁有特斯拉 Model 3 的人的正前方左邊。養(yǎng)馬的人在第一間房子里。

圖片圖片

QwQ-32B僅用了40s的思考時(shí)間就給出了正確答案。

評(píng)論區(qū)說:這是真正的本地人工智能力量!

圖片圖片

也有人表示:太遺憾了!你們這些人干嘛在奧特曼要開源的時(shí)候投票給o3類似模型啊?(另一個(gè)選項(xiàng)是手機(jī)可跑的端側(cè)模型)

圖片圖片

寫道這里不得不吐槽一句,OpenAI的開源是真慢啊,預(yù)熱了一下又沒影了。

圖片圖片

4.寫在最后:算力不再成為問題

昨天看外媒的報(bào)道說,R1帶火了消費(fèi)級(jí)顯卡,新款游戲芯片RTX 5090被黃牛炒到150%。這是因?yàn)镈eepSeek的模型不再需要高端AI芯片,普通消費(fèi)級(jí)產(chǎn)品就能滿足運(yùn)行需求。

那么QwQ-32B這波震撼之余,可能帶貨的就是M4 Max的蘋果電腦了。

從最初的龐然大物發(fā)展到可以家用,計(jì)算機(jī)走了幾十年的時(shí)間。從GPT-3發(fā)布后的不到五年中,我們就有了在筆電上能run起來的超強(qiáng)模型。

然后終將有一天,我們會(huì)在手機(jī)上部署更強(qiáng)悍更輕量的模型。

就像一位網(wǎng)友所說:

哦,我的天哪,現(xiàn)在每個(gè)人都會(huì)在接下來的兩周里討論QwQ-32B,DeepSeek 也會(huì)準(zhǔn)備好另一個(gè)模型,然后 OpenAI 將別無選擇,只能推出 ChatGPT 5,在 AGI 之前這一切都不會(huì)停止。

圖片圖片

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問:

51CTO AI.x社區(qū)

http://www.ekrvqnd.cn/aigc/

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2025-03-07 08:30:00

2025-03-06 08:11:25

2025-03-06 09:55:49

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-06 10:14:39

2025-04-03 15:57:48

2025-04-27 09:19:00

強(qiáng)化學(xué)習(xí)模型AI

2025-03-07 08:50:03

2025-04-11 12:10:33

2025-03-06 17:29:21

2025-06-18 02:30:00

推理能力強(qiáng)化學(xué)習(xí)大語言模型

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-03-27 10:28:32

2025-04-09 09:41:43

2025-02-08 17:47:08

2025-04-14 09:45:00

2025-05-28 11:46:52

強(qiáng)化學(xué)習(xí)模型AI

2025-02-08 14:03:25

2025-04-09 09:15:00

數(shù)據(jù)模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 九九热这里 | 日本黄色免费视频 | 特一级毛片 | 日韩国产在线 | 国产精品国产精品国产专区不片 | 免费一级片 | 国产精品揄拍一区二区久久国内亚洲精 | 四虎成人精品永久免费av九九 | 欧美在线视频不卡 | 日韩精品久久久 | 色综合久 | 国产美女久久久 | 亚洲精品视| 日韩免费网站 | 成人免费网站 | 精品国产一区二区三区日日嗨 | cao视频 | 亚洲综合大片69999 | 99久久精品免费看国产小宝寻花 | 欧美国产日韩在线观看 | 久久亚洲一区二区三区四区 | 欧美激情精品久久久久久 | 老司机深夜福利网站 | 中文字幕91 | 日韩在线视频一区 | 成人精品福利 | 日韩中文字幕 | 国产精品自拍视频 | 国产欧美日韩精品一区 | 亚洲国产一区在线 | 欧美久久久久 | 欧美一级久久精品 | 自拍偷拍欧美 | 国产精品亚洲成在人线 | 午夜视频在线观看网址 | 久久99视频精品 | 日韩免费视频 | 亚洲精品在线国产 | 久久丝袜视频 | 国产黄色av电影 | 国产一区二区日韩 |