阿里發布類o1模型QWQ,可自我反思糾錯,實測數學推理遠超o1、DS-R1,人人免費 精華
編輯 | 言征
阿里真的是開源模型界的扛把子,這次把類o1模型的預覽版也公開推出了,現在大家都可以直接在抱抱臉上體驗又一個國產版的萬能推理機了!
小編迫不及待地馬上嘗試了兩個高中奧數題,一道數列題、一道概率題,這解題思路堪稱完美閉環。全對!
緊接著,我在想是不是題目太簡單,直接上了一道微積分幾何考研題,沒想到居然也答對了!真被驚到了,這還需要什么考研輔導教材,有問題,找千問就行了!
1.QwQ:不斷反思、自我質疑,更聰明
QwQ-32B-Preview 是由阿里 Qwen(通義千問) 團隊開發的實驗性研究模型,專注于增強 AI 推理能力。作為預覽版本,其分析推理能力可以看出已經十分讓人興奮。
Qwen官網介紹道,通過深入的探索和無數的試驗,我們發現了一個深刻的道理:當模型有足夠的時間思考、質疑和反思時,它對數學和編程的理解就會深化。
就像學生通過認真地檢查自己的工作并從錯誤中學習變得更加聰明一樣,我們的模型也通過耐心和深思熟慮的分析獲得了更深入的見解。這種細致的反思和自我質疑的過程使得模型能夠取得解決復雜問題的突破性進展。
QwQ的探索之旅揭示了模型在數學和編程領域解決一些最具挑戰性的問題的卓越能力,包括:
GPQA:一個通過研究生級別問題評估高階科學解題能力的評測集,旨在考察科學問題解決能力。
AIME:涵蓋算術、代數、計數、幾何、數論、概率等中學數學主題的綜合評測,測試數學問題解決能力。
MATH-500:包含500個測試樣本的MATH評測集,全面考察數學解題能力。
LiveCodeBench:評估真實編程場景中代碼生成和問題解決能力的高難度評測集。
然后,我們就看到QwQ的實驗結果了,其中那個Math-500非常顯眼的90.6就把小編給整的激動了。當然包含幾何、代數、概率的AIME表現也很不錯,50分,比OpenAI-o1-preview還要高出不少。
圖片
隨著采用次數增加,QwQ的表現還在持續提升
具體表現如下:
GPQA:65.2%,展示了研究生水平的科學推理能力;
AIME:50.0%,證明了強大的數學問題解決技能;
MATH-500:90.6%,體現了在各類數學主題上的全面理解;
LiveCodeBench:50.0%,驗證了在實際編程場景中的出色表現。
這些成果充分體現了QwQ在分析和問題解決能力方面的顯著進步,尤其是在需要深度推理的技術領域。
那么,如何理解官網所說的“反思、自我質疑”呢?這里給大家放一張解題過程的截圖:
圖片
這就像學生做出結果后還不忘記檢查一遍自己是否做錯了,做錯了還能自我修改過來,有時還會用枚舉打法,有時則會用代進結果去驗證等式是否成立,太擬人了!
果真,懂得仔細檢查的學生,更容易拿高分!
2.模型局限性
QwQ-32B-Preview 作為預覽版本,同時也存在以下局限:
語言切換問題:模型可能在回答中混合使用不同語言,影響表達的連貫性。
推理循環:在處理復雜邏輯問題時,模型偶爾會陷入遞歸推理模式,在相似思路中循環。這種行為雖然反映了模型試圖全面分析的努力,但可能導致冗長而不夠聚焦的回答。
安全性考慮:盡管模型已具備基礎安全管控,但仍需要進一步增強。它可能產生不恰當或存在偏見的回答,且與其他大型語言模型一樣,可能受到對抗攻擊的影響。團隊強烈建議用戶在生產環境中謹慎使用,并采取適當的安全防護措施。
能力差異:QwQ-32B-Preview 在數學和編程領域表現出色,但在其他領域仍有提升空間。模型性能會隨任務的復雜度和專業程度而波動。目前該團隊正在通過持續優化,努力提升模型的綜合能力。
3.網友:OpenAI除了ChatGPT商標,沒有護城河
毫無疑問,OpenAI是當今大模型圈子里的頭號玩家,許多新技術、新概念都引領者行業的發展,然而做第一個發布的人并不意味著會在市場中也能持續做到永遠第一,不管是sora還是“慢思考”推理,我們看到國產模型都有了快速的進步,甚至效果要超過OpenAI的節奏。
無怪乎hackernews上網友暗懟OpenAI:OpenAI除了ChatGPT商標之外沒有護城河。
還有網友提及,OpenAI雄厚的融資能力也并不是其護城河,因為有許多實驗室理論上比OpenAI擁有跟多的資金,FAIR、GDM、Qwen都是年利潤達100億美元的子公司,而OpenAI一年就虧損了50億美元。
圖片
從這個角度講,微軟是OpenAI不能松開的真大腿!
有網友還提到了,英偉達的顯卡肯定是最大的問題,但很快網友就解答了國產模型廠商的算力限制問題:許多中國科技巨頭在制裁之前就已經儲備了A100,也許還有一些H100。
在第一波制裁(禁止 A100 和 H100)之后,NVIDIA 發布了 A800 和 H800,它們是 A100 和 H100 的削弱版本。
然后是第二輪制裁,禁止 H800、A800,一直到像 A6000 和 4090 這樣弱得多的卡。因此,NVIDIA 為中國發布了 H20。H20 是一張特別有趣的卡,因為它的計算能力較弱,但 vram 更大(96 GB,而不是 H100 的典型 80 GB)。
但一個事實是——
中國大型公司通常設有海外子公司,可以從 NVidia 購買 H100 GPU。
圖片
話說回來,還是為咱們國產的大模型研究團隊們感到驕傲,我們的技術實力的確也贏得了全球同行的尊重。
圖片
“即便名字中沒有‘Open’,千問團隊、DS團隊對模型輸出更加開放,也不隱藏中間思維過程,而且公開了他們的權重參數和訓練時間和細節,包括過程中警告!”
國產模型真的是越做越好了,期待!
?本文轉載自??51CTO技術棧??,作者:言征
