阿里發布類o1模型QWQ，可自我反思糾錯，實測數學推理遠超o1、DS-R1，人人免費精華

51CTO技術棧

發布于 2024-11-29 14:37

瀏覽

0收藏

編輯 | 言征

阿里真的是開源模型界的扛把子，這次把類o1模型的預覽版也公開推出了，現在大家都可以直接在抱抱臉上體驗又一個國產版的萬能推理機了！

小編迫不及待地馬上嘗試了兩個高中奧數題，一道數列題、一道概率題，這解題思路堪稱完美閉環。全對！

阿里發布類o1模型QWQ，可自我反思糾錯，實測數學推理遠超o1、DS-R1，人人免費-AI.x社區

緊接著，我在想是不是題目太簡單，直接上了一道微積分幾何考研題，沒想到居然也答對了！真被驚到了，這還需要什么考研輔導教材，有問題，找千問就行了！

阿里發布類o1模型QWQ，可自我反思糾錯，實測數學推理遠超o1、DS-R1，人人免費-AI.x社區

1.QwQ：不斷反思、自我質疑，更聰明

QwQ-32B-Preview 是由阿里 Qwen（通義千問）團隊開發的實驗性研究模型，專注于增強 AI 推理能力。作為預覽版本，其分析推理能力可以看出已經十分讓人興奮。

Qwen官網介紹道，通過深入的探索和無數的試驗，我們發現了一個深刻的道理：當模型有足夠的時間思考、質疑和反思時，它對數學和編程的理解就會深化。

就像學生通過認真地檢查自己的工作并從錯誤中學習變得更加聰明一樣，我們的模型也通過耐心和深思熟慮的分析獲得了更深入的見解。這種細致的反思和自我質疑的過程使得模型能夠取得解決復雜問題的突破性進展。

QwQ的探索之旅揭示了模型在數學和編程領域解決一些最具挑戰性的問題的卓越能力，包括：

GPQA：一個通過研究生級別問題評估高階科學解題能力的評測集，旨在考察科學問題解決能力。

AIME：涵蓋算術、代數、計數、幾何、數論、概率等中學數學主題的綜合評測，測試數學問題解決能力。

MATH-500：包含500個測試樣本的MATH評測集，全面考察數學解題能力。

LiveCodeBench：評估真實編程場景中代碼生成和問題解決能力的高難度評測集。

然后，我們就看到QwQ的實驗結果了，其中那個Math-500非常顯眼的90.6就把小編給整的激動了。當然包含幾何、代數、概率的AIME表現也很不錯，50分，比OpenAI-o1-preview還要高出不少。

阿里發布類o1模型QWQ，可自我反思糾錯，實測數學推理遠超o1、DS-R1，人人免費-AI.x社區圖片

阿里發布類o1模型QWQ，可自我反思糾錯，實測數學推理遠超o1、DS-R1，人人免費-AI.x社區隨著采用次數增加，QwQ的表現還在持續提升

具體表現如下：

GPQA：65.2%，展示了研究生水平的科學推理能力；

AIME：50.0%，證明了強大的數學問題解決技能；

MATH-500：90.6%，體現了在各類數學主題上的全面理解；

LiveCodeBench：50.0%，驗證了在實際編程場景中的出色表現。

這些成果充分體現了QwQ在分析和問題解決能力方面的顯著進步，尤其是在需要深度推理的技術領域。

那么，如何理解官網所說的“反思、自我質疑”呢？這里給大家放一張解題過程的截圖：

阿里發布類o1模型QWQ，可自我反思糾錯，實測數學推理遠超o1、DS-R1，人人免費-AI.x社區圖片

這就像學生做出結果后還不忘記檢查一遍自己是否做錯了，做錯了還能自我修改過來，有時還會用枚舉打法，有時則會用代進結果去驗證等式是否成立，太擬人了！

果真，懂得仔細檢查的學生，更容易拿高分！

2.模型局限性

QwQ-32B-Preview 作為預覽版本，同時也存在以下局限：

語言切換問題：模型可能在回答中混合使用不同語言，影響表達的連貫性。

推理循環：在處理復雜邏輯問題時，模型偶爾會陷入遞歸推理模式，在相似思路中循環。這種行為雖然反映了模型試圖全面分析的努力，但可能導致冗長而不夠聚焦的回答。

安全性考慮：盡管模型已具備基礎安全管控，但仍需要進一步增強。它可能產生不恰當或存在偏見的回答，且與其他大型語言模型一樣，可能受到對抗攻擊的影響。團隊強烈建議用戶在生產環境中謹慎使用，并采取適當的安全防護措施。

能力差異：QwQ-32B-Preview 在數學和編程領域表現出色，但在其他領域仍有提升空間。模型性能會隨任務的復雜度和專業程度而波動。目前該團隊正在通過持續優化，努力提升模型的綜合能力。

3.網友：OpenAI除了ChatGPT商標，沒有護城河

毫無疑問，OpenAI是當今大模型圈子里的頭號玩家，許多新技術、新概念都引領者行業的發展，然而做第一個發布的人并不意味著會在市場中也能持續做到永遠第一，不管是sora還是“慢思考”推理，我們看到國產模型都有了快速的進步，甚至效果要超過OpenAI的節奏。

無怪乎hackernews上網友暗懟OpenAI：OpenAI除了ChatGPT商標之外沒有護城河。

還有網友提及，OpenAI雄厚的融資能力也并不是其護城河，因為有許多實驗室理論上比OpenAI擁有跟多的資金，FAIR、GDM、Qwen都是年利潤達100億美元的子公司，而OpenAI一年就虧損了50億美元。

阿里發布類o1模型QWQ，可自我反思糾錯，實測數學推理遠超o1、DS-R1，人人免費-AI.x社區圖片

從這個角度講，微軟是OpenAI不能松開的真大腿！

有網友還提到了，英偉達的顯卡肯定是最大的問題，但很快網友就解答了國產模型廠商的算力限制問題：許多中國科技巨頭在制裁之前就已經儲備了A100，也許還有一些H100。

在第一波制裁（禁止 A100 和 H100）之后，NVIDIA 發布了 A800 和 H800，它們是 A100 和 H100 的削弱版本。

然后是第二輪制裁，禁止 H800、A800，一直到像 A6000 和 4090 這樣弱得多的卡。因此，NVIDIA 為中國發布了 H20。H20 是一張特別有趣的卡，因為它的計算能力較弱，但 vram 更大（96 GB，而不是 H100 的典型 80 GB）。

但一個事實是——

中國大型公司通常設有海外子公司，可以從 NVidia 購買 H100 GPU。

阿里發布類o1模型QWQ，可自我反思糾錯，實測數學推理遠超o1、DS-R1，人人免費-AI.x社區圖片

話說回來，還是為咱們國產的大模型研究團隊們感到驕傲，我們的技術實力的確也贏得了全球同行的尊重。

阿里發布類o1模型QWQ，可自我反思糾錯，實測數學推理遠超o1、DS-R1，人人免費-AI.x社區圖片

“即便名字中沒有‘Open’，千問團隊、DS團隊對模型輸出更加開放，也不隱藏中間思維過程，而且公開了他們的權重參數和訓練時間和細節，包括過程中警告！”

國產模型真的是越做越好了，期待！

?本文轉載自??51CTO技術棧??，作者：言征

標簽

阿里

OpenAI

DS-R1

已于2024-11-29 15:54:30修改

贊

回復

舉報

回復

相關推薦

剛剛，OpenAI發布史上最強模型-o1，推理能力超人類博士！

Aceryt ? 2731瀏覽 ? 0回復
OpenAI發布突破性AI模型o1系列，推理能力大幅躍升重塑行業格局

芝士AI吃魚 ? 2863瀏覽 ? 0回復
OpenAI 發布新模型 o1，能夠推理復雜任務，在科學、編程和數學等領域更牛

AI洞察Insight ? 2630瀏覽 ? 0回復
OpenAI發布新模型：o1系列模型，更像理科生的模型

大語言模型論文跟蹤 ? 4353瀏覽 ? 0回復
OpenAI o1推理模型基礎入門

51CTO內容精選 ? 2514瀏覽 ? 0回復
OpenAI o1：用內部思維鏈進行復雜推理

shizhi02 ? 2664瀏覽 ? 0回復
向o1看齊，Google開源RAG推理擴展，提升近60%

NLP前沿1 ? 2227瀏覽 ? 0回復
VLM版o1超越一眾開源和閉源模型！LLaVA-o1：多階段自主推理（北大&清華&阿里等）

angel ? 2801瀏覽 ? 0回復
DeepSeek首發國產類o1模型！人人可以免費使用！

51CTO技術棧 ? 3994瀏覽 ? 0回復
解密o1推理過程！DeepSeek-R1-Lite預覽版上線

kede96 ? 3168瀏覽 ? 0回復
阿里重磅開源QwQ-32B：自我思考、糾正，數學能力擊敗o1模型

Aceryt ? 7931瀏覽 ? 0回復
大語言模型o1慢思考推理系統的破局之路：模仿、探索與自我提升的深度揭秘！

十一月雨_55 ? 4030瀏覽 ? 0回復
DeepSeek R1橫空出世，超越OpenAI o1，教你用Ollama跑起來

小虎哦哦 ? 1.5w瀏覽 ? 0回復
最簡單的推理擴展方案，效果媲美o1！

NLP前沿1 ? 1807瀏覽 ? 0回復
DeepSeek R1 Vs OpenAI o1！全球頂級推理模型訓練技術對比大解密！

51CTO技術棧 ? 6103瀏覽 ? 0回復
馬斯克發布Grok 3，趕超OpenAI o1和Deepseek R1！

AI博物院 ? 2074瀏覽 ? 0回復
o1模型醫學推理驚人，超過人類醫生

Aceryt ? 2033瀏覽 ? 0回復
Vision-R1：多模態領域的DeepSeek R1-Zero，7B參數比肩OpenAI O1

Syrupup ? 2365瀏覽 ? 0回復
思維鏈(COT)+反思(Reflection)+語言強化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平？

后向傳播 ? 566瀏覽 ? 0回復

51CTO技術棧

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂