阿里震撼發布，32B的Qwen2.5，開發者福音！實測：AI可以幫抓小偷了！原創

51CTO技術棧

發布于 2025-3-25 13:30

瀏覽

0收藏

編輯 | 伊風

出品 | 51CTO技術棧（微信號：blog51cto）

阿里今天發了Qwen2.5-VL的32B版本，達到同等規模的SOTA模型，堪稱開發者福音！

千問接連兩三次的模型發布時間都不太湊巧。今日與DeepSeek V3的更新撞車，而上次發的QwQ-32B以輕量推理模型擊敗了DeepSeek R1,但風頭完全被Manus搶走了！

連網友都直呼阿里是AI屆汪峰。

阿里震撼發布，32B的Qwen2.5，開發者福音！實測：AI可以幫抓小偷了！-AI.x社區圖片

不過話說回來，Qwen2.5-VL-32B這個模型還是很值得關注，作為阿里放出的第二大視覺模型，性能甚至超過了更大規模的 Qwen2-VL-72B-Instruct！主要有以下三方面優勢：

回復更符合人類主觀偏好：調整了輸出風格，使回答更加詳細、格式更規范，并更符合人類偏好。
數學推理能力：復雜數學問題求解的準確性顯著提升。
圖像細粒度理解與推理：在圖像解析、內容識別以及視覺邏輯推導等任務中表現出更強的準確性和細粒度分析能力。

從性能上看，Qwen2.5-VL-32B不僅在專長的視覺能力上一騎絕塵：

阿里震撼發布，32B的Qwen2.5，開發者福音！實測：AI可以幫抓小偷了！-AI.x社區圖片

連純文本能力，都達到了同規模模型的SOTA級別：

阿里震撼發布，32B的Qwen2.5，開發者福音！實測：AI可以幫抓小偷了！-AI.x社區圖片

無論是從開發者的本地部署需求出發，還是32B所做的架構更新，都有可圈可點之處。

阿里大佬Binyuan Hui表示這個模型尺寸就是為開發人員準備的。

阿里震撼發布，32B的Qwen2.5，開發者福音！實測：AI可以幫抓小偷了！-AI.x社區圖片

在X上找資料的時候，我們甚至發現網友曾向千問團隊大佬隔空喊話。千問的反饋速度可以啊，網友這波許愿成功！

阿里震撼發布，32B的Qwen2.5，開發者福音！實測：AI可以幫抓小偷了！-AI.x社區圖片

海外網友也是對該模型贊美有加，經過實測，該模型在識別物體、分析視覺效果、掃描等方面令人印象深刻！甚至能理解一小時的視頻！

阿里震撼發布，32B的Qwen2.5，開發者福音！實測：AI可以幫抓小偷了！-AI.x社區圖片

現在，Qwen2.5-VL-32B已經開源，大家可以在Qwen網頁版快速試用：

網頁版：https://chat.qwen.ai/

HF：https://huggingface.co/spaces/Qwen/Qwen2.5-VL-32B-Instruct

阿里震撼發布，32B的Qwen2.5，開發者福音！實測：AI可以幫抓小偷了！-AI.x社區圖片

加上DeepSeek的更新，今天可以說是中國開源模型的Big Day。

一位網友在Hacker News上留言說：

很快我就不會再使用任何美國模型了，而是 100% 采用中國的開源模型。（美）基礎模型公司完了，只有賣鏟子的（如 Nvidia、基礎設施公司）和產品公司會贏。

阿里震撼發布，32B的Qwen2.5，開發者福音！實測：AI可以幫抓小偷了！-AI.x社區圖片

1.案例實測：Qwen2.5-VL-32B可以做什么

雖然Qwen2.5-VL-32B并沒有類似R1的長推理能力，但是其視覺推理仍然表現出色！

先來看一個阿里blog里的demo案例：

用戶將高速的限速牌拍給了AI，并問到：我駕駛一輛大卡車行駛在這條路上，現在是 12 點鐘。我能在 13 點之前到達 110 公里多遠的地方嗎？

這個案例很有生活感了。就是咱們平時需要用的AI能力。

阿里震撼發布，32B的Qwen2.5，開發者福音！實測：AI可以幫抓小偷了！-AI.x社區圖片

然后AI就開始提取圖片的信息，開始幫人吭哧吭哧地計算了。

最后表示：目標是 13:00 之前到達。然而，根據計算，你將在 13:06 抵達，已經超過了 13:00。

阿里震撼發布，32B的Qwen2.5，開發者福音！實測：AI可以幫抓小偷了！-AI.x社區圖片

知乎網友@北方的郎，以超市的智能預警系統為例，對Qwen2.5-VL-32B進行了一把實測。感覺攝像頭配個模型就可以出去打工了。先是測試了一個形跡可疑的男人：

阿里震撼發布，32B的Qwen2.5，開發者福音！實測：AI可以幫抓小偷了！-AI.x社區圖片

模型給出了通知安保的建議。然后又用了一張正常的超市圖進行測試，還是做出了正確識別！

阿里震撼發布，32B的Qwen2.5，開發者福音！實測：AI可以幫抓小偷了！-AI.x社區圖片

再來看一下Qwen2.5-VL-32B理解視頻的能力，據網友實測，本地部署后能做長達一小時的視頻理解。不過在網頁端，則支持10分鐘以內的短視頻。

小編使用之前看華為Pura的發布會錄屏片段，詢問下智能助手小藝是如何在用戶的語音指令下，為觀看的B站視頻一鍵三連的：

阿里震撼發布，32B的Qwen2.5，開發者福音！實測：AI可以幫抓小偷了！-AI.x社區圖片

Qwen2.5-VL-32B的響應非常絲滑，而且主要的內容都get到了。不過很可惜的是，我希望AI識別出來這是目前AI大熱的智能體方向，并基于此出發談談技術實現，這一點AI稍弱一些。

阿里震撼發布，32B的Qwen2.5，開發者福音！實測：AI可以幫抓小偷了！-AI.x社區圖片

2.既要又要：更聰明、更輕量的模型是怎樣煉成的？

那么阿里是怎么做到讓32B模型如此優秀的呢？

HF中給出了一些Qwen2.5-VL的技術細節，可以猜測這仍然是32B模型進化的方面。

讓 AI 更懂視頻：動態分辨率與幀率訓練

為了讓 AI 更好地理解視頻，Qwen2.5-VL 不僅能調整分辨率，還在時間維度上引入了動態幀率（FPS）采樣。這樣一來，模型可以在不同的采樣速率下分析視頻，適應各種播放速度和場景。與此同時，mRoPE 也在時間維度上進行了升級——通過IDs（標識符）和絕對時間對齊，模型學會了理解時間序列和速度變化，甚至能精準定位關鍵時刻，讓視頻分析更智能。