阿里震撼發布,32B的Qwen2.5,開發者福音!實測:AI可以幫抓小偷了! 原創
編輯 | 伊風
出品 | 51CTO技術棧(微信號:blog51cto)
阿里今天發了Qwen2.5-VL的32B版本,達到同等規模的SOTA模型,堪稱開發者福音!
千問接連兩三次的模型發布時間都不太湊巧。今日與DeepSeek V3的更新撞車,而上次發的QwQ-32B以輕量推理模型擊敗了DeepSeek R1,但風頭完全被Manus搶走了!
連網友都直呼阿里是AI屆汪峰。
圖片
不過話說回來,Qwen2.5-VL-32B這個模型還是很值得關注,作為阿里放出的第二大視覺模型,性能甚至超過了更大規模的 Qwen2-VL-72B-Instruct!主要有以下三方面優勢:
- 回復更符合人類主觀偏好:調整了輸出風格,使回答更加詳細、格式更規范,并更符合人類偏好。
- 數學推理能力:復雜數學問題求解的準確性顯著提升。
- 圖像細粒度理解與推理:在圖像解析、內容識別以及視覺邏輯推導等任務中表現出更強的準確性和細粒度分析能力。
從性能上看,Qwen2.5-VL-32B不僅在專長的視覺能力上一騎絕塵:
圖片
連純文本能力,都達到了同規模模型的SOTA級別:
圖片
無論是從開發者的本地部署需求出發,還是32B所做的架構更新,都有可圈可點之處。
阿里大佬Binyuan Hui表示這個模型尺寸就是為開發人員準備的。
圖片
在X上找資料的時候,我們甚至發現網友曾向千問團隊大佬隔空喊話。千問的反饋速度可以啊,網友這波許愿成功!
圖片
海外網友也是對該模型贊美有加,經過實測,該模型在識別物體、分析視覺效果、掃描等方面令人印象深刻!甚至能理解一小時的視頻!
圖片
現在,Qwen2.5-VL-32B已經開源,大家可以在Qwen網頁版快速試用:
網頁版:https://chat.qwen.ai/
HF:https://huggingface.co/spaces/Qwen/Qwen2.5-VL-32B-Instruct
圖片
加上DeepSeek的更新,今天可以說是中國開源模型的Big Day。
一位網友在Hacker News上留言說:
很快我就不會再使用任何美國模型了,而是 100% 采用中國的開源模型。(美)基礎模型公司完了,只有賣鏟子的(如 Nvidia、基礎設施公司)和產品公司會贏。
圖片
1.案例實測:Qwen2.5-VL-32B可以做什么
雖然Qwen2.5-VL-32B并沒有類似R1的長推理能力,但是其視覺推理仍然表現出色!
先來看一個阿里blog里的demo案例:
用戶將高速的限速牌拍給了AI,并問到:我駕駛一輛大卡車行駛在這條路上,現在是 12 點鐘。我能在 13 點之前到達 110 公里多遠的地方嗎?
這個案例很有生活感了。就是咱們平時需要用的AI能力。
圖片
然后AI就開始提取圖片的信息,開始幫人吭哧吭哧地計算了。
最后表示:目標是 13:00 之前到達。然而,根據計算,你將在 13:06 抵達,已經超過了 13:00。
圖片
知乎網友@北方的郎,以超市的智能預警系統為例,對Qwen2.5-VL-32B進行了一把實測。感覺攝像頭配個模型就可以出去打工了。先是測試了一個形跡可疑的男人:
圖片
模型給出了通知安保的建議。然后又用了一張正常的超市圖進行測試,還是做出了正確識別!
圖片
再來看一下Qwen2.5-VL-32B理解視頻的能力,據網友實測,本地部署后能做長達一小時的視頻理解。不過在網頁端,則支持10分鐘以內的短視頻。
小編使用之前看華為Pura的發布會錄屏片段,詢問下智能助手小藝是如何在用戶的語音指令下,為觀看的B站視頻一鍵三連的:
圖片
Qwen2.5-VL-32B的響應非常絲滑,而且主要的內容都get到了。不過很可惜的是,我希望AI識別出來這是目前AI大熱的智能體方向,并基于此出發談談技術實現,這一點AI稍弱一些。
圖片
2.既要又要:更聰明、更輕量的模型是怎樣煉成的?
那么阿里是怎么做到讓32B模型如此優秀的呢?
HF中給出了一些Qwen2.5-VL的技術細節,可以猜測這仍然是32B模型進化的方面。
讓 AI 更懂視頻:動態分辨率與幀率訓練
為了讓 AI 更好地理解視頻,Qwen2.5-VL 不僅能調整分辨率,還在時間維度上引入了動態幀率(FPS)采樣。這樣一來,模型可以在不同的采樣速率下分析視頻,適應各種播放速度和場景。與此同時,mRoPE 也在時間維度上進行了升級——通過IDs(標識符)和絕對時間對齊,模型學會了理解時間序列和速度變化,甚至能精準定位關鍵時刻,讓視頻分析更智能。
高效精簡的視覺編碼器,讓推理更快
在視覺處理方面,這一版本的 Qwen2.5-VL 也進行了優化。它在 ViT(視覺變換器) 中巧妙地加入了窗口注意力機制,顯著提升了訓練和推理的效率。
3.One More Thing:千問即將支持MCP
今天打開Qwen的網頁版,還發現千問已經計劃支持MCP!
給不太熟悉MCP的朋友科普一句,這個開源協議由Anthropic去年年底提出,旨在統一大型語言模型(LLM)與外部數據源和工具之間的通信方式。簡單來說,MCP就像AI界的USB-C接口,讓AI系統能更方便地連接各種數據源和功能模塊,實現即插即用。
圖片
對于千問來說,接入MCP意味著它們可以更高效地獲取和處理外部信息,提升理解和決策能力。看來,阿里在智能體方向有了清晰的藍圖!
希望阿里下次發重磅更新的時候,能有運氣選到一個好時機,有實力的同時,也能獲得值得的口碑和聲量。
本文轉載自??51CTO技術棧??,作者:伊風
