Qwen2.5-VL-32B 更小更聰明!與grok、gemini同臺打造“治愈老奶奶”,誰更強? 精華
昨日,AI屆“汪峰”Qwen團隊發布了Qwen2.5-VL-32B-Instruct,作為Qwen2.5-VL系列模型的最新迭代,通過強化學習優化,以32B參數規模擊敗上代72B版本,展現出其更智能和輕量級的突出特點。
較前代模型在以下方面有了顯著改進:
- 更符合人類偏好的回答:調整輸出風格,提供更詳細、格式更好的答案,更貼近人類偏好。
- 數學推理能力提升:在解決復雜數學問題方面,準確性得到顯著提高。
- 精細圖像理解和推理:在圖像解析、內容識別和視覺邏輯推理等任務中,準確性和分析細節得到增強。
性能方面,Qwen2.5-VL-32B在多項基準測試中展現出超越基線模型的表現,例如Mistral-Small-3.1-24B和Gemma-3-27B-IT,甚至在多模態任務如MMMU、MMMU-Pro和MathVista中超越了更大的Qwen2-VL-72B-Instruct模型。在MM-MT-Bench基準測試中,該模型在主觀用戶體驗評估方面也優于其前代Qwen2-VL-72B-Instruct。
此外,Qwen2.5-VL-32B在視覺能力和純文本能力方面均取得了頂尖表現。例如,在圖像理解任務中,該模型能夠分析一張中式火鍋圖片,識別其特征,如鍋底的麻辣風格、分隔設計、配菜種類等。
為了更直觀感受,筆者選擇了最近網絡上流行的“治愈老奶奶”插畫作為綜合場景能力驗證,讓國產代表Qwen與當前多模態生圖領域熱門的模型grok和gemini做一比較。
Qwen系列:
Grok:
Gemini:
從上面可以看出,對于識圖來講,這三個模型都不在話下,但在接下來基于多模態情景上下文下生圖層面表現各有特點。Gemini最強,能夠完整續寫故事,并能很好保持人物和風格一致性,但對于文字控制不佳。grok支持局部的精細修改,但風格審美有些差強人意。Qwen在風格和英文文字控制上表現最好。
總而言之,Qwen2.5-VL-32B 是模型的大小和性能之間的平衡性的代表。小塊頭同樣擁有大智慧!
本文轉載自AI工程化,作者:ully
