阿里開源首個視覺推理模型，擊敗GPT-4o，網頁一度404

2024-12-26 07:10:00

據介紹，這可能是全球第一個視覺推理模型，也可以把它理解為上個月開源的阿里版o1模型QwQ的視覺版本。

過年關啦！阿里送上了今年最后一份禮物——

“眼睛”模型QVQ，其中V代表視覺。它只需讀取圖像和指令，就可以開始思考。

I’m watching you！

據介紹，這可能是全球第一個視覺推理模型，也可以把它理解為上個月開源的阿里版o1模型QwQ的視覺版本。

可以解決數物化生等各領域問題。

讀梗圖、數鴨子也不在話下。

目前該模型處于實驗階段，開放測試。

結果可能因為訪問過多，網頁一度還404了。

從性能表現上看，QVQ在MMMU 上的得分為 70.3，這一結果超過GPT-4o、Claude 3.5 Sonnet，但比o1模型還差了那么一點。

官方給了幾個演示Demo，讓咱們好好感知一下它的推理能力。

首先來看這道數學題。

解題思路如下：

再來個幾何題，算算這個沙發的面積。

它的推理過程如下：

高中化學題：圖片中的濾液E是什么化學物質？

它的答案是：硫酸亞鐵溶液。

他們在四個數據集對眼睛模型QVQ-72B-Preview進行了評估，包括MMMU、MathVista、MathVision、OlympiadBench，主要考察數學多模態推理以及綜合理解推理方面的能力。

QVQ-72B-Preview在 MMMU 基準測試中取得了70.3分，大大超過了其前身 Qwen2-VL-72B-Instruct。

此外，在其余三個以數學和科學問題為重點的基準測試中，該模型也表現出了卓越的性能，縮小了與o1模型之間的差距。

不過目前該模型屬于是團隊的實驗研究模型，不是特別穩定，有幾個限制需要注意。

語言混合和代碼切換：該模型可能會意外地混合語言或在語言之間切換，從而影響回答的清晰度。
遞歸推理：模型可能會陷入循環邏輯模式，產生冗長的回復而無法得出結論。
安全和道德方面的考慮：該模型需要加強安全措施，以確保性能可靠和安全，用戶在部署時應謹慎。
性能和基準限制：盡管該模型在視覺推理方面有所改進，但它不能完全取代 Qwen2-VL-72B-Instruct 的功能。此外，在多步驟視覺推理過程中，模型可能會逐漸失去對圖像內容的關注，從而導致幻覺。

好好預防針打了，那咱們淺淺實測一波。

比如這道考驗谷歌版o1的題目：

如何利用這些數字加起來等于30？

結果它識別出來了這幾個球對應的數字，沒有意識到9號球可以翻轉成6號球，然后就陷入無盡的思考之中。。。

在blog最后，他們也透露了接下來的目標——增強視覺語言基礎模型，使其具備基于視覺信息進行深度思考和推理的高級能力。

把時間拉長，他們計劃是將更多的模態整合到統一的模型中，能夠應對復雜的挑戰并參與科學探索。

（模型盡頭是AI For Science？）

參考鏈接：
[1]https://x.com/Alibaba_Qwen/status/1871602879972405626。
[2]https://qwenlm.github.io/blog/qvq-72b-preview/。

責任編輯：姜華來源：量子位

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看