全華人團隊推出多模態(tài)大模型新基準(zhǔn)，GPT-4o準(zhǔn)確率僅為65.5%，所有模型最易犯感知錯誤

2024-06-12 11:50:23

MMT-Bench是一個旨在評估LVLMs在多模態(tài)多任務(wù)理解方面的一個綜合性基準(zhǔn)測試。MMT-Bench的廣度體現(xiàn)在其精心構(gòu)建的包含31325個多選問題的數(shù)據(jù)上，這些問題涵蓋了162個多模態(tài)任務(wù)。

GPT-4o再次掀起多模態(tài)大模型的浪潮。

如果他們能以近似人類的熟練程度，在不同領(lǐng)域執(zhí)行廣泛的任務(wù)，這對許多領(lǐng)域帶來革命性進展。

因而，構(gòu)建一個全面的評估基準(zhǔn)測試就顯得格外重要。然而評估大型視覺語言模型能力的進程顯著落后于它們自身的發(fā)展。

來自上海AI Lab、香港大學(xué)、上海交大、浙江大學(xué)等多家機構(gòu)提出了 MMT-Bench。

圖片

這是一個全方位的多模態(tài)基準(zhǔn)測試，旨在全面評估大型視覺語言模型（LVLMs）在多模態(tài)多任務(wù)理解方面的表現(xiàn)。

研究團隊還對當(dāng)前幾個代表的視覺大模型進行了能力評估，結(jié)果發(fā)現(xiàn)感知錯誤、推理錯誤是所有模型最常見的兩大錯誤。

多模態(tài)多任務(wù)AGI基準(zhǔn)測試MMT-Bench

MMT-Bench的廣度體現(xiàn)在三個方面。

圖片

首先，MMT-Bench數(shù)據(jù)經(jīng)過精心設(shè)計，包含32K個多選視覺語言問題，涵蓋了32個核心元任務(wù)和162個子任務(wù)，這比此前的評測數(shù)據(jù)集MMBench大8.1倍。

其次，MMT-Bench包含了13種圖像類型，如自然場景、合成圖像、深度圖、富文本圖像、繪畫、屏幕截圖、點云、醫(yī)學(xué)圖像等。這樣的圖片多樣性要求模型能夠解釋理解各種視覺輸入。

第三，MMT-Bench涵蓋了多種多模態(tài)情景，如車輛駕駛、GUI導(dǎo)航和具身AI，測試了14種多模態(tài)能力，包括視覺識別、定位、推理、OCR、計數(shù)、3D感知、時間理解等。

構(gòu)建評測任務(wù) 。

MMT-Bench的評測任務(wù)在構(gòu)建時旨在包含盡可能多的多模態(tài)任務(wù)。為此，研究人員首先提出多模態(tài)理解的元任務(wù)。然后，通過去重和篩選重要任務(wù)總結(jié)出32個元任務(wù)。

接著，將每個元任務(wù)分解為幾個子任務(wù)。子任務(wù)是否被保留在MMT-Bench中，需要滿足三個標(biāo)準(zhǔn)：

1、子任務(wù)是否檢驗了基本的多模態(tài)能力；
2、子任務(wù)對當(dāng)前的大型視覺語言模型（LVLMs）是否具備挑戰(zhàn)性；
3、子任務(wù)的測試樣本是否可以公開獲取。

經(jīng)過選擇，MMT-Bench共包含了162個子任務(wù)，這比之前任務(wù)最多的評測集TinyLVLM-eHub大3.8倍。

MMT-Bench與此前評測數(shù)據(jù)的詳細比較如下表所示。

圖片

數(shù)據(jù)收集。

圖片

MMT-Bench的研究人員設(shè)計了一個高效的數(shù)據(jù)收集流程，以構(gòu)建每個子任務(wù)的多選視覺語言問題評估數(shù)據(jù)。

首先，他們通過Google、Paper With Code、Kaggle和ChatGPT等多種數(shù)據(jù)來源，根據(jù)子任務(wù)的名稱全面搜索相關(guān)數(shù)據(jù)集。下載數(shù)據(jù)集后，再細致地評估它們是否適合評估子任務(wù)，確保數(shù)據(jù)集的可用性和相關(guān)性。

接著，研究人員定義了一種統(tǒng)一的元數(shù)據(jù)格式，用于整理下載的數(shù)據(jù)集。每個元數(shù)據(jù)樣本包括圖像和元信息，其中元信息包括生成評測問題和答案所需的必要信息，以及所需推理能力的標(biāo)注信息和視覺圖片的類型。

為了提高評估效率，在每個任務(wù)中，研究人員通過隨機抽樣將樣本數(shù)量最大限制為200，并且每個數(shù)據(jù)集包含相同數(shù)量的樣本。

最后，對于每個子任務(wù)，研究人員從它們的元數(shù)據(jù)中生成多選視覺語言問題及其選項和答案。具體來說，根據(jù)特定任務(wù)，研究人員或手動設(shè)計規(guī)則，或使用ChatGPT來進行高質(zhì)量的QA生成。

例如，在基于草圖進行圖像檢索的任務(wù)中，使用對應(yīng)的圖像作為正確答案，并從元數(shù)據(jù)中隨機抽取其他圖像來生成錯誤選項。而在生成視頻描述的任務(wù)中，則使用ChatGPT編寫容易混淆的錯誤選項。

綜上，MMT-Bench共包含31,325個精心設(shè)計的多選問題，涵蓋13種輸入圖像類型，如自然場景、合成圖像、富文本圖像、醫(yī)學(xué)圖像等，覆蓋32個核心元任務(wù)和162個子任務(wù)，用于多任務(wù)多模態(tài)理解。

與之前的LVLMs基準(zhǔn)測試相比，MMT-Bench中的問題涵蓋了多種多模態(tài)場景，如GUI導(dǎo)航和文檔理解，測試了包括視覺識別、定位、推理、OCR、計數(shù)、3D感知、時間理解等14種能力。這些特點確保MMT-Bench滿足評估多任務(wù)AGI的任務(wù)廣度要求。

評測結(jié)果

研究人員基于MMT-Bench對30種公開可用的大型視覺語言模型（LVLMs）進行了綜合評估。

結(jié)果顯示MMT-Bench的基準(zhǔn)測試給現(xiàn)有的LVLMs帶來了重大挑戰(zhàn)，即使是InternVL-Chat、GPT-4o和GeminiProVision等先進模型，其準(zhǔn)確率也僅分別為63.4%、65.5%和61.6%。

圖片

綜合而言，閉源的專有模型GPT-4o目前在MMT-Bench中取得了領(lǐng)先地位，超過了InternVL-chat、QWen-VL-Plus、GPT-4V和GeminiProVision等其他模型。

值得注意的是，開源模型InternVL-chat和QwenVL-Max正緊隨GPT-4o之后，這為未來開源社區(qū)模型能與閉源專有模型競爭甚至超越它們的前景增添了信心。

圖片

在所有元任務(wù)的評測結(jié)果中，研究人員還發(fā)現(xiàn)：

1）大多數(shù)大型視覺語言模型在視覺識別（Visual Recognition）和視覺描述（Visual Captioning）任務(wù)中表現(xiàn)出色，凸顯了LVLMs在識別“物體是什么”和描述圖像中展示內(nèi)容的能力。然而，對于精細感知任務(wù)（如定位、像素級感知等）或復(fù)雜推理任務(wù)（如圖像評測判斷），大多數(shù)LVLMs仍表現(xiàn)較差。

2）對于LLaVA-v1.5和LLaVA-v1.5-Xtuner，隨著模型大小的增加（從7B增加到13B），其性能顯著提高，而從InternLM升級到InternLM2也提高了LLaVA的性能。這表明即便保持訓(xùn)練數(shù)據(jù)和視覺編碼器保持不變，采用更大或改進的LLMs也能夠提升多任務(wù)性能。

3）BLIP2即使沒有經(jīng)過指令調(diào)整，也在性能上超過了大多數(shù)經(jīng)過數(shù)百萬指令數(shù)據(jù)調(diào)整的LVLMs，這表明在某些任務(wù)中使用指令調(diào)整的數(shù)據(jù)甚至可能損害其他任務(wù)的泛化能力。

任務(wù)地圖。

得益于MMT-Bench中任務(wù)的廣泛覆蓋，研究人員可以在任務(wù)地圖上評估LVLMs的多模態(tài)性能。

通過分析任務(wù)地圖中任務(wù)之間的關(guān)系，可以系統(tǒng)地解釋不同任務(wù)在多模態(tài)能力中的作用。基于任務(wù)地圖，研究人員發(fā)現(xiàn)LVLMs在彼此相近的任務(wù)上獲得更一致的性能排名。此外，任務(wù)地圖還可以用來發(fā)現(xiàn)領(lǐng)域外（OoD）任務(wù)和領(lǐng)域內(nèi)任務(wù)。

圖片

錯誤分析。

為了分析LVLMs在MMT-Bench上的錯誤分布，研究人員檢查了三個LVLMs：GPT-4V、GeminiProVision和InternVL-Chat-V1.2（簡稱InternVL）。

圖片

結(jié)果發(fā)現(xiàn)，感知錯誤（Perception Error）是所有模型中最常見的錯誤類型。

其中GPT-4V的感知錯誤率顯著低于GeminiProVision（76.9%）和InternVL（67.2%），表明其在感知任務(wù)中的表現(xiàn)優(yōu)越。

推理錯誤是第二常見的錯誤類型，其中InternVL的推理錯誤率最高（14.8%），其次是GeminiProVision（10.4%）和GPT-4V（9.94%），這凸顯了所有模型在復(fù)雜推理任務(wù)中所面臨的挑戰(zhàn)。

圖片

最后簡單一下，MMT-Bench是一個旨在評估LVLMs在多模態(tài)多任務(wù)理解方面的一個綜合性基準(zhǔn)測試。MMT-Bench的廣度體現(xiàn)在其精心構(gòu)建的包含31325個多選問題的數(shù)據(jù)上，這些問題涵蓋了162個多模態(tài)任務(wù)。

評估結(jié)果揭示了當(dāng)前LVLMs仍面臨由MMT-Bench所帶來的重大挑戰(zhàn)。MMT-Bench的目標(biāo)是衡量LVLMs在多任務(wù)AGI路徑上的進展，并在未來將繼續(xù)擴展其所涵蓋的任務(wù)集。研究人員相信，MMT-Bench將進一步激發(fā)LVLMs的研究和開發(fā)，使得人們能夠更接近實現(xiàn)真正智能的多模態(tài)系統(tǒng)。

論文地址：
https://arxiv.org/abs/2404.16006項目主頁地址：
https://mmt-bench.github.io/代碼地址：
https://github.com/OpenGVLab/MMT-Bench數(shù)據(jù)集地址：
https://huggingface.co/datasets/Kaining/MMT-Bench

責(zé)任編輯：武曉燕來源：量子位

GPT-4o 模型 VLMs

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全華人團隊推出多模態(tài)大模型新基準(zhǔn)，GPT-4o準(zhǔn)確率僅為65.5%，所有模型最易犯感知錯誤

多模態(tài)多任務(wù)AGI基準(zhǔn)測試MMT-Bench

評測結(jié)果