模型更新，評測集優化：多模態大模型評測升級！

戀戀青鳥

發布于 2024-7-1 11:12

瀏覽

0收藏

先放結論

如果你想為你的項目挑選合適的圖文多模態模型，以下是一些可供參考的模型性能（括號內為評測分數）：

已測性能最強的閉源模型：

GPT-4o（海外 API 模型，69.9）
GLM-4v（國內 API 模型，60.8）

已測位于 "參數量-性能" 前沿上的開源模型：

InternVL-v1.5 (26B, 61.7)
MiniCPM-Llama3-V2.5 (8B, 58.8)
InternLM-XComposer2-7B-4KHD (7B, 58.8)
?Mini-InternVL (4B, 56.2; 2B, 49.8)

模型更新，評測集優化：多模態大模型評測升級！-AI.x社區

本期的多模態模型性能榜單

1.多模態大模型評測榜單構成更新

在 4 月底，司南多模態大模型評測榜單由 12 個數據集上的分數計算平均分得到。在 5 月至 6 月，基于精簡評測集的目的，我們對榜單構成進行了如下變動：

將 MMBench 更新到了 v1.1 版本 (數據質量有所提升)，同時將其中英文版本合為一個分數，以避免占據過高權重;
移除多個與 MMBench 相似定位的評測集，僅保留 MMBench v1.1版本
移除 LLaVABench(因數據量小，測試方差太大)

目前，司南多模態大模型榜單共包含 8 個 benchmark 的分數及其平均分：MMBench v1.1 (客觀綜合)，MMStar (數據污染)，MMMU (多模態考試)，MathVista (多模態數學)，HallusionBench (幻覺)，AI2D (圖表理解)，OCRBench (OCR 能力)，MMVet (主觀綜合)。

大家仍可在 Open VLM Leaderboard 訪問全部的測試結果 (超過 20 個 benchmark)：

??https://huggingface.co/spaces/opencompass/open_vlm_leaderboard??

2.新增模型及性能表現

新增 API 模型

我們更新了大量 API 模型的評測結果，其中包括：GPT-4o (低/高分辨率)，GPT-4v (0409,高分辨率)， GLM-4v，Gemini-1.5-Pro，RekaFlash / RekaCore。

GPT-4o(低/高分辨率), GPT-4v(0409,高分辨率)

GPT-4o 是 OpenAI 于 5 月 13 日發布的最新人工智能模型，代表了GPT系列的一個重要升級。其中，“o” 代表“Omni”，意為“全能”，凸顯了其多功能特性。GPT-4o 具有支持音頻、圖像等多種模態的任意組合作為輸入，能夠進行快速推理、實時響應等主要特點。我們在 VLMEvalKit 所支持的圖文多模態任務上對其進行了評測，其高分辨率版本最終取得了 69.9 分的平均分數，占據總分第一并大幅領先于第二超過 5 分。同時，基于 GPT-4o， GPT-4v 的高低分辨率性能對比，我們發現高分辨率版本相比低分辨率版本帶來約 3.5 分的平均分提升，對于 MMMU，OCRBench 等評測集的提升會更加顯著。

Gemini-1.5-Pro

Gemini-1.5-Pro 是 Google 于 4 月 12 日發布一款強大的AI模型，具有多模態理解和超長上下文處理等能力。我們對其的評測基于 Google 的 Vertex 平臺。我們基于 VLMEvalKit 所支持的圖文多模態任務上對其進行了評測。這一模型最終取得了 64.4 分的平均分數，居于總分第二。

GLM-4v

GLM-4v 是智譜AI推出的一款多模態大語言模型，支持視覺問答、圖像字幕、視覺定位和復雜目標檢測等各類圖像理解任務。經過測試，GLM-4v 取得了 60.8 分的平均分數，居于總分第五。

RekaFlash / RekaEdge

RekaFlash / RekaEdge 是 Reka.ai 推出的中/輕量級多模態大模型，支持多種輸入模態及 128k 上下文長度。其中 RekaFlash 曾在主觀評測榜單 VisionArena 中取得過第一的成績 (目前也僅弱于 GPT-4o/4v)。我們對其客觀性能進行了測試，但發現他們的客觀性能并不理想：RekaFlash / RekaEdge 僅取得 53.9/46.7 的平均分數，分列榜單的第 18 與 32 名。

整體上，目前的多模態榜單上閉源模型仍處于領先地位，尤其是 GPT-4o 會大幅度領先于其他模型。需要注意的是，由于模型廠商會對 API 模型施加各種拒答策略作為限制，可能導致我們現在對于各個 API 模型的性能依然有所低估。我們會在近期對這一現象進行定量分析。

新增開源模型

相比較 API 模型，我們在同期內新增的開源模型數量更多，比如有：

MiniCPM-Llama3-V2.5 (OpenBMB)
Mini-InternVL-[2B/4B] (Shanghai AI Lab)
InternLM-XComposer2-[1.8B / 7B-4KHD] (Shanghai AI Lab)
WeMM (WeChat AI)
CogVLM2-19B (Zhipu AI)
Phi-3-Vision (Microsoft)
XVERSE-V-13B (XVERSE)
360VL-70B (360)
PaliGemma-3B (Google)
Bunny-LLaMA-3-8B (BAAI)

模型更新，評測集優化：多模態大模型評測升級！-AI.x社區

MiniCPM-Llama3-V2.5

作為一個 8B 量級的模型，它的整體性能超越了 Qwen-VL-Max、Gemini-1.0-Pro 等開源模型，以 58.8 的平均分位列榜單第 7 (開源模型第 2)。同時，該模型還具備一些特色能力，例如支持德語、法語、西班牙語等30+種語言的多模態能力，以及具備增強的OCR和指令跟隨能力，可以處理高達180萬像素的圖像。

模型更新，評測集優化：多模態大模型評測升級！-AI.x社區