成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全面評(píng)估多模態(tài)模型視頻OCR能力,Gemini 準(zhǔn)確率僅73.7%

人工智能 新聞
MME-VideoOCR 致力于系統(tǒng)評(píng)估并推動(dòng)MLLM在視頻OCR中的感知、理解和推理能力。

多模態(tài)大模型(MLLM)在靜態(tài)圖像上已經(jīng)展現(xiàn)出卓越的 OCR 能力,能準(zhǔn)確識(shí)別和理解圖像中的文字內(nèi)容。

然而,當(dāng)應(yīng)用場(chǎng)景從靜態(tài)圖像拓展至動(dòng)態(tài)視頻時(shí),即便是當(dāng)前最先進(jìn)的模型也面臨著嚴(yán)峻的挑戰(zhàn)。

MME-VideoOCR 致力于系統(tǒng)評(píng)估并推動(dòng)MLLM在視頻OCR中的感知、理解和推理能力。

圖片

主要貢獻(xiàn)如下:

構(gòu)建精細(xì)的任務(wù)體系:

  • 精心構(gòu)建了10大任務(wù)類別,進(jìn)一步細(xì)分為25 個(gè)獨(dú)立任務(wù)
  • 評(píng)測(cè)維度超越基礎(chǔ)識(shí)別,深入考察時(shí)序理解、信息整合及復(fù)雜推理等高階能力。

高質(zhì)量、大規(guī)模數(shù)據(jù)集:

包含了1,464 個(gè)精選視頻片段,覆蓋不同的分辨率、時(shí)長(zhǎng)與場(chǎng)景。構(gòu)建了2,000 條高質(zhì)量、經(jīng)人工標(biāo)注的問(wèn)答對(duì),確保評(píng)測(cè)的精確性。

揭示當(dāng)前 MLLM 的能力邊界與局限:

  • 對(duì)包括閉源與領(lǐng)先開(kāi)源模型在內(nèi)的18個(gè)主流MLLM進(jìn)行了深入評(píng)測(cè)。
  • 系統(tǒng)化分析了各模型在不同視頻OCR任務(wù)中的表現(xiàn),明確了其優(yōu)勢(shì)與亟待改進(jìn)的短板
  • 即便是Gemini-2.5 Pro,其整體準(zhǔn)確率也僅為73.7%,顯示出當(dāng)前MLLM在視頻OCR領(lǐng)域的巨大挑戰(zhàn)。

研究背景

視頻作為一種信息密度更高、場(chǎng)景更復(fù)雜的模態(tài),其 OCR 任務(wù)的難度遠(yuǎn)超靜態(tài)圖像:

運(yùn)動(dòng)模糊、光影變化、視角切換以及復(fù)雜的時(shí)序關(guān)聯(lián)等視頻的動(dòng)態(tài)因素,都對(duì) MLLM 的視頻文字識(shí)別構(gòu)成了顯著的障礙。

2 視頻中的文字信息形式復(fù)雜多樣,既可能出現(xiàn)在畫(huà)面主體、背景場(chǎng)景,也可能以屏幕注釋、水印或彈幕的方式存在。這要求模型能夠建立穩(wěn)定的時(shí)空視覺(jué)-文本關(guān)聯(lián),以實(shí)現(xiàn)對(duì)分布在不同位置與時(shí)間段文字信息的準(zhǔn)確識(shí)別、整合與理解。

3 MLLM 不僅需要對(duì)視頻中文字的進(jìn)行精確識(shí)別,更需在視覺(jué)、時(shí)序上下文中完成語(yǔ)義解析與推理判斷,以實(shí)現(xiàn)對(duì)視頻整體內(nèi)容的深層理解。

目前,MLLM 在視頻 OCR 領(lǐng)域的真實(shí)性能如何?其核心局限性體現(xiàn)在哪些方面?我們應(yīng)如何系統(tǒng)地評(píng)估并推動(dòng)其發(fā)展?這些關(guān)鍵問(wèn)題亟待一個(gè)明確的答案。

圖片

MME-VideoOCR 評(píng)測(cè)框架詳解

MME-VideoOCR的設(shè)計(jì)核心在于其全面性與深度,旨在評(píng)估模型從“看見(jiàn)”到“理解”視頻文字信息的全方位能力。

數(shù)據(jù)構(gòu)建

MME-VideoOCR 的數(shù)據(jù)集源于部分高質(zhì)量數(shù)據(jù)集和人工采集與構(gòu)造,經(jīng)過(guò)精心篩選與處理,確保其:

  • 多樣性:涵蓋生活記錄、影視娛樂(lè)、教育科普、體育賽事、游戲直播等多元化場(chǎng)景。
  • 挑戰(zhàn)性:融入運(yùn)動(dòng)模糊、低分辨率、復(fù)雜背景、藝術(shù)字體、文字遮擋、多語(yǔ)言混合等真實(shí)世界的復(fù)雜因素。
  • 時(shí)序性:特別設(shè)計(jì)了需要跨幀理解、追蹤文字動(dòng)態(tài)、整合時(shí)序信息的復(fù)雜任務(wù),考驗(yàn)?zāi)P偷膭?dòng)態(tài)處理能力。

考慮到短視頻、彈幕視頻及AIGC視頻的逐漸普及,MME-VideoOCR額外引入了這些特殊類型的視頻,增加了數(shù)據(jù)的全面性。

共收集1,464 個(gè)視頻和2000條樣本。

圖片圖片

任務(wù)設(shè)計(jì)

10大任務(wù)類別25 個(gè)子任務(wù)緊密?chē)@視頻OCR的核心挑戰(zhàn),重點(diǎn)評(píng)估模型在以下方面的能力:

  • 基礎(chǔ)識(shí)別:在各種視頻條件下準(zhǔn)確識(shí)別文字及其屬性。
  • 時(shí)空定位:識(shí)別文字在視頻中的時(shí)間、空間位置。
  • 時(shí)序追蹤:理解文字內(nèi)容隨時(shí)間的演變。
  • 特殊文本解析:對(duì)表格、圖表、文檔、公式、手寫(xiě)體等特殊文本進(jìn)行有效解析。
  • 信息整合:結(jié)合視頻上下文與文字進(jìn)行綜合理解。
  • 場(chǎng)景理解:在特定視頻情境下解讀文字的深層含義。
  • 復(fù)雜推理:基于視頻中的文字信息進(jìn)行邏輯判斷與問(wèn)答。
  • 模型魯棒性:對(duì)于 AIGC、對(duì)抗樣本和超長(zhǎng)視頻的有效理解。

圖片

評(píng)估策略

針對(duì)不同任務(wù)的特點(diǎn)和標(biāo)準(zhǔn)答案可能存在的靈活性,設(shè)計(jì)了字符串匹配、多選題以及 GPT 輔助評(píng)分三種評(píng)測(cè)方式。

實(shí)驗(yàn)發(fā)現(xiàn)總結(jié)

圖片

通過(guò)對(duì)18個(gè)主流MLLM的深度評(píng)測(cè),MME-VideoOCR 揭示了以下關(guān)鍵發(fā)現(xiàn):

整體性能:提升空間巨大

  • 頂尖模型面臨挑戰(zhàn):Gemini-2.5 Pro雖然表現(xiàn)最佳,但73.7%的準(zhǔn)確率表明,即便是SOTA模型在應(yīng)對(duì)復(fù)雜視頻 OCR 任務(wù)時(shí)也遠(yuǎn)未達(dá)到理想狀態(tài)。
  • 開(kāi)源模型差距顯著:當(dāng)前多數(shù)開(kāi)源MLLM在視頻OCR任務(wù)上的表現(xiàn)與頂尖閉源模型相比,存在較大差距,大多數(shù)開(kāi)源模型準(zhǔn)確率甚至不足60%。

能力短板:時(shí)序與推理是關(guān)鍵瓶頸

  • 靜態(tài)易,動(dòng)態(tài)難:模型處理單幀或短時(shí)序的文字信息相對(duì)較好,但在需要整合長(zhǎng)時(shí)序信息、理解文字動(dòng)態(tài)變化時(shí),性能顯著下降。
  • 時(shí)空推理能力薄弱:要求結(jié)合文字內(nèi)容及其時(shí)空信息進(jìn)行推理的任務(wù),是當(dāng)前MLLM的普遍弱點(diǎn)圖片

語(yǔ)言先驗(yàn)依賴問(wèn)題:模型在進(jìn)行視頻文字理解時(shí),有時(shí)會(huì)過(guò)度依賴其語(yǔ)言模型的先驗(yàn)知識(shí),而未能充分利用視覺(jué)信息進(jìn)行判斷。

優(yōu)化關(guān)鍵:高分辨率與時(shí)序信息

圖片

實(shí)驗(yàn)指出,提供更高分辨率的視覺(jué)輸入更完整的時(shí)序幀覆蓋,對(duì)于提升MLLM在動(dòng)態(tài)視頻場(chǎng)景下的OCR性能至關(guān)重要

同時(shí)需要注意到,更多的視覺(jué)輸入可能也會(huì)導(dǎo)致模型難以關(guān)注到目標(biāo)信息,造成準(zhǔn)確率的下滑,這也對(duì)模型的信息提取與處理能力提出了更高要求。

論文地址:https://mme-videoocr.github.io/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-02-13 09:40:00

2024-10-30 15:00:00

AI視頻模型

2024-06-17 18:06:17

2024-08-02 13:14:51

2024-01-05 08:44:52

2023-10-23 10:02:00

模型技術(shù)

2025-03-13 09:47:29

2023-10-26 08:40:15

模型隱私推理

2024-06-12 11:50:23

2025-05-06 15:32:23

模型AI測(cè)試

2023-11-08 08:38:43

2018-06-12 07:15:18

阿里巴巴技術(shù)語(yǔ)音識(shí)別

2023-05-04 09:39:16

AI模型

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2024-05-11 07:00:00

GPT4VGemini大模型

2025-01-08 08:21:16

2025-01-21 08:00:00

2024-12-12 00:25:09

2024-11-04 13:30:00

模型AI

2022-03-30 14:55:54

微步在線TDP
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 一区二区视频在线观看 | 国产片淫级awww | 欧美日韩国产传媒 | 中文字幕亚洲区一区二 | 久久久精品国产 | 午夜视频在线观看网站 | 国产色婷婷久久99精品91 | 日韩中文av在线 | 亚洲成人av一区二区 | heyzo在线 | 国产日韩欧美一区 | 欧美三级电影在线播放 | 久久精品久久综合 | 精品久久久久久久久久 | 日日夜夜天天 | 在线视频久久 | 久色一区 | 91网视频 | 91精品国产色综合久久不卡蜜臀 | 影音先锋中文在线 | 中文在线一区二区 | 99久久99 | 中文字幕乱码一区二区三区 | 日本特黄特色aaa大片免费 | 91社区在线观看 | 欧美一区二区三区视频 | 日韩成人在线播放 | 日韩av.com| 久久婷婷色 | av在线视 | 久久久日韩精品一区二区三区 | a级黄色网| 国产精品视频一二三区 | 午夜影院在线播放 | 欧美爱爱视频 | 中文字幕第九页 | 欧美激情精品久久久久 | 女同av亚洲女人天堂 | 在线色网站 | 91偷拍精品一区二区三区 | 国产精品99久久久久久宅男 |