成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架

發(fā)布于 2024-6-21 09:27
瀏覽
0收藏

測(cè)試Gemini1.5 Pro、GPT-4o等多模態(tài)大模型的新基準(zhǔn)來(lái)了,針對(duì)視頻理解能力的那種。

直接在視頻內(nèi)容中插入多個(gè)無(wú)關(guān)的圖像或文本“針”,嚴(yán)格評(píng)估模型對(duì)時(shí)間理解的能力。


來(lái)看下面的栗子。


比如插入密碼詞“Alice”,讓模型找到這個(gè)密碼詞;插入蘋(píng)果圖片,讓模型解答這個(gè)水果是什么;又或者插入多個(gè)“針”,詢(xún)問(wèn)模型插入針的順序是什么。

考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

這就是來(lái)自中科院、人大、百川的研究團(tuán)隊(duì)聯(lián)合提出的利用合成視頻構(gòu)建視頻理解測(cè)試基準(zhǔn)的方法。


該方法名為VideoNIAH,可以解耦視頻內(nèi)容與其對(duì)應(yīng)的查詢(xún)-響應(yīng)對(duì),通過(guò)插入無(wú)關(guān)的圖像或文本“針”來(lái)生成測(cè)試數(shù)據(jù),既保證了視頻來(lái)源的多樣性和查詢(xún)響應(yīng)的多樣性,還通過(guò)插入多個(gè)針來(lái)嚴(yán)格評(píng)估模型對(duì)時(shí)間理解的能力。


此外,使用與現(xiàn)實(shí)視頻內(nèi)容相對(duì)應(yīng)的查詢(xún)-響應(yīng)對(duì)可能存在數(shù)據(jù)泄露風(fēng)險(xiǎn),影響基準(zhǔn)測(cè)試的公平性,使用合成視頻生成方法可以有效避免這一問(wèn)題。


研究團(tuán)隊(duì)利用VideoNIAH方法制作了一個(gè)能夠有效評(píng)估視頻模型的細(xì)粒度理解能力和時(shí)空建模能力,同時(shí)支持長(zhǎng)上下文評(píng)估的合成視頻理解基準(zhǔn)VNBench,包含1350個(gè)樣本。

隨后對(duì)Gemini1.5 Pro、GPT-4o、GPT-4-turbo以及其它開(kāi)源模型進(jìn)行了測(cè)試,并分析了一系列結(jié)果。


研究團(tuán)隊(duì)發(fā)現(xiàn),即使是GPT-4o等最先進(jìn)的專(zhuān)有模型,在需要檢測(cè)和追蹤視頻中特定空間區(qū)域內(nèi)的“針”等計(jì)數(shù)任務(wù)上的表現(xiàn)也不理想;在排序任務(wù)上,專(zhuān)有模型與開(kāi)源模型之間的性能差距尤為顯著……

考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

VNBench更多細(xì)節(jié)以及更多實(shí)驗(yàn)結(jié)果我們接著往下看。

用VideoNIAH構(gòu)建新基準(zhǔn)

隨著視頻中心的MLLMs模型的提出,需要有更全面的基準(zhǔn)測(cè)試來(lái)評(píng)估這些模型在視頻理解方面的能力,包括細(xì)粒度理解時(shí)空建模以及長(zhǎng)上下文處理等。


傳統(tǒng)的視頻基準(zhǔn)測(cè)試通常需要基于目標(biāo)能力精心選擇視頻,并進(jìn)行繁瑣的查詢(xún)-響應(yīng)對(duì)標(biāo)注,以匹配特定視頻內(nèi)容。這個(gè)過(guò)程不僅挑戰(zhàn)重重,而且資源消耗巨大。

為了開(kāi)發(fā)和評(píng)估視頻理解模型,需要一個(gè)既能夠擴(kuò)展到不同視頻源和長(zhǎng)度,又能夠高效運(yùn)行的基準(zhǔn)測(cè)試框架。


研究團(tuán)隊(duì)提出了VideoNIAH。


如前文所述,VideoNIAH(Video Needle In A Haystack)創(chuàng)新性地將測(cè)試視頻內(nèi)容與其查詢(xún)-響應(yīng)對(duì)解耦,通過(guò)在原始視頻中插入無(wú)關(guān)的圖像/文本“針”(needles),并僅從這些針生成注釋。


這種方法不僅確保了視頻來(lái)源的多樣性和查詢(xún)響應(yīng)的多樣性,還通過(guò)插入多個(gè)針來(lái)嚴(yán)格評(píng)估模型對(duì)時(shí)間理解的能力。

考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

利用VideoNIAH,研究者們構(gòu)建了一個(gè)全面的視頻基準(zhǔn)測(cè)試VNBench,包括檢索、排序和計(jì)數(shù)等任務(wù)。VNBench能夠有效評(píng)估視頻模型的細(xì)粒度理解能力和時(shí)空建模能力,同時(shí)支持長(zhǎng)上下文評(píng)估。


VNBench的特點(diǎn)主要表現(xiàn)在以下三個(gè)方面:

“針”類(lèi)型(Needle Type)的多樣性

  • 編輯內(nèi)幀(Edit):使用人為添加的字幕作為”針”,這些字幕被嵌入到視頻幀中,模擬了在視頻中尋找特定文本信息的場(chǎng)景。
  • 插入幀間(Insert):使用圖像作為”針”,這些圖像作為靜態(tài)片段插入到視頻幀之間,考察模型對(duì)視頻中靜態(tài)圖像的識(shí)別和記憶能力。
  • 級(jí)別劃分:根據(jù)圖像的可識(shí)別性分為兩個(gè)級(jí)別,第一級(jí)使用常見(jiàn)物體(如水果圖像),第二級(jí)使用更具挑戰(zhàn)性的地標(biāo)圖像/物體圖像,增加了任務(wù)的難度。

?

視頻”干草堆”(Video Haystack)的多樣性

  • 時(shí)間分布:VNBench使用的視頻”干草堆”來(lái)自不同的數(shù)據(jù)源,視頻時(shí)長(zhǎng)從10秒到180秒不等,覆蓋了短、中、長(zhǎng)三種不同的視頻長(zhǎng)度,以評(píng)估模型對(duì)不同視頻長(zhǎng)度的適應(yīng)能力。
  • 內(nèi)容覆蓋:視頻內(nèi)容包含多種場(chǎng)景,確保了評(píng)估的廣泛性和視頻源的多樣性。

?

查詢(xún)(Query)的多樣性

  • 檢索任務(wù):要求模型從視頻中檢索出特定的”針”,考察模型的細(xì)粒度理解和信息提取能力。
  • 排序任務(wù):要求模型識(shí)別并排序視頻中所有插入”針”的時(shí)間順序,考察模型對(duì)視頻時(shí)間動(dòng)態(tài)和事件序列的理解能力。
  • 計(jì)數(shù)任務(wù):要求模型計(jì)算視頻中特定對(duì)象的出現(xiàn)次數(shù),包括對(duì)單個(gè)幀內(nèi)和跨幀的重復(fù)模式的識(shí)別和追蹤,考察模型在時(shí)空維度上的理解能力。
  • 任務(wù)分類(lèi):VNBench的三個(gè)任務(wù)類(lèi)型分別對(duì)應(yīng)不同的視頻理解能力評(píng)估,檢索任務(wù)評(píng)估信息檢索能力,排序任務(wù)評(píng)估時(shí)間推理能力,計(jì)數(shù)任務(wù)評(píng)估對(duì)視頻內(nèi)容的長(zhǎng)期記憶和模式識(shí)別能力。


通過(guò)這些設(shè)計(jì),VNBench能夠全面地評(píng)估視頻理解模型在多樣化的視頻內(nèi)容和查詢(xún)條件下的性能,為視頻理解技術(shù)的研究提供了一個(gè)有力的基準(zhǔn)測(cè)試工具。

實(shí)驗(yàn)及分析結(jié)果

在論文中,通過(guò)VNBench對(duì)視頻理解多模態(tài)大語(yǔ)言模型(MLLMs)進(jìn)行了一系列評(píng)估,分析結(jié)果揭示了以下幾個(gè)關(guān)鍵點(diǎn):

考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

首先是專(zhuān)有模型與開(kāi)源模型的性能差異


專(zhuān)有模型(如Gemini 1.5 Pro和GPT-4系列)在大多數(shù)VNBench任務(wù)上的表現(xiàn)優(yōu)于開(kāi)源模型。這表明專(zhuān)有模型可能擁有更優(yōu)越的視頻理解能力,這可能歸功于更大的模型參數(shù)和更全面的訓(xùn)練過(guò)程。


其次是任務(wù)難度與模型表現(xiàn)


模型在單針短依賴(lài)任務(wù)(檢索任務(wù))上的表現(xiàn)普遍優(yōu)于多針長(zhǎng)依賴(lài)任務(wù)(排序和計(jì)數(shù)任務(wù))。這表明當(dāng)前的視頻模型在處理需要長(zhǎng)期依賴(lài)信息的任務(wù)時(shí)仍然面臨挑戰(zhàn)。


排序任務(wù)的性能差距方面,在排序任務(wù)上,專(zhuān)有模型與開(kāi)源模型之間的性能差距尤為顯著。大多數(shù)開(kāi)源模型在排序任務(wù)上幾乎無(wú)法完成任務(wù),這可能是由于它們?cè)谟?xùn)練過(guò)程中忽視了時(shí)間序列建模的能力。


然后是計(jì)數(shù)任務(wù)的困難。即使是最先進(jìn)的專(zhuān)有模型,在計(jì)數(shù)任務(wù)上的表現(xiàn)也不理想。特別是在需要檢測(cè)和追蹤視頻中特定空間區(qū)域內(nèi)的“針”時(shí)(Counting-E-2任務(wù)),所有模型的表現(xiàn)都很差,這表明當(dāng)前的視頻模型在理解和建模視頻中的細(xì)粒度時(shí)空關(guān)系方面仍有不足。


此外,視頻上下文長(zhǎng)度的影響方面,隨著視頻處理時(shí)長(zhǎng)的增加,開(kāi)源模型的性能顯著下降,而專(zhuān)有模型由于具有更長(zhǎng)的上下文處理窗口,性能波動(dòng)不大。這表明當(dāng)前模型在處理長(zhǎng)視頻內(nèi)容時(shí)的能力有限。

考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

“針”位置的影響方面,通過(guò)改變“針”在視頻中的位置,研究發(fā)現(xiàn)專(zhuān)有模型由于其較長(zhǎng)的上下文窗口,能夠準(zhǔn)確回憶所有插入的信息,而開(kāi)源模型則表現(xiàn)出在長(zhǎng)序列中對(duì)中間信息的回憶不足。

考考大模型視頻理解能力,中科院人大百川提出新基準(zhǔn)合成框架-AI.x社區(qū)

這些分析結(jié)果不僅揭示了當(dāng)前視頻理解模型的優(yōu)勢(shì)和局限性,而且為未來(lái)的研究提供了寶貴的見(jiàn)解,有助于指導(dǎo)視頻理解技術(shù)的發(fā)展和改進(jìn)。


論文鏈接:https://arxiv.org/abs/2406.09367
項(xiàng)目鏈接:https://videoniah.github.io/


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/HZZQ8Rp4xPmJGzhB238hOw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 奇米久久| 欧美亚洲在线 | 国产一区二区在线免费观看 | 日韩欧美大片 | 日韩最新网址 | 亚洲精品国产偷自在线观看 | 亚洲精品视频免费 | 夜夜操av| 日本人爽p大片免费看 | 国产精品久久久久久久久久久久 | 91文字幕巨乱亚洲香蕉 | 国产精品久久久久久婷婷天堂 | 在线日韩中文字幕 | 欧美一区二区三区小说 | 亚洲国产成人精品久久 | 欧美aaaaaaaaaa | 久久久久电影 | аⅴ资源新版在线天堂 | 久久久性色精品国产免费观看 | 日本久久精品视频 | 日本黄色影片在线观看 | 涩涩视频在线观看免费 | 中文字幕一区二区三区四区五区 | 九九久久这里只有精品 | 国内精品久久久久 | 波波电影院一区二区三区 | 国产精品无 | 91在线免费观看 | 欧美另类视频 | 欧美黄在线观看 | 在线欧美一区 | av一级久久| 综合一区二区三区 | 国产成人在线视频免费观看 | 日韩一级免费观看 | 6996成人影院网在线播放 | 视频一区在线观看 | 国产做a爱免费视频 | 日韩在线播放视频 | 毛片在线免费 | 一区二区三区精品视频 |