成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<fieldset id="6mwku"><optgroup id="6mwku"></optgroup></fieldset>

<sup id="6mwku"><delect id="6mwku"></delect></sup>

<menu id="6mwku"><strong id="6mwku"></strong></menu><fieldset id="6mwku"><td id="6mwku"></td></fieldset>

<li id="6mwku"></li>

<ul id="6mwku"><delect id="6mwku"></delect></ul>

<object id="6mwku"><fieldset id="6mwku"></fieldset></object>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

7B最強長視頻模型！ LongVA視頻理解超千幀，霸榜多個榜單

作者：機器之心 2024-07-15 08:58:00

人工智能新聞

近日 LMMs-Lab, 南洋理工大學等機構的研究團隊推出了 LongVA 長視頻模型，它可以理解超過千幀的視頻數據，超越了當前一眾開源視頻多模態模型的性能！

本文主要作者來自 LMMs-Lab 團隊與新加坡南洋理工大學。共同一作中，張培源是南洋理工大學研究助理，張愷宸是南洋理工大學四年級本科生，李博為南洋理工大學三年級博士生，指導教師為 MMLab@NTU 劉子緯教授。LMMs-Lab 是一個由學生、研究人員和教師組成的團隊，致力于多模態模型的研究，主要研究方向包括多模態模型的訓練與全面評估，此前的工作包括多模態測評框架 lmms-eval 等。

為什么說理解長視頻難如 “大海撈針”？

現有的 LMMs 在處理長視頻時面臨的一個主要挑戰是視覺 token 數量過多。比如，LLaVA-1.6 對單張圖片就能生成 576 到 2880 個視覺 token。視頻幀數越多，token 數量也就更多。雖然 BLIP2,LLaMA-VID, Chat-UniVI 等工作通過改動 ViT 和語言模型之間的連接層來減少視覺 token 數量，但仍然不能處理特別多的幀數。

此外，缺乏高質量的長視頻數據集也是一大瓶頸?，F有訓練數據集大多是 1 分鐘內的短視頻，即使有長視頻，標注的文本對僅限于視頻的幾個幀，缺乏密集的監督信號。

近日 LMMs-Lab, 南洋理工大學等機構的研究團隊推出了 LongVA 長視頻模型，它可以理解超過千幀的視頻數據，超越了當前一眾開源視頻多模態模型的性能！

論文鏈接：https://arxiv.org/abs/2406.16852
演示地址：https://longva-demo.lmms-lab.com/
代碼地址：https://github.com/EvolvingLMMs-Lab/LongVA

作者團隊首次在多模態領域提出長上下文遷移（Long Context Transfer），這一技術使得多模態大模型（LMMs）能夠在不進行長視頻訓練的情況下，處理和理解超長視頻。他們的新模型 LongVA 能夠處理 2000 幀或者超過 20 萬個視覺 token, 在視頻理解榜單 Video-MME 上實現了 7B 規模的 SoTA。在最新的長視頻 MLVU 榜單上， LongVA 更是僅次于 GPT4-o 的最強模型！

LongVA 的作者總結了下面這張圖，可以看到，目前的多模態大模型在長視頻理解上還不盡如人意，能夠處理的幀數限制了長視頻的處理和理解。為了處理更多的幀，LLaMA-VID 等工作不得不急劇壓縮單張幀對應的 token 數量。

長上下文遷移

針對處理長視頻面臨的挑戰，研究團隊提出了 “長上下文遷移” 這一全新思路。他們認為，目前長視頻大模型的多幀瓶頸不在如如何從 Vision Encoder 抽取壓縮的特征上面（下圖(a)），而在于擴展模型的長上下文能力上。

他們發現，通過簡單地擴展語言模型的在文字上的上下文長度，他們能成功地將這種能力傳遞到視覺模態上，而無需進行任何長視頻訓練。具體做法是，首先通過長文本數據訓練語言模型，然后利用短圖像數據進行模態對齊。他們發現在這樣訓練的模型在測試時就可以直接理解多幀的視頻，省去了長視頻訓練的必要性。

在長語言模型訓練過程中，作者團隊使用了 Qwen2-7B-Instruct 作為底座，并通過長上下文訓練將其文本上下文長度擴展到 224K。訓練過程中使用了 FlashAttention-2、Ring Attention、activation checkpoint 和 parameter offload 等多種優化策略，以提高訓練效率和內存利用率。

在模態對齊階段，作者設計了一個名為 “UniRes” 的統一編碼方案，用于同時處理圖像和視頻。UniRes 方案與 LLaVA-1.6 中的 AnyRes 編碼方案類似，但去處了 base image 部分，針對每個 grid 分別一維化，并在每個網格內進行了 2x2 特征池化。這種方法確保了在將圖像數據擴展到視頻時，能夠保持一致的表示形式。

LongVA 采用了 “短上下文訓練，長上下文測試” 的策略，也就是讓模型在模態對齊階段僅使用圖像 - 文本數據進行訓練，而在測試直接利用長視頻進行處理測試。這種策略有效地展示了長上下文遷移的現象，使得模型能夠在未進行長視頻訓練的情況下，可以獲得理解和處理長視頻的能力。

LongVA 的超強性能

目前還沒有評估 LMMs 長視頻視覺上下文長度的基準測試。為了解決這一問題，LongVA 團隊將大海撈針測試從文本擴展到視覺，并提出了 Visual Needle-In-A-Haystack (V-NIAH) 基準測試。

在 V-NIAH 測試中，團隊設計了 5 個圖像問答問題，將每個問題作為單幀插入到數小時的電影中，并以 1 幀 / 秒的頻率采樣視頻作為視覺輸入。這些 “針” 的圖像來源于現有的視覺問答數據集或 AI 生成的圖像，這樣是為了確保模型無法僅通過語言知識來回答問題。每個問題都包含一個 “定位提示”，使得正確的系統或人類能夠從視頻中定位 “針” 幀并回答問題。

V-NIAH 測試結果顯示，LongVA 在 2000 幀（每幀 144 個 token）以內的視覺大海撈針測試幾乎全對，在 3000 幀的尺度上也保持了不錯的正確率。有趣的是，和語言模型類似，他們發現 LongVA 在 V-NIAH 上也存在一定程度的 Lost-In-The-Middle 現象。

在最近騰訊，中科大等機構提出的 Video-MME 榜單上， LongVA 排名第七并且達到了 7B 模型的 SoTA。

https://video-mme.github.io/home_page.html#leaderboard

在智源聯合北郵、北大和浙大等多所高校推出的 MLVU 基準測試中， LongVA 更是僅次于 GPT-4o，位列最強的開源模型。

https://github.com/JUNJIE99/MLVU/

作者團隊在論文中也附上了一些效果展示。

更多細節，感興趣的讀者可以查看原論文。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：色噜噜狠狠色综合中国 | 亚洲高清久久 | 久久一区二区视频 | 中文字幕成人 | 国产乱码精品一区二区三区忘忧草 | 久草网址| 欧美不卡网站 | 亚洲不卡视频 | 中文字幕一区二区三区乱码在线 | 亚洲精品免费在线 | 成人在线视频一区 | 亚洲一区二区三区视频 | 日韩国产三区 | 久久久国产网站 | 国产成人午夜高潮毛片 | 中文字幕精品一区二区三区精品 | 久久精品亚洲精品国产欧美 | 国产成人精品一区二区三区在线 | 最新av中文字幕 | 国产精品亚洲欧美日韩一区在线 | 亚洲激情一级片 | 国产欧美在线 | av在线天天 | 亚洲午夜久久久 | 精品欧美二区 | 欧美一区精品 | 欧美一区二区大片 | 碰碰视频 | 欧美色综合天天久久综合精品 | 国产成人99久久亚洲综合精品 | 99婷婷| 福利社午夜影院 | 亚州精品天堂中文字幕 | 羞羞视频网站免费观看 | 亚洲精品久久久久久一区二区 | 特黄色一级毛片 | 欧美日韩综合一区 | 亚洲成人午夜电影 | 成人精品鲁一区一区二区 | 欧美激情国产日韩精品一区18 | 亚洲欧美一区二区三区国产精品 |