開源視頻版GPT-4o？快速記憶，實時問答，拿下CVPR'24長視頻問答競賽冠軍

作者：機器之心 2024-07-08 08:25:00

大模型產業發展，需要可信中立的數據深加工平臺，如何填補空白？

張顥繼：清華大學本科生，師從唐彥嵩老師，主要研究方向為視頻理解。
王逸欽：清華大學深圳國際研究生院碩士生，師從唐彥嵩老師，主要研究方向為多模態學習。
唐彥嵩博士：清華大學深圳國際研究生院助理教授，主要研究方向為計算機視覺與模式識別。
劉鏞：清華大學深圳國際研究生院博士生，師從唐彥嵩老師，主要研究方向為視覺分割、視頻理解。
馮佳時博士：字節跳動視覺研究的負責人，他的研究領域包括深度學習及其在計算機視覺中的應用。
代季峰博士：清華大學電子工程系副教授，主要研究方向為視覺基礎模型與自動駕駛。
項目 Leader，靳瀟杰博士：現就職于字節跳動美國研究院，研究方向包括多模態基礎模型、生成式學習、視頻編輯等。

基于 ChatGPT、LLAMA、Vicuna [1, 2, 3] 等大語言模型（Large Language Models，LLMs）的強大理解、生成和推理能力，多模態大模型（Large Multimodal Models，LMMs）在圖片視覺理解任務上取得了成功，如 MiniGPT-4、LLAVA [4, 5, 6] 等等。更進一步地，一些工作將 LMM 強大的圖片理解能力遷移到視頻領域，使得視頻內容理解和推理成為可能，例如 Video-ChatGPT、Vista-LLaMA [7, 8] 等。

然而，大多數多模態模型僅能對較短的離線視頻數據進行文本描述或問答，對于長視頻和在線視頻流的理解能力比較有限。讓模型具有理解長視頻的能力是通往更智能的模型甚至達到 AGI 的路徑。這一研究空白限制了多模態大模型在許多在線場景中的實際應用，如具身人工智能、智能監控系統等。

針對這點，一些工作 [9, 10] 開始研究如何增強對長視頻的理解能力，大多基于幀采樣和特征融合的方法。然而，現有的方法存在以下缺點：1) 顯存開銷和回答延遲隨輸入幀數量增長，這為長視頻理解帶來困難，只能使用稀疏采樣等方式，而這會顯著影響模型性能。2) 無法處理在線視頻流，只能將在線視頻流進行分段處理，難以處理新輸入的視頻片段與舊視頻片段之間的信息交互，阻礙了 LMM 對長視頻流整體的理解能力。

為了解決此問題，字節跳動聯合清華大學的研究人員仿照人類的感知和記憶機制，提出了首個針對長視頻流的在線理解多模態大模型 Flash-VStream。

在具體介紹它之前，先來體驗一下 Flash-VStream 的實時問答能力：

我們可以看到模型對長視頻上下文有比較好的記憶能力，能夠給出符合視頻情景的回復。例如在 56:00 時刻提問抓取面粉（發生在十幾分鐘之前）之后主人公做了什么動作，模型能夠迅速給出正確而詳細的回答。Flash-VStream 模型能夠處理針對大時間跨度的視頻問題，反映了模型具有高效記憶長視頻視覺信息的能力。

相比之前的工作，Flash-VStream 的優勢在于：

能夠在線處理極長的視頻流數據，快速記憶重要信息，實時回答用戶提問。
隨著輸入幀數量的增加，顯存開銷和回答延遲幾乎沒有變化，實現了高效的長視頻理解。
利用 STAR 記憶機制對不同粒度語義信息進行高效融合，在多個長視頻問答 benchmark 上達到 SOTA。

Flash-VStream 不僅在多個長視頻理解 benchmark 上表現優秀，還獲得了 CVPR'24 長視頻問答競賽 Long-Term Video Question Answering Challenge @ CVPR 2024 Workshop 的冠軍。

地址：https://sites.google.com/view/loveucvpr24/track1

更進一步，為了支持這一研究領域的模型評價和改進，研究團隊在 Ego4D [11] 和 Movienet [12] 的基礎上，借助 GPT-4V 構建了一個面向在線視頻流問答場景的數據集 VStream-QA，它包含總計 21h 的視頻，平均長度為 40min，每個問答對都基于特定的已標注的時間區間。在評價時，要求模型在多個時間點，基于到當時刻為止的視頻片段回答問題。

項目主頁：https://invinciblewyq.github.io/vstream-page
論文鏈接：https://arxiv.org/abs/2406.08085
代碼倉庫：https://github.com/IVGSZ/Flash-VStream
在線體驗：https://huggingface.co/spaces/IVGSZ/Flash-VStream-demo

不同于傳統視頻理解 LMM，Flash-VStream 將視覺信息感知記憶和問答交互解耦，使用多進程系統實現了對長視頻流的實時處理。那么這項研究具體是如何做的呢？

模型核心：STAR 記憶機制

如論文中的框架圖所示，Flash-VStream 架構十分簡潔，由幀處理進程和問題處理進程組成，其模型包括四個主要部分：1) 預訓練的 CLIP-ViT 視覺編碼器；2) 大語言模型；3）STAR 記憶機制；4）特征緩沖區。其中，后兩者是 Flash-VStream 的核心。STAR 記憶包括 “空間”、“時間”、“抽象”、“檢索” 四種記憶模塊，用于高效融合不同粒度的語義信息，實現了幀級別的信息聚合。特征緩沖區輔助檢索記憶，類似于人類回憶起印象深刻的事件一樣，從歷史視頻中檢索出關鍵信息，以提高模型對長視頻中重要事件細節的理解能力。

其中，空間記憶和檢索記憶每幀具有最多的 token 數量，時間記憶次之，抽象記憶每幀僅用 1 個 token 表示。這種設計高效表示了從最具體到最抽象的視覺特征。為了得到更小的特征圖，Flash-VStream 在空間維度使用平均池化操作。

根據研究人員的描述，STAR 記憶采用了四種簡潔高效的記憶更新機制：

對于空間記憶和特征緩沖區，通過 FIFO（First-In-First-Out）隊列更新。隊列維護了最新的若干幀，確保模型對最新的細粒度空間信息有較強的感知能力。
對于時間記憶，當輸入 token 數量超過記憶容量時，采用加權 K-means 聚類算法進行幀級別的特征聚合。該算法將時間記憶的 token 和新輸入的 token 一起聚類為一些簇（簇的數量就是記憶容量，簇的大小是其所包含幀的數量），并用這些簇的質心作為新記憶，代表相應的關鍵事件信息。這種方法可以簡潔高效地存儲時序相關的上下文信息。
對于抽象記憶，引入了語義注意力模型（Semantic Attention），將空間與時間特征抽象成最高層次的語義特征。該模型用基于注意力和動量的方式更新抽象記憶，使其始終表示視頻級別的高層次語義信息。
對于檢索記憶，通過識別關鍵幀特征進行更新。首先從時間記憶中選擇出最大的若干簇，然后從特征緩沖區中檢索出與這些簇的質心 L2 距離最近的幀的特征，以此作為關鍵事件的回憶，為時間記憶補充相應的細粒度信息。

Flash-VStream 憑借其創新性的 STAR 記憶機制，不僅能夠高效融合不同粒度的語義信息，還能通過特征緩沖區的輔助，精確地回憶和檢索長視頻中重要事件的細節信息，從而顯著提升模型的理解能力與性能。

VStream-QA 數據集

有了上述實現方案，還需要有合適的測試數據來評價模型對在線視頻流的理解能力。回顧現有的長視頻問答數據集，它們的主要目的大多是評價模型的描述性問答能力、時序理解能力、電影理解能力等，均屬于離線理解能力。并且它們的視頻平均長度局限在 4 分鐘以內。

為了解決這些問題，研究團隊篩選了 Ego4d 和 Movienet 中的一部分視頻片段，為每個視頻片段標注了多個問答對，并標記了答案所在的視頻區間。在測試時，要求模型在多個時間點，基于到當時刻為止的視頻片段回答問題，以此測試模型的在線視頻流理解能力。這就是 VStream-QA 數據集，其樣例如下圖所示：

和主流的開放詞典離線視頻問答數據集相同，VStream-QA 數據集也采用基于 GPT-3.5 的評價指標。具體來說，向 GPT-3.5 輸入問題、標準答案、模型的預測三元組，由 GPT 模型來判斷該答案是否準確回答，以及可信度分數是多少。統計所有問題的指標即為準確率（Acc.）和可信度分數（Sco.）。

算法測評

研究團隊在新提出的在線視頻流問答 Real-time VStream-QA Benchmark 上評測了 Flash-VStream 的實時視頻理解性能，包括 RVS-Ego 和 RVS-Movie 兩個子集。得益于 STAR 記憶機制的高效設計，Flash-VStream 具有極低的回答延遲和顯存占用，并且幾乎不隨輸入幀的數量變化，為實時問答的性能提供保障。

同時，為了評價 Flash-VStream 模型對于離線視頻的理解能力，研究團隊在四個離線視頻問答 Benchmark 上評測了 Flash-VStream 的視頻理解性能。此外，還在離線版 VStream-QA 數據集進行了測試，分為 VS-Ego 和 VS-Movie 兩個子集。離線版 VStream-QA 數據集針對每個問題，只輸入該問題答案所在的視頻片段并進行提問，相比于在線版 Real-time VStream-QA 難度較低。

在六個 benchmark 的準確率和可信度分數上，Flash-VStream 的性能均優于其他方法，證明其強大的離線視頻理解能力。

感興趣的小伙伴可以關注一波，代碼已經開源啦～

責任編輯：張燕妮來源：機器之心

模型數據

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開源視頻版GPT-4o？快速記憶，實時問答，拿下CVPR'24長視頻問答競賽冠軍

模型核心：STAR 記憶機制

VStream-QA 數據集

算法測評