成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開源視頻版GPT-4o?快速記憶,實時問答,拿下CVPR'24長視頻問答競賽冠軍

人工智能 新聞 開源
大模型產業發展,需要可信中立的數據深加工平臺,如何填補空白?
  • 張顥繼:清華大學本科生,師從唐彥嵩老師,主要研究方向為視頻理解。
  • 王逸欽:清華大學深圳國際研究生院碩士生,師從唐彥嵩老師,主要研究方向為多模態學習。
  • 唐彥嵩博士:清華大學深圳國際研究生院助理教授,主要研究方向為計算機視覺與模式識別。
  • 劉鏞:清華大學深圳國際研究生院博士生,師從唐彥嵩老師,主要研究方向為視覺分割、視頻理解。
  • 馮佳時博士:字節跳動視覺研究的負責人,他的研究領域包括深度學習及其在計算機視覺中的應用。
  • 代季峰博士:清華大學電子工程系副教授,主要研究方向為視覺基礎模型與自動駕駛。
  • 項目 Leader,靳瀟杰博士:現就職于字節跳動美國研究院,研究方向包括多模態基礎模型、生成式學習、視頻編輯等。

基于 ChatGPT、LLAMA、Vicuna [1, 2, 3] 等大語言模型(Large Language Models,LLMs)的強大理解、生成和推理能力,多模態大模型(Large Multimodal Models,LMMs)在圖片視覺理解任務上取得了成功,如 MiniGPT-4、LLAVA [4, 5, 6] 等等。更進一步地,一些工作將 LMM 強大的圖片理解能力遷移到視頻領域,使得視頻內容理解和推理成為可能,例如 Video-ChatGPT、Vista-LLaMA [7, 8] 等。

然而,大多數多模態模型僅能對較短的離線視頻數據進行文本描述或問答,對于長視頻和在線視頻流的理解能力比較有限。讓模型具有理解長視頻的能力是通往更智能的模型甚至達到 AGI 的路徑。這一研究空白限制了多模態大模型在許多在線場景中的實際應用,如具身人工智能、智能監控系統等。

針對這點,一些工作 [9, 10] 開始研究如何增強對長視頻的理解能力,大多基于幀采樣和特征融合的方法。然而,現有的方法存在以下缺點:1) 顯存開銷和回答延遲隨輸入幀數量增長,這為長視頻理解帶來困難,只能使用稀疏采樣等方式,而這會顯著影響模型性能。2) 無法處理在線視頻流,只能將在線視頻流進行分段處理,難以處理新輸入的視頻片段與舊視頻片段之間的信息交互,阻礙了 LMM 對長視頻流整體的理解能力。

為了解決此問題,字節跳動聯合清華大學的研究人員仿照人類的感知和記憶機制,提出了首個針對長視頻流的在線理解多模態大模型 Flash-VStream

在具體介紹它之前,先來體驗一下 Flash-VStream 的實時問答能力:

我們可以看到模型對長視頻上下文有比較好的記憶能力,能夠給出符合視頻情景的回復。例如在 56:00 時刻提問抓取面粉(發生在十幾分鐘之前)之后主人公做了什么動作,模型能夠迅速給出正確而詳細的回答。Flash-VStream 模型能夠處理針對大時間跨度的視頻問題,反映了模型具有高效記憶長視頻視覺信息的能力

相比之前的工作,Flash-VStream 的優勢在于:

  • 能夠在線處理極長的視頻流數據,快速記憶重要信息,實時回答用戶提問
  • 隨著輸入幀數量的增加,顯存開銷和回答延遲幾乎沒有變化,實現了高效的長視頻理解。
  • 利用 STAR 記憶機制對不同粒度語義信息進行高效融合,在多個長視頻問答 benchmark 上達到 SOTA。

圖片

圖片

Flash-VStream 不僅在多個長視頻理解 benchmark 上表現優秀,還獲得了 CVPR'24 長視頻問答競賽 Long-Term Video Question Answering Challenge @ CVPR 2024 Workshop 的冠軍

地址:https://sites.google.com/view/loveucvpr24/track1

更進一步,為了支持這一研究領域的模型評價和改進,研究團隊在 Ego4D [11] 和 Movienet [12] 的基礎上,借助 GPT-4V 構建了一個面向在線視頻流問答場景的數據集 VStream-QA,它包含總計 21h 的視頻,平均長度為 40min,每個問答對都基于特定的已標注的時間區間。在評價時,要求模型在多個時間點,基于到當時刻為止的視頻片段回答問題。

圖片


  • 項目主頁:https://invinciblewyq.github.io/vstream-page
  • 論文鏈接:https://arxiv.org/abs/2406.08085
  • 代碼倉庫:https://github.com/IVGSZ/Flash-VStream
  • 在線體驗:https://huggingface.co/spaces/IVGSZ/Flash-VStream-demo

圖片

不同于傳統視頻理解 LMM,Flash-VStream 將視覺信息感知記憶和問答交互解耦,使用多進程系統實現了對長視頻流的實時處理。那么這項研究具體是如何做的呢?

模型核心:STAR 記憶機制

圖片

如論文中的框架圖所示,Flash-VStream 架構十分簡潔,由幀處理進程和問題處理進程組成,其模型包括四個主要部分:1) 預訓練的 CLIP-ViT 視覺編碼器;2) 大語言模型;3)STAR 記憶機制;4)特征緩沖區。其中,后兩者是 Flash-VStream 的核心。STAR 記憶包括 “空間”、“時間”、“抽象”、“檢索” 四種記憶模塊,用于高效融合不同粒度的語義信息,實現了幀級別的信息聚合。特征緩沖區輔助檢索記憶,類似于人類回憶起印象深刻的事件一樣,從歷史視頻中檢索出關鍵信息,以提高模型對長視頻中重要事件細節的理解能力。

其中,空間記憶和檢索記憶每幀具有最多的 token 數量,時間記憶次之,抽象記憶每幀僅用 1 個 token 表示。這種設計高效表示了從最具體到最抽象的視覺特征。為了得到更小的特征圖,Flash-VStream 在空間維度使用平均池化操作。

圖片

根據研究人員的描述,STAR 記憶采用了四種簡潔高效的記憶更新機制:

  • 對于空間記憶和特征緩沖區,通過 FIFO(First-In-First-Out)隊列更新。隊列維護了最新的若干幀,確保模型對最新的細粒度空間信息有較強的感知能力。
  • 對于時間記憶,當輸入 token 數量超過記憶容量時,采用加權 K-means 聚類算法進行幀級別的特征聚合。該算法將時間記憶的 token 和新輸入的 token 一起聚類為一些簇(簇的數量就是記憶容量,簇的大小是其所包含幀的數量),并用這些簇的質心作為新記憶,代表相應的關鍵事件信息。這種方法可以簡潔高效地存儲時序相關的上下文信息。
  • 對于抽象記憶,引入了語義注意力模型(Semantic Attention),將空間與時間特征抽象成最高層次的語義特征。該模型用基于注意力和動量的方式更新抽象記憶,使其始終表示視頻級別的高層次語義信息。
  • 對于檢索記憶,通過識別關鍵幀特征進行更新。首先從時間記憶中選擇出最大的若干簇,然后從特征緩沖區中檢索出與這些簇的質心 L2 距離最近的幀的特征,以此作為關鍵事件的回憶,為時間記憶補充相應的細粒度信息。

Flash-VStream 憑借其創新性的 STAR 記憶機制,不僅能夠高效融合不同粒度的語義信息,還能通過特征緩沖區的輔助,精確地回憶和檢索長視頻中重要事件的細節信息,從而顯著提升模型的理解能力與性能。

VStream-QA 數據集

有了上述實現方案,還需要有合適的測試數據來評價模型對在線視頻流的理解能力。回顧現有的長視頻問答數據集,它們的主要目的大多是評價模型的描述性問答能力、時序理解能力、電影理解能力等,均屬于離線理解能力。并且它們的視頻平均長度局限在 4 分鐘以內。

圖片

為了解決這些問題,研究團隊篩選了 Ego4d 和 Movienet 中的一部分視頻片段,為每個視頻片段標注了多個問答對,并標記了答案所在的視頻區間。在測試時,要求模型在多個時間點,基于到當時刻為止的視頻片段回答問題,以此測試模型的在線視頻流理解能力。這就是 VStream-QA 數據集,其樣例如下圖所示:

圖片

和主流的開放詞典離線視頻問答數據集相同,VStream-QA 數據集也采用基于 GPT-3.5 的評價指標。具體來說,向 GPT-3.5 輸入問題、標準答案、模型的預測三元組,由 GPT 模型來判斷該答案是否準確回答,以及可信度分數是多少。統計所有問題的指標即為準確率(Acc.)和可信度分數(Sco.)。

算法測評

研究團隊在新提出的在線視頻流問答 Real-time VStream-QA Benchmark 上評測了 Flash-VStream 的實時視頻理解性能,包括 RVS-Ego 和 RVS-Movie 兩個子集。得益于 STAR 記憶機制的高效設計,Flash-VStream 具有極低的回答延遲和顯存占用,并且幾乎不隨輸入幀的數量變化,為實時問答的性能提供保障。

圖片

同時,為了評價 Flash-VStream 模型對于離線視頻的理解能力,研究團隊在四個離線視頻問答 Benchmark 上評測了 Flash-VStream 的視頻理解性能。此外,還在離線版 VStream-QA 數據集進行了測試,分為 VS-Ego 和 VS-Movie 兩個子集。離線版 VStream-QA 數據集針對每個問題,只輸入該問題答案所在的視頻片段并進行提問,相比于在線版 Real-time VStream-QA 難度較低。

圖片

在六個 benchmark 的準確率和可信度分數上,Flash-VStream 的性能均優于其他方法,證明其強大的離線視頻理解能力。

感興趣的小伙伴可以關注一波,代碼已經開源啦~

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-14 14:30:00

AI訓練

2024-06-21 13:04:43

2024-08-30 14:35:00

2025-04-08 02:26:00

2025-05-26 09:05:00

2025-04-03 09:34:36

2024-05-21 12:23:17

2024-06-05 08:29:35

2024-05-24 15:37:42

2025-04-16 09:15:00

AI模型數據

2024-09-24 11:13:14

2024-09-23 15:10:00

2024-05-14 11:29:15

2024-05-14 07:20:49

模型AI

2024-06-07 08:25:16

2024-05-24 14:04:04

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2023-05-26 08:22:08

MySQL索引數據

2025-03-31 08:44:00

GPT-4o模型技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩在线观看一区二区三区 | 亚洲第一av网站 | 91最新视频 | 中文字幕一区二区三区精彩视频 | www.亚洲区| 亚洲成人久久久 | 伊色综合久久之综合久久 | 欧美特级黄色 | 超碰人人人 | 91看片网| 亚洲成人一区二区三区 | 久久久久久久久91 | 天天干干 | 久久国产精品99久久久久 | 中日韩毛片 | 超碰97人人人人人蜜桃 | 毛色毛片免费看 | 精品美女视频在免费观看 | 欧美456| www国产亚洲精品 | 精品自拍视频在线观看 | 人人澡视频 | 91精品国产综合久久久久久漫画 | 欧美激情在线精品一区二区三区 | 亚洲大片在线观看 | 久草网免费 | 日本中文在线视频 | 天天澡天天狠天天天做 | 亚洲欧美精品久久 | 伊人手机在线视频 | 中文字幕在线观看视频一区 | 免费国产视频 | 欧美三级成人理伦 | 欧美v在线 | 亚洲成人网在线 | 日韩在线视频一区 | 精品乱码一区二区三四区 | 9久久精品 | 午夜视频在线免费观看 | 97超碰中文网 | 欧美一二三 |