離線VLLM魔改流式
通過內存緩沖+輪次壓縮解決上下文記憶和效率矛盾,通過外部激活模型實現主動性,是StreamBridge 的關鍵創新點
傳統的視頻大語言模型 (Video-LLM)通常一次性處理整個視頻,對實時輸入支持不足。然而在機器人、無人駕駛等應用中,需要模型具有因果感知和動態反應能力,即能夠在視頻流不斷到來時及時理解新內容并主動輸出。
StreamBridge提出了一個簡單有效的框架,將現有的離線Video-LLM縫升級為可處理流式視頻的系統。它針對流式場景中的兩大核心挑戰:(1) 多輪實時理解:模型需要持續跟蹤最近視頻幀,同時結合歷史上下文多輪交互;(2) 主動響應生成:模型應當主動監控視頻流,在關鍵時刻生成回應,而不必等待用戶明確提問。
上圖為流式視頻理解場景示例。上面的部分為多輪交互模式,用戶在不同時間點提問;下面展示了主動響應模式,模型根據視頻內容主動輸出。在上方示例中,用戶在視頻播放過程中多次提問,每輪關注最近的視頻段并結合歷史信息進行回答;在下方示例中,助手無需提示,通過繪畫過程的展開主動輸出指導性反饋。
1.三大配方
StreamBridge旨在彌合離線與流式之間的鴻溝,使預訓練視頻模型在上述場景中表現出色。StreamBridge 框架與關鍵技術: 為實現流式理解,StreamBridge在已有Video-LLM基礎上引入了三大組件:
1)內存緩沖 (Memory Buffer): 對每一幀圖像,系統首先通過視覺編碼器提取嵌入向量,并連同任何生成的文本嵌入向量存入內存緩沖區。當收到用戶查詢Q且激活模型 (Activation Model)發出明確的觸發信號D時,緩沖區中的視覺和文本嵌入被展開成序列輸入LLM生成回答。生成的回答R也會追加到緩沖區,以保留完整的多輪交互歷史。這樣,StreamBridge能夠累積上下文,不斷擴展對話歷史而不丟失前文信息。
2)輪次衰減壓縮 (Round-Decayed Compression):
隨著視頻流時間增長,緩沖區內嵌入序列長度會不斷增加。為避免過長輸入帶來的計算和延遲問題,StreamBridge 設計了輪次衰減壓縮策略。具體來說,系統預設最大允許長度MaxLen,若當前輸入超過該閾值,則從最早的對話輪開始,對視覺嵌入逐幀進行平均池化合并,直至序列長度在MaxLen之內。這一策略能減少傳遞給LLM的信息量,同時保留了與當前回答最相關的近期視覺上下文。
3)激活模型 (Activation Model):
為了實現主動響應,StreamBridge引入了一個解耦的、輕量級的激活子模型。該激活模型本質上是一個獨立的小型多模態LLM,它在每個時間步依據當前幀(及可選的查詢Q)預測是否需要觸發主模型輸出。具體地,在訓練時向每幀視覺嵌入添加可學習的激活標記,并將該幀的最新激活標記輸入激活模型的二分類頭預測響應概率。若預測分數超過閾值alpha,則激活信號D為真,主Video-LLM將基于緩沖區內容生成回答。通過這一機制,StreamBridge可以及時響應關鍵信號,在無需明確提問的情況下主動輸出結果,從而體現出類似人類的主動行為。
StreamBridge的本次研究的核心貢獻在于一方面它給出了一個通用的解決方案,將任何預訓練的離線Video-LLM快速適配到流式理解場景,無需全盤重訓,僅需額外添加上述輕量組件即可。原模型的離線視頻理解能力得到保留,且同時具備了多輪交互和主動輸出的能力。
另一方面,StreamBridge組建了一個大規模流式視頻理解數據集Stream-IT。該數據集重新整理了多種公開數據(如密集視頻字幕、序列步驟識別、帶時標的VideoQA等),并生成了跨越長視頻的流水式問答對,涵蓋多樣的任務類型與指令格式,為流式Video-LLM的訓練和評測提供了重要資源。
2.性能評估
StreamBridge設計中針對延遲和長期記憶做了多項優化。內存緩沖機制確保多輪交互中的歷史上下文不丟失,而輪次衰減壓縮則在保證近期上下文信息的同時削減不必要的舊幀細節,從而減輕每次推理時的信息量。這些措施聯合降低了單步推理的計算延遲。另一方面,激活模型的引入使系統無需對每幀都進行完整推理,而是只在檢測到關鍵幀時才觸發模型響應。這意味著系統可以在后臺持續觀察視頻,當有重要視覺變化或用戶關注點時才即時輸出,避免了不必要的重復計算。綜上,StreamBridge通過內存管理和智能觸發策略,在流水線處理和時延控制方面取得了良好的平衡。
實驗設置與對比分析: 為評估StreamBridge的效果,在多個任務和基準上進行了測試。實驗中使用了主流Video-LLM模型(如LLaVA-OV-7B、Qwen2-VL-7B、Oryx-1.5-7B),并在構建的Stream-IT數據集(約60萬條示例)上進行了微調,增強模型的流式理解能力。測試基準包括多輪實時理解任務(如OVO-Bench、Streaming-Bench)和常規模態視頻理解基準(如MVBENCH、VideoQA等)。
結果表明,采用StreamBridge后,各模型在流式任務上表現顯著提升:例如,Qwen2-VL模型在OVO-Bench上的平均得分由約55.98提高到63.35,在Streaming-Bench上由69.04提高到72.01。進一步對模型進行Stream-IT數據集微調后,Qwen2-VL分別達到了71.30和77.04,甚至超過了GPT-4o和Gemini 1.5 Pro;Oryx-1.5模型在OVO-Bench上提高了11.92分,Streaming-Bench上提高了4.2分。
StreamBridge 框架為視頻多模態大模型的實時應用提供了一種通用可行的解決方案。通過內存緩沖、動態壓縮和激活模型三者協同,離線訓練的Video-LLM成功具備了實時多輪交互和主動響應的能力。實驗驗證了其在流式視頻理解中的有效性和通用性。
本文轉載自????魯班模錘????,作者:龐德公
