Meta AI 發布 Apollo：視頻理解的新家族——LMM 大型多模態模型原創

發布于 2025-1-16 14:43

瀏覽

0收藏

01、概述

近年來，隨著多模態模型（LMMs）在文本和圖像處理任務上的進步，視頻處理領域卻顯得有些“姍姍來遲”。與單一靜態數據相比，視頻集成了時間和空間維度的復雜性，對計算資源的要求更高。然而，現有方法通常沿用圖像處理模型的架構，或依賴簡單的均勻幀采樣，這種方式難以有效捕捉視頻中的動態與時間模式。此外，訓練大規模視頻模型耗費極大的計算資源，使得實驗和創新受限。

為了解決這些問題，Meta AI 和斯坦福大學的研究人員聯合推出了 Apollo —— 一款面向視頻內容的多模態模型家族。Apollo 憑借創新設計、大幅提升效率，并為時間推理（Temporal Reasoning）與視頻問答等任務設立了全新標桿，為視頻理解領域注入了新動能。

02、視頻多模態領域的里程碑：Apollo 家族亮相

Meta AI 發布 Apollo：視頻理解的新家族——LMM 大型多模態模型-AI.x社區

Apollo 是專為視頻語言任務設計的多模態模型，其能力可以覆蓋長達一小時的視頻內容。該家族目前有三種參數規模版本：1.5B、3B 和 7B，為不同的應用場景和計算需求提供靈活選擇。其設計目標是以精益的計算成本，帶來強大的性能表現。

核心創新點

一致性擴展：在小規模模型上的設計能夠無縫遷移至更大規模的模型，減少了大規模實驗的成本。
幀率采樣技術（fps Sampling）：相較傳統的均勻采樣，幀率采樣能夠更高效地保留視頻的動態變化。
雙視覺編碼器（Dual Vision Encoders）：SigLIP 擅長空間理解，InternVideo2 則聚焦時間推理，二者結合提供了全面的視頻數據表征。
ApolloBench 基準測試套件：精簡評估冗余項，提供更詳盡的性能洞察。

03、Apollo 的技術亮點

Meta AI 發布 Apollo：視頻理解的新家族——LMM 大型多模態模型-AI.x社區

Apollo 的每一項設計都針對視頻多模態領域的主要挑戰進行優化，通過獨特的策略實現視頻理解能力的突破。

1）幀率采樣（fps Sampling）

幀率采樣突破了傳統均勻采樣的局限，能夠更精準地捕捉時間序列中的動態變化。例如，Apollo 可以理解視頻中動作的速度、順序和邏輯，使其在時間推理任務中表現優異。

2）一致性擴展（Scaling Consistency）

傳統大規模視頻模型的開發往往需要高昂的資源投入，而 Apollo 的設計證明了，小規模模型（如 2B-4B 參數）中的有效設計可以直接遷移到大規模模型（如 7B 參數），從而降低了開發與訓練的計算開銷。

3）雙視覺編碼器（Dual Vision Encoders）

Apollo 的架構創新在于結合了兩種互補的編碼器：

SigLIP：專注于視頻的空間維度，例如物體的細節與構圖。
InternVideo2：增強了對視頻時間軸的理解，比如動作銜接和節奏。這種組合不僅彌補了單一編碼器的局限，還實現了視頻數據的平衡表征。

4） Token 重采樣（Token Resampling）

長視頻的處理往往涉及大量數據，而 Apollo 借助 Perceiver Resampler 模塊高效地縮減視頻 Token 數量，既減少了計算開銷，又保留了關鍵信息。

5）三階段優化訓練

Apollo 的訓練分為三個階段：

先針對視頻數據微調視覺編碼器；
再與文本和圖像數據集進行集成訓練；
最后優化多模態交互能力。

這種分階段的訓練方式，使得模型的學習過程更加穩定高效。

6）多輪對話能力

Apollo 支持基于視頻內容的多輪交互，例如視頻問答和內容分析。這一特性為打造視頻內容的智能交互系統提供了新的可能性。

04、性能表現：小模型超越大模型

Apollo 的卓越性能不僅體現在其設計理念上，更通過一系列基準測試得到了驗證。在多個評估任務中，Apollo 常常表現優于參數規模更大的模型。

Meta AI 發布 Apollo：視頻理解的新家族——LMM 大型多模態模型-AI.x社區

例如：

Apollo-1.5B：在 Video-MME 和 MLVU 等任務中超越了許多規模為 4.2B 的模型，如 Phi-3.5-Vision。
Apollo-7B：即使與參數量達 30B 的頂尖模型（如 Oryx-34B 和 VILA1.5-40B）相比，也表現出色。

05、ApolloBench：重新定義視頻-LMM 測試標準

與 Apollo 同時發布的還有專為視頻多模態任務設計的評估套件 ApolloBench。傳統基準測試的一個問題是任務設置重復冗余，而 ApolloBench 則通過去冗余設計，提升了評估效率。此外，該測試套件覆蓋了更廣泛的視頻任務維度，為模型性能提供了更全面的洞察。

實際應用：視頻理解的廣泛前景

Apollo 系列模型的出現，不僅為學術研究提供了重要的技術支持，也在多個實際應用場景中展現了潛力：

視頻問答系統：憑借多輪對話能力，Apollo 可以在視頻問答和內容理解中實現流暢交互。
內容分析：為娛樂、教育和廣告領域提供精準的視頻分析服務。
長視頻處理：支持長達一小時的視頻數據處理，適用于會議紀要生成、視頻摘要等復雜任務。

06、結語

Apollo 的問世標志著視頻多模態技術邁入新紀元。通過在幀率采樣、雙視覺編碼器等方面的深度創新，Apollo 不僅在效率和性能上樹立了標桿，也為視頻理解技術的普及和應用提供了更多可能性。無論是學術研究還是實際商業應用，Apollo 都是一款兼具創新性和實用性的工具，其開創性的設計為未來的多模態技術發展提供了全新視角。

參考：