Meta AI 發布 Apollo:視頻理解的新家族——LMM 大型多模態模型 原創
01、概述
近年來,隨著多模態模型(LMMs)在文本和圖像處理任務上的進步,視頻處理領域卻顯得有些“姍姍來遲”。與單一靜態數據相比,視頻集成了時間和空間維度的復雜性,對計算資源的要求更高。然而,現有方法通常沿用圖像處理模型的架構,或依賴簡單的均勻幀采樣,這種方式難以有效捕捉視頻中的動態與時間模式。此外,訓練大規模視頻模型耗費極大的計算資源,使得實驗和創新受限。
為了解決這些問題,Meta AI 和斯坦福大學的研究人員聯合推出了 Apollo —— 一款面向視頻內容的多模態模型家族。Apollo 憑借創新設計、大幅提升效率,并為時間推理(Temporal Reasoning)與視頻問答等任務設立了全新標桿,為視頻理解領域注入了新動能。
02、視頻多模態領域的里程碑:Apollo 家族亮相
Apollo 是專為視頻語言任務設計的多模態模型,其能力可以覆蓋長達一小時的視頻內容。該家族目前有三種參數規模版本:1.5B、3B 和 7B,為不同的應用場景和計算需求提供靈活選擇。其設計目標是以精益的計算成本,帶來強大的性能表現。
核心創新點
- 一致性擴展:在小規模模型上的設計能夠無縫遷移至更大規模的模型,減少了大規模實驗的成本。
- 幀率采樣技術(fps Sampling):相較傳統的均勻采樣,幀率采樣能夠更高效地保留視頻的動態變化。
- 雙視覺編碼器(Dual Vision Encoders):SigLIP 擅長空間理解,InternVideo2 則聚焦時間推理,二者結合提供了全面的視頻數據表征。
- ApolloBench 基準測試套件:精簡評估冗余項,提供更詳盡的性能洞察。
03、Apollo 的技術亮點
Apollo 的每一項設計都針對視頻多模態領域的主要挑戰進行優化,通過獨特的策略實現視頻理解能力的突破。
1) 幀率采樣(fps Sampling)
幀率采樣突破了傳統均勻采樣的局限,能夠更精準地捕捉時間序列中的動態變化。例如,Apollo 可以理解視頻中動作的速度、順序和邏輯,使其在時間推理任務中表現優異。
2) 一致性擴展(Scaling Consistency)
傳統大規模視頻模型的開發往往需要高昂的資源投入,而 Apollo 的設計證明了,小規模模型(如 2B-4B 參數)中的有效設計可以直接遷移到大規模模型(如 7B 參數),從而降低了開發與訓練的計算開銷。
3) 雙視覺編碼器(Dual Vision Encoders)
Apollo 的架構創新在于結合了兩種互補的編碼器:
- SigLIP:專注于視頻的空間維度,例如物體的細節與構圖。
- InternVideo2:增強了對視頻時間軸的理解,比如動作銜接和節奏。這種組合不僅彌補了單一編碼器的局限,還實現了視頻數據的平衡表征。
4) Token 重采樣(Token Resampling)
長視頻的處理往往涉及大量數據,而 Apollo 借助 Perceiver Resampler 模塊高效地縮減視頻 Token 數量,既減少了計算開銷,又保留了關鍵信息。
5) 三階段優化訓練
Apollo 的訓練分為三個階段:
- 先針對視頻數據微調視覺編碼器;
- 再與文本和圖像數據集進行集成訓練;
- 最后優化多模態交互能力。
這種分階段的訓練方式,使得模型的學習過程更加穩定高效。
6) 多輪對話能力
Apollo 支持基于視頻內容的多輪交互,例如視頻問答和內容分析。這一特性為打造視頻內容的智能交互系統提供了新的可能性。
04、性能表現:小模型超越大模型
Apollo 的卓越性能不僅體現在其設計理念上,更通過一系列基準測試得到了驗證。在多個評估任務中,Apollo 常常表現優于參數規模更大的模型。
例如:
- Apollo-1.5B:在 Video-MME 和 MLVU 等任務中超越了許多規模為 4.2B 的模型,如 Phi-3.5-Vision。
- Apollo-7B:即使與參數量達 30B 的頂尖模型(如 Oryx-34B 和 VILA1.5-40B)相比,也表現出色。
05、ApolloBench:重新定義視頻-LMM 測試標準
與 Apollo 同時發布的還有專為視頻多模態任務設計的評估套件 ApolloBench。傳統基準測試的一個問題是任務設置重復冗余,而 ApolloBench 則通過去冗余設計,提升了評估效率。此外,該測試套件覆蓋了更廣泛的視頻任務維度,為模型性能提供了更全面的洞察。
實際應用:視頻理解的廣泛前景
Apollo 系列模型的出現,不僅為學術研究提供了重要的技術支持,也在多個實際應用場景中展現了潛力:
- 視頻問答系統:憑借多輪對話能力,Apollo 可以在視頻問答和內容理解中實現流暢交互。
- 內容分析:為娛樂、教育和廣告領域提供精準的視頻分析服務。
- 長視頻處理:支持長達一小時的視頻數據處理,適用于會議紀要生成、視頻摘要等復雜任務。
06、結語
Apollo 的問世標志著視頻多模態技術邁入新紀元。通過在幀率采樣、雙視覺編碼器等方面的深度創新,Apollo 不僅在效率和性能上樹立了標桿,也為視頻理解技術的普及和應用提供了更多可能性。無論是學術研究還是實際商業應用,Apollo 都是一款兼具創新性和實用性的工具,其開創性的設計為未來的多模態技術發展提供了全新視角。
參考:
本文轉載自公眾號Halo咯咯 作者:基咯咯
