首個視頻思維鏈推理框架Video-of-Thought來了:像人一樣從感知到認知全面推理視頻
本文作者來自于新加坡國立大學、南洋理工大學以及哈工深。其中,費豪的研究方向為多模態學習、多模態大語言模型。吳勝瓊,新加坡國立大學博士生,主要研究方向為多模態大語言模型。吉煒的主要研究方向為多模態學習,多模態內容生成。張含望教授的研究興趣包含計算機視覺、因果推斷。張梅山教授的研究方向包括代碼智能,自然語言處理,多模態生成與理解。Mong-Li Lee和Wynne Hsu教授的研究方向為社交媒體分析,協同機器學習等等。
最近,新加坡國立大學聯合南洋理工大學和哈工深的研究人員共同提出了一個全新的視頻推理框架,這也是首次大模型推理社區提出的面向視頻的思維鏈框架(Video-of-Thought, VoT)。視頻思維鏈VoT讓視頻多模態大語言模型在復雜視頻的理解和推理性能上大幅提升。該工作已被ICML 2024錄用為Oral paper。
- 論文鏈接: https://openreview.net/pdf?id=fO31YAyNbI
- 項目鏈接: http://haofei.vip/VoT/
從感知到認知的飛躍
相比于理解和推理靜態的圖片,在視覺處理社區,推理視頻的難度要復雜困難很多,因為視頻天然地存在更具挑戰的動態時序特性,以及存在更多冗余的視覺內容。過去的視頻理解研究多集中于視頻的淺層感知,如視頻動作識別、動態識別和視頻描述生成。然而,這些方法對復雜視頻的深入理解和推理仍存在顯著不足。相較于淺層的視頻感知,復雜視頻的推理不僅需要對視頻的時空特性有復雜的理解,還需深刻把握像素背后的內在高階常識。為了徹底解決這一問題,VoT應運而生。
對于人類而言,理解視頻就像吃飯喝水一樣簡單。那么我們人類是如何進行視頻理解推理的呢?我們不妨考慮以下一個案例。以下的這段視頻展示了一個場景:一輛高速行駛的汽車與一輛紅色油罐卡車在公路上相撞。對應的問題是:“這輛紅色油罐卡車會發生什么?”
當人類拿到這個題目的視頻,首先,我們會根據問題確定感興趣的目標,即紅色油罐卡車。然后,我們會仔細觀看視頻,跟蹤目標對象在視頻中的動作語義。接著,我們會進行一些深入和高層次的推理,可能會結合一些常識知識。最后,我們給出推理答案:“可能會著火甚至爆炸。”
雙重能力:感知與認知的完美結合
從以上的人類的認知模式和模式汲取靈感,研究團隊指出,要實現復雜視頻推理,需要具備兩個關鍵能力:像素理解的感知能力和語義理解的認知能力。并且最重要的是,視頻推理可能不是一個瞬時一步到位的過程,而是一個由低級感知到高級認知的多跳過程。
感知能力:為了實現精確的內容感知,必須對視頻運動進行細致的像素級理解。這個過程可能需要深入結合給定的視頻內容,并且具備精細的內容定位。
然而,大多數現有視頻理解方法局限于實例分析,缺乏精細的控制和準確的對象級識別或跟蹤,更不用說深入的視頻理解了。
認知能力:深入的推理需要認知能力,允許模型提供合理的解釋甚至因果想象。這個層次需要結合一定的世界常識知識。例如理解「從高處跳下可能導致骨折」,或者「與油罐車相撞可能引發爆炸」。
全新推理框架:視頻思維鏈的誕生
為了實現這一目標,研究團隊提出了一個全新的推理框架——“視頻思維鏈”。該思維鏈將復雜的視頻推理問題分解為從底層視覺感知到上層常識認知的一系列子問題。
與此同時,為了協助實現上述的細粒度視頻感知能力,作者還提出利用時空場景圖(Spatial-Temporal Scene Graph, STSG)表征協助推理過程,幫助生成的細粒度感知中間結果,從而實現精細的時空特征理解。
并與視頻多模態大模型相結合,最終提出了一個全新的視頻MLLM, MotionEmpic。
實驗結果表明,作者提出的全新推理框架可顯著提升模型在各類視頻QA上的性能,超越了當前所有傳統視頻MLLM以及CoT方法的表現。
A.視頻思維鏈VoT推理框架
VoT推理框架一共包含5個步驟:
Step-1:任務定義與目標識別
首先,給定輸入視頻和問題,VoT會識別問題中涉及的所有可能目標。這個過程確保系統明確了解需要分析的對象和相關任務。
Step-2:目標追蹤
接下來,VoT分析視頻內容,追蹤問題所涉及的目標行為軌跡,輸出感知層面的時空場景圖 (STSG)。生成的關于目標軌跡STSG將為下一步行為分析的感知證據。
Step-3:行為分析
在這一步中,VoT通過整合STSG中的目標跟蹤結果,進一步提示模型考慮更多潛在相關的常識知識,使模型能夠將視頻像素觀察與現實世界聯系起來,實現對視頻的更深入理解。
Step-4:排名機制回答問題
在深入理解了視頻中目標行為之后,現在開始回答原始問題。首先,本系統將所有QA問題統一為多項題,即從提供的多個候選答案中選出最終答案。進一步,受人類解答多選題的模式啟發,本系統還采用了排名機制來確定最終答案。具體來說,對于每個候選答案,VoT將提示模型根據常識知識評估其可能性(從1到10),并提供相應的理由。最終根據,排名高的候選則為最終回答。
Step-5:答案驗證
鑒于復雜視頻任務通常涉及復雜的問題和答案,并且整個推理過程包含了多個環節,因此核實上一步提供的答案至關重要。本系統的基本核驗思路是,假設答案A是正確的,我們將從兩個方面回顧性評估答案是否與輸入問題和視頻內容相矛盾:
- 感知驗證:檢查像素定位信息是否與視頻中從感知角度呈現的事實一致。
- 認知驗證:從認知角度提示模型,確定答案中固有的常識性知識是否與第三步推理中推斷出的主要觀察結果相矛盾。
最終,確保VoT能夠輸出最正確的結果。
VoT推理框架的五個步驟,從任務定義與目標識別,到最終的答案驗證,全面提升了視頻理解和推理的精確性和可靠性,為復雜視頻任務提供了強有力的解決方案
B.實驗驗證
1. 主實驗比較
作者首先在多個復雜VideoQA的數據集上進行了測試。實驗結果證明VoT在所有的測試集上獲得了持續的強于SoTA基線模型的表現,甚至超越傳統CoT的性能。
2. Zero-shot結果
接下來,作者比較了不同模型在zero-shot下的性能。值得注意的是,相比較與傳統的CoT,VoT性能提升更大、更明顯。并且,在兩個復雜的視頻問答任務上的增強效果比在相對簡單的任務(例如,MSR-VTT和ActivityNet)上的增強更為明顯。這主要是因為后者的數據集更傾向于感知推理(例如,描述視頻中的內容),而不是認知推理(例如,解釋、預見)。
3. 推理能力詳細分析
首先,作者進行了人類評估。如圖7上表所示,使用VoT推理框架的MotionEpic取得了相當出色的結果,甚至可以與人類表現相媲美。進一步,作者總結了六種常見的錯誤案例,并分析六種最常見錯誤類別的差異。如圖下部分所示,MotionEpic(使用VoT)顯著降低了VideoLLaVA(使用CoT)的錯誤率,特別是在動作語義和常識理解方面。
4. 推理過程可視化分析
最后,作者通過一個案例分析直觀地展示了VoT的優越性。如圖8所示,視頻內容顯示了“訓導員帶著小狗跨越各類障礙比賽”的復雜場景,而給定的問題是抽象且復雜,需要結合常識,而不能簡單地通過視頻本身的感知直接回答。實驗結果發現,只有本系統給出了正確的答案。具體地,在內容感知層面,VoT通過基于STSG的視頻定位確保了準確且穩健的理解,防止了幻覺,即正確地解釋了動物是一只狗,然后從常識推斷場景涉及訓練者正在訓練狗。然后,在認知層面,它分析每個選項以確定最佳答案。通過進一步驗證,結果與視頻內容和事實常識理解一致。總體而言,通過問題分解,整個推理在每個步驟上大大提高了準確性,同時確保了一個可解釋的過程決策理由。
作者還提供了更多的可視化分析: