最強o1也剛剛及格！中科大等團隊測試視頻CoT推理能力：多數模型不及格

作者：量子位 2025-04-18 09:13:00

人工智能新聞

中科大等團隊提出了評估基準——VCR-Bench，里面包含七個獨立評估維度的任務框架，每個維度針對性地考察模型的不同能力（如時空推理、因果推斷等）。

視頻理解的CoT推理能力，怎么評？

中科大等團隊提出了評估基準——VCR-Bench，里面包含七個獨立評估維度的任務框架，每個維度針對性地考察模型的不同能力（如時空推理、因果推斷等）。為確保評估的全面性和可靠性，每個維度都設計了100余條高質量樣本。

圖片

結果發現當前多模態模型在視頻復雜推理任務上表現普遍不佳——

最優模型o1僅獲得62.8的CoT得分和56.7%的準確率，大多數模型兩項指標均低于40分，且閉源模型優于開源模型，大模型優于小模型。

具體來看。

多模態視頻理解

在多模態研究領域，視頻數據因其豐富的語義信息和全面的場景細節，為構建復雜的思維鏈（Chain-of-Thought,CoT）推理任務提供了理想載體。

然而，當前多模態研究社區面臨一個關鍵挑戰：

缺乏系統化的評估方法來驗證模型在視頻理解中的CoT推理能力，這嚴重制約了視頻復雜推理任務的研究進展。

針對這一研究空白，中科大等的研究團隊創新性地提出了首個面向視頻CoT推理過程的多模態評估基準（Benchmark）。

該基準通過建立標準化的評估體系，顯著提升了視頻理解任務中推理能力的驗證效度。

此項工作自發布以來獲得了學術界的高度關注，在HuggingFace的4月11日Daily Papers評選中榮登榜單第二位，展現了其重要的學術價值和應用前景。

研究者認為，當前視頻理解領域的評測基準主要存在兩個關鍵性局限：

首先，現有方法普遍僅關注模型輸出的最終結果，而忽視了對推理過程的評估。這種評估方式可能導致”假陽性”現象——即便模型在理解或推理環節存在錯誤，仍可能通過猜測或巧合獲得正確的最終答案。

其次，現有基準缺乏對模型推理能力的多維度解構，無法精準識別模型在復雜推理任務中的能力瓶頸（如視覺感知不足與邏輯推理缺陷的區分）。

這兩個局限性嚴重制約了對視頻理解模型真實推理能力的科學評估。而針對這些問題所提出的VCR-Bench，則能夠很好的實現視頻CoT過程評估，填補現有不足。

△圖1結果評估的局限性

首個面向視頻CoT推理的Benchmark

具體而言，研究團隊首先構建了包含七個獨立評估維度的任務框架，每個維度針對性地考察模型的不同能力（如時空推理、因果推斷等）。

為確保評估的全面性和可靠性，每個維度精心設計了100余條高質量樣本，最終形成包含859個精選視頻和1034組問答對的大規模數據集。

這種多維度的評估體系能夠對模型的綜合推理能力進行全面診斷，不僅覆蓋了視頻理解的各個關鍵環節，還能有效揭示模型在不同能力維度上的強弱項。

圖片

△圖2不同維度樣例

其次，對于數據集中的每一條樣本，研究團隊不僅提供了標準問答對，還額外標注了經過人工驗證的詳細CoT推理步驟作為參考標準。

在評估過程中，首先對被測模型生成的推理內容進行結構化解析，將其分解為離散的推理步驟。隨后，基于預先定義的能力維度框架，包括視覺感知（perception）和邏輯推理（reasoning）兩大類別，對這些步驟進行分類標注。為保障評估的客觀性，采用GPT-4o作為自動評分器，通過比對模型生成的推理步驟與人工標注的黃金標準，分別計算步驟類別的召回率（Recall）和精確率（Precision），最終以F1分數作為模型CoT得分。這一評估方案既保證了評分的可解釋性，又能有效反映模型在不同推理維度上的真實表現。

最后，采用GPT4o從模型的輸出內容中提取出最終結果，并于正確結果進行匹配，從而得到模型在VCR-Bench上推理的結果準確性。

圖片

△圖3VCR-Bench的評估過程

研究者在VCR-Bench上進行了大量實驗，驗證了其評估體系的有效性，并得到了多條富有啟發意義的結論：

當前多模態模型在視頻復雜推理任務上表現普遍不佳，最優模型o1僅獲得62.8的CoT得分和56.7%的準確率，大多數模型兩項指標均低于40分，且閉源模型優于開源模型，大模型優于小模型。
通過對感知能力和推理能力的對比分析發現，大多數測試模型的視覺感知得分都低于其推理能力得分，特別是在性能較差的模型中，這種差距表現得更為顯著。這一規律清晰地表明，視覺感知能力的不足已經成為制約多模態模型性能提升的首要因素。

△圖4不同模型在VCR-Bench中的CoT得分

模型在時空定位（TSG）維度表現最差，多數模型無法正確回答相關問題，顯示出處理時空變化任務的嚴重不足。

△圖5不同模型在VCR-Bench上的準確率結果

△圖6TSG任務樣例

模型的CoT得分和準確率呈現高度正相關（r=0.89），說明正確有效的CoT的推理步驟能夠幫助模型更好的回答對問題。
部分模型如LLaVA系列雖然能達到尚可的準確率，但其CoT得分卻明顯偏低，深入分析發現這些模型存在指令遵循不充分的問題，其輸出內容往往過于簡略，缺乏必要的推理步驟；相比之下，Qwen2.5-VL等表現較好的模型能夠嚴格遵循指令要求，生成更加完整、細致的推理過程，因而獲得更高的CoT評分。
模型在中等長度視頻上表現最佳，短視頻和長視頻相對較差。長視頻因內容復雜度高帶來理解挑戰；而短視頻對于人類標注員而言也較容易理解，能夠標注出更有深度的問題，此外一些特殊的維度（TSG）以短視頻為主，也是造成短視頻性能不佳的原因。這一現象凸顯了模型對不同時長視頻的適應能力仍需提升。