視頻推理界的“福爾摩斯測試”：所有大模型，統統不及格 | 論文代碼開源

2025-05-30 09:17:00

人工智能新聞

它可以說是視頻推理界的“福爾摩斯測試”，通過讓多模態大模型參與“推理殺人兇手”,?“解析作案意圖”等高難度的推理任務，以展現他們復雜視頻推理能力的邊界。

一個新的Benchmark，竟讓大模型在復雜視頻推理這事兒上統統不及格！

這就是騰訊ARC Lab和香港城市大學最新推出的Video-Holmes——

如其名，它可以說是視頻推理界的“福爾摩斯測試”，通過讓多模態大模型參與“推理殺人兇手”, “解析作案意圖”等高難度的推理任務，以展現他們復雜視頻推理能力的邊界。

而且Video-Holmes可以說是規避了現在業內已有的Benchmark痛點，即視頻源和問題都偏簡單，沒法反映推理模型和非推理模型之間的差距。

舉個例子。

在這個例子中，為了尋找男人真正的死因，模型需要主動思考需要關注的視覺信息，并通過邏輯關聯分散在不同視頻片段中的多個相關線索進行推理，最后發現男人的死因居然是：“過度使用超能力”?!

結果啊，測試的成績可謂是大跌眼鏡。

所有大模型，在各項測試中全部不及格：

（SR代表社會推理；IMC意指意圖與動機鏈；TCI表示時間因果推理；TA時間線分析；MHR即多模態提示推理；PAR為物理異常推理；CTI代表核心主題推理。）

值得一提的是，這個Benchmark的“一鍵測評懶人包”，目前已經上線到了GitHub和HuggingFace，有做視頻推理相關的小伙伴，可以去挑戰一下了（地址見文末）。

讓大模型全軍覆沒的新Benchmark

正如剛才提到的，現有視頻推理基準（如 VCR-Bench、MVBench 等）主要評估模型的視覺感知和接地能力。

大多數問題也是基于顯式提示或孤立視覺線索（如 “女人穿了什么”），無法模擬人類在現實中主動搜索、整合、分析多線索的復雜推理過程。

即使是較為前沿的模型，在這些基準上的提升也非常有限（如從 68.3% 到 69.4%），難以驗證模型的真實推理能力。

因此，團隊收集并人工標注了270部1-5分鐘的“推理短電影”，并設計了7種高推理要求的單選題，強迫模型提取，串聯多個散布在電影中的關鍵信息來推導出最終的真相。

值得注意的是，設計的問題是由DeepSeek來生成，并且也是由DeepSeek來評估的響應。

至于問題的類型（上文我們提及的幾大類型），具體的“打開方式”如下：

再深入到具體問題的回答，各個大模型回答結果如下（以SR和IMC為例）：

測試結果顯示，即使強大入Gemini-2.5-Pro的閉源模型，也僅達到了45%的準確率。

并且Video-Holmes能夠反應推理模型和對應非推理版本之間的Gap——

SEED-Bench-R1 比 Qwen2.5-VL-7B提升了5個點，而Gemini-2.0-Thinking比Gemini-2.0提升了整整12個點！

除此之外，團隊進一步還分析了模型的推理過程，結果顯示，現有模型整體上能夠正確感知視覺信息，但它們普遍在線索串聯信息（推理能力）上欠缺，以及容易遺漏關鍵的視覺信息。

注：Video-Holmes的標注、構建、測試、推理過程分析的資料和代碼，以及論文全部都開源啦（見文末）~

如何“食用”？

大家若是想下載Video-Holmes，可以運行如下代碼：

git clone 
https://github.com/TencentARC/Video-Holmes.git
cd Video-Holmes
pip install huggingface_hub
python download.py —hf_token YOUR_HUGGINGFACE_ACCESS_TOKEN
unzip Benchmark/videos.zip -d Benchmark/
unzip Benchmark/annotations.zip -d Benchmark/

團隊還為基線模型提供了一體化的評估代碼：

python evaluate.py —model_name YOUR_MODEL_NAME —model_path YOUR_MODEL_PATH (optional)

以及可支持的大模型名單如下：

還可以通過指定——model_path參數或實現以下函數來定制模型：prepare_your_model（第388行）和generate_your_model（第439行）。

推理過程分析

首先需要應用DeepSeek API密鑰，然后可以運行以下命令來分析模型的推理過程：

python evaluate_reasoning.py —model_name YOUR_MODEL_NAME —api_key YOUR_API_KEY

生成你的“福爾摩斯測試”

要為帶有注釋的視頻生成問題，你可以運行以下命令：

cd Pipeline
python generate_questions.py —api_key YOUR_API_KEY

那么你覺得這個新Benchmark如何？感興趣的話就快去試試吧~

HF Daily Paper：https://huggingface.co/papers/2505.21374

Homepage：https://video-holmes.github.io/Page.github.io/

Code：https://github.com/TencentARC/Video-Holmes

責任編輯：張燕妮來源：量子位

視頻推理 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視頻推理界的“福爾摩斯測試”：所有大模型，統統不及格 | 論文代碼開源

讓大模型全軍覆沒的新Benchmark

如何“食用”？

推理過程分析

生成你的“福爾摩斯測試”

視頻推理界的“福爾摩斯測試”：所有大模型，統統不及格 | 論文代碼開源