成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視頻推理界的“福爾摩斯測試”:所有大模型,統統不及格 | 論文代碼開源

人工智能 新聞
它可以說是視頻推理界的“福爾摩斯測試”,通過讓多模態大模型參與“推理殺人兇手”,?“解析作案意圖”等高難度的推理任務,以展現他們復雜視頻推理能力的邊界。

一個新的Benchmark,竟讓大模型在復雜視頻推理這事兒上統統不及格!

這就是騰訊ARC Lab和香港城市大學最新推出的Video-Holmes——

如其名,它可以說是視頻推理界的“福爾摩斯測試”,通過讓多模態大模型參與推理殺人兇手解析作案意圖”等高難度的推理任務,以展現他們復雜視頻推理能力的邊界。

圖片

而且Video-Holmes可以說是規避了現在業內已有的Benchmark痛點,即視頻源和問題都偏簡單,沒法反映推理模型和非推理模型之間的差距。

舉個例子??。

在這個例子中,為了尋找男人真正的死因,模型需要主動思考需要關注的視覺信息,并通過邏輯關聯分散在不同視頻片段中的多個相關線索進行推理,最后發現男人的死因居然是:“過度使用超能力”?!

圖片

結果啊,測試的成績可謂是大跌眼鏡。

所有大模型,在各項測試中全部不及格

(SR代表社會推理;IMC意指意圖與動機鏈;TCI表示時間因果推理;TA時間線分析;MHR即多模態提示推理;PAR為物理異常推理;CTI代表核心主題推理。)

圖片

值得一提的是,這個Benchmark的“一鍵測評懶人包”,目前已經上線到了GitHub和HuggingFace,有做視頻推理相關的小伙伴,可以去挑戰一下了(地址見文末)。

讓大模型全軍覆沒的新Benchmark

正如剛才提到的,現有視頻推理基準(如 VCR-Bench、MVBench 等)主要評估模型的視覺感知和接地能力。

大多數問題也是基于顯式提示或孤立視覺線索(如 “女人穿了什么”),無法模擬人類在現實中主動搜索、整合、分析多線索的復雜推理過程。

即使是較為前沿的模型,在這些基準上的提升也非常有限(如從 68.3% 到 69.4%),難以驗證模型的真實推理能力。

因此,團隊收集并人工標注了270部1-5分鐘的“推理短電影”,并設計了7種高推理要求的單選題,強迫模型提取,串聯多個散布在電影中的關鍵信息來推導出最終的真相。

值得注意的是,設計的問題是由DeepSeek來生成,并且也是由DeepSeek來評估的響應。

圖片

至于問題的類型(上文我們提及的幾大類型),具體的“打開方式”如下:

圖片

再深入到具體問題的回答,各個大模型回答結果如下(以SR和IMC為例):

圖片圖片

測試結果顯示,即使強大入Gemini-2.5-Pro的閉源模型,也僅達到了45%的準確率。

并且Video-Holmes能夠反應推理模型和對應非推理版本之間的Gap——

SEED-Bench-R1 比 Qwen2.5-VL-7B提升了5個點,而Gemini-2.0-Thinking比Gemini-2.0提升了整整12個點!

除此之外,團隊進一步還分析了模型的推理過程,結果顯示,現有模型整體上能夠正確感知視覺信息,但它們普遍在線索串聯信息(推理能力)上欠缺,以及容易遺漏關鍵的視覺信息。

注:Video-Holmes的標注、構建、測試、推理過程分析的資料和代碼,以及論文全部都開源啦(見文末)~

如何“食用”?

大家若是想下載Video-Holmes,可以運行如下代碼:

git clone 
https://github.com/TencentARC/Video-Holmes.git
cd Video-Holmes
pip install huggingface_hub
python download.py —hf_token YOUR_HUGGINGFACE_ACCESS_TOKEN
unzip Benchmark/videos.zip -d Benchmark/
unzip Benchmark/annotations.zip -d Benchmark/

團隊還為基線模型提供了一體化的評估代碼:

python evaluate.py —model_name YOUR_MODEL_NAME —model_path YOUR_MODEL_PATH (optional)

以及可支持的大模型名單如下:

圖片

還可以通過指定——model_path參數或實現以下函數來定制模型:prepare_your_model(第388行)和generate_your_model(第439行)。

推理過程分析

首先需要應用DeepSeek API密鑰,然后可以運行以下命令來分析模型的推理過程:

python evaluate_reasoning.py —model_name YOUR_MODEL_NAME —api_key YOUR_API_KEY

生成你的“福爾摩斯測試”

要為帶有注釋的視頻生成問題,你可以運行以下命令:

cd Pipeline
python generate_questions.py —api_key YOUR_API_KEY

那么你覺得這個新Benchmark如何?感興趣的話就快去試試吧????~

 HF Daily Paper:https://huggingface.co/papers/2505.21374

 Homepage:https://video-holmes.github.io/Page.github.io/

 Code:https://github.com/TencentARC/Video-Holmes

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-04-18 09:13:00

2023-06-15 13:45:41

模型AI

2025-05-23 08:47:00

2015-09-10 14:35:14

警務云福建省公安廳銳捷

2010-04-20 21:48:48

2011-12-14 20:23:31

HTC

2017-04-11 09:33:12

JS面試題應聘者

2025-02-08 14:10:00

模型系統AI

2024-07-16 13:24:38

2023-08-18 14:34:00

研究模型

2025-04-30 16:48:07

2019-08-16 08:50:52

代碼日志程序員

2023-10-22 07:01:29

AI

2015-10-26 23:27:22

明略數據大數據

2023-03-08 13:24:45

2025-01-15 10:28:21

2024-10-17 14:02:19

2024-10-21 16:41:17

2015-12-29 17:03:11

華為融合云

2025-05-16 08:58:09

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 可以免费看的毛片 | 美女黄网 | 91视频免费在观看 | 日本精品视频一区二区 | 久久综合久色欧美综合狠狠 | 粉色午夜视频 | 久久亚洲视频网 | 午夜电影网| 国产高清精品在线 | 日本精品国产 | 在线视频 欧美日韩 | 日韩国产一区二区三区 | 亚洲日本成人 | 欧美精品久久久 | 亚洲 欧美 日韩在线 | 国产一区二区影院 | 国产电影一区二区三区爱妃记 | 9久久精品 | 精品国产一区二区三区久久久久久 | 欧洲国产精品视频 | 色天堂影院 | 欧美日韩三级在线观看 | 97av视频| 国产精品一区二区在线播放 | 在线看av网址 | 草草影院ccyy | 日韩欧美在线不卡 | 欧美午夜视频 | 粉嫩粉嫩芽的虎白女18在线视频 | 精品欧美一区二区三区久久久小说 | 99爱在线| 人人人艹 | 在线伊人 | 无码一区二区三区视频 | 欧美一区二区免费 | 亚洲第一成年免费网站 | 成年人在线观看视频 | 国产精品视频www | www.蜜桃av.com| av大片| 日韩成人在线视频 |