成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

游戲bug幫大模型學物理!準確率超GPT4o近4個百分點

人工智能
本文的PhysVLM模型在所有7B模型中表現(xiàn)優(yōu)越。令人驚訝的是,作為7B模型,PhysVLM-SFT和PhysVLM-DPO在整體表現(xiàn)上分別比 34B 模型 LLaVA-NeXT-Video提高了3.2%和3.8%的絕對值。通過比較PhysVLM-SFT和PhysVLM-DPO,團隊發(fā)現(xiàn),使用所提出的PhysDPO數(shù)據(jù)進行 DPO訓練在短視頻和長視頻上的表現(xiàn)都有所提升,而在中等長度的視頻上的表現(xiàn)略

融合物理知識的大型視頻語言模型PhysVLM,開源了!

它不僅在 PhysGame 基準上展現(xiàn)出最先進的性能,還在通用視頻理解基準上(Video-MME, VCG)表現(xiàn)出領(lǐng)先的性能。

在這項研究之前,想讓AI像人類兒童一樣,通過觀察世界理解基本的物理常識,是一個主要挑戰(zhàn)。

圖片圖片

對于現(xiàn)實世界的視頻來說,全面覆蓋和解釋所有正常的物理現(xiàn)象既困難又不必要。

相比之下,游戲視頻(gameplay videos)通常包含違反物理常識的“故障現(xiàn)象”(glitches),這有助于簡化物理常識理解的定義和評估,即專注于解釋物理常識的違反現(xiàn)象,而不是試圖列舉所有存在的正常物理現(xiàn)象。

為此,PhysVLM在專門整理的一套數(shù)據(jù)集上訓練,包括用于評估的PhysGame benchmark、用于監(jiān)督微調(diào)的PhysInstruct數(shù)據(jù)集和用于偏好對齊的PhysDPO數(shù)據(jù)集。

PhysGame benchmark 設(shè)計

如圖所示, PhysGame包含880個含有故障現(xiàn)象的游戲視頻,每個視頻都配有一個高質(zhì)量的多項選擇題,專門針對故障現(xiàn)象的性質(zhì)進行標注。

圖片圖片

△PhysGame類別分布

PhysGame涵蓋了四個關(guān)鍵的物理領(lǐng)域(即力學、運動學、光學和材料屬性),并細分為12個具體類別(如重力和速度)

  • 力學(Mechanics):該類別涉及力與力矩及其對運動的影響,提供了解釋和分析視頻中物體運動的基礎(chǔ)原理。典型案例包括重力、彈性和摩擦力。
  • 運動學(Kinematics):該領(lǐng)域研究不考慮力的情況下的運動,涉及精細分類,如隨時間變化的速度和加速度。
  • 光學(Optics):該領(lǐng)域關(guān)注光的行為與特性及其與物質(zhì)的相互作用,包括反射、折射以及吸收與透射。
  • 材料屬性(Material properties):該領(lǐng)域指的是物質(zhì)固有的特性,包括顏色、剛性、物體形狀以及人體姿態(tài)。

PhysGame benchmark構(gòu)建

視頻收集和過濾:

PhysGame中的視頻主要從Reddit頁面抓取,該頁面包含帶有異常事件和故障現(xiàn)象的游戲視頻。為了平衡不同的類別,團隊還通過關(guān)鍵詞搜索從 YouTube增強視頻數(shù)據(jù)。團隊根據(jù)以下兩項標準進行人工篩查:

  • 重復檢查:Reddit論壇可能會多次引用同一視頻,導致重復下載。團隊手動檢查,確保PhysGame benchmark中的視頻不存在重復;
  • 內(nèi)容檢查:下載的視頻可能包含非游戲元素,團隊對這些內(nèi)容進行了嚴格篩選,確保它們不被納入PhysGame benchmark中。

選項生成:

本文以多項選擇題的形式創(chuàng)建問答對。具體來說,正確選項描述了視頻中違反物理常識原則的特定故障現(xiàn)象。為了增強干擾選項的可信度,本文要求干擾選項中的故障現(xiàn)象應與視頻中觀察到的個體或動作高度相關(guān),這使視頻LLM理解故障內(nèi)容,而不僅僅通過識別包含的物體或動作來選擇答案。

質(zhì)量控制: 

為了保證數(shù)據(jù)集的質(zhì)量,本文進行了一項包括人工檢查和自動LLM輔助檢查在內(nèi)的雙重質(zhì)量控制過程:

  • 人工檢查:所有初步標注的問答對都經(jīng)過不同人工標注人員的嚴格交叉檢查。對于正確選項,檢查人員必須評估它們是否全面準確地描述了所有存在的物理常識違反實例。對于干擾選項,檢查人員需評估它們是否足夠具有迷惑性;
  • LLM 輔助檢查: 團隊去除那些僅憑問題和選項,不需要查看視頻就能由GPT-4o正確回答的問答對。

圖片圖片

△PhysGame示例

PhysInstruct&PhysDPO數(shù)據(jù)集構(gòu)建

PhysInstruct:

為了提升視頻LLM的物理常識理解能力,團隊開發(fā)了PhysInstruct數(shù)據(jù)集用于監(jiān)督微調(diào)。視頻收集過程與PhysGame中的流程相同。為了防止數(shù)據(jù)泄漏,團隊嚴格排除任何已包含在PhysGame中的視頻。團隊遵循Self-instruct范式通過提示GPT-4o來構(gòu)建PhysInstruct。

PhysDPO:

團隊構(gòu)建了偏好對齊數(shù)據(jù)集PhysDPO,以提供更可信和可靠的回答。如圖3所示,團隊將PhysInstruct 數(shù)據(jù)集中生成的答案視為preferred回答,而dis-preferred回答則通過元信息篡改(meta-information hacking)、時間篡改(temporal hacking)和空間篡改(spatial hacking)生成。團隊用誤導性的元信息以及減少幀數(shù)和降低幀分辨率的視頻幀來提示 GPT-4o。

以下是PhysDPO數(shù)據(jù)集構(gòu)建流程圖:

圖片圖片

模型評估與分析

PhysGame benchmark 實驗結(jié)果:

  • 在所有專有模型中,GPT-4o和Gemini-1.5-pro表現(xiàn)最佳,分別達到了56.1%和55.2%的平均準確率。在所有細分領(lǐng)域中,GPT-4o在摩擦和加速度方面表現(xiàn)優(yōu)越。相比之下,Gemini-1.5-pro在理解與重力、彈性、反射、吸收與透射、顏色和剛性相關(guān)的物理常識方面表現(xiàn)更強。
  • 現(xiàn)有的開源模型遠遠落后于專有模型。即便是表現(xiàn)最好的開源模型 LLaVA-OneVision,其平均準確率僅為47.7%。相比之下,本文提出的PhysVLM在所有專有和開源模型中都達到了最先進的性能。與開源方法相比,本文的PhysVLM在12個評估領(lǐng)域中的6個領(lǐng)域達到了最高性能。值得注意的是,PhysVLM-DPO在平均準確率這一指標上比最佳表現(xiàn)的專有模型GPT-4o超出了3.4%。

PhysGame benchmark實驗結(jié)果PhysGame benchmark實驗結(jié)果

Video-MME benchmark實驗結(jié)果:

本文的PhysVLM模型在所有7B模型中表現(xiàn)優(yōu)越。令人驚訝的是,作為7B模型,PhysVLM-SFT和PhysVLM-DPO在整體表現(xiàn)上分別比 34B 模型 LLaVA-NeXT-Video提高了3.2%和3.8%的絕對值。通過比較PhysVLM-SFT和PhysVLM-DPO,團隊發(fā)現(xiàn),使用所提出的PhysDPO數(shù)據(jù)進行 DPO訓練在短視頻和長視頻上的表現(xiàn)都有所提升,而在中等長度的視頻上的表現(xiàn)略有下降。

圖片圖片

△Video-MME benchmark實驗結(jié)果

VCG benchmark實驗結(jié)果:

在僅使用SFT的模型中,本文的PhysVLM-SFT在平均得分方面表現(xiàn)最佳。在四個子類別的評估中,PhysVLM-SFT在信息正確性和一致性類別上表現(xiàn)尤為出色。與使用DPO或PPO訓練的PPLLaVA和LLaVA-Next-Video相比,本文的PhysVLM-DPO也展現(xiàn)出卓越的性能,進一步驗證了所提出的PhysVLM模型在通用視頻理解中的出色能力。

VCG benchmark實驗結(jié)果VCG benchmark實驗結(jié)果


PhysVLM相關(guān)論文、代碼、數(shù)據(jù)均已開源:

pre-prints: https://arxiv.org/abs/2412.01800
代碼鏈接: https://github.com/PhysGame/PhysGame
leaderboard: https://physgame.github.io/#leaderboard

責任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-09-24 13:00:00

大語言模型AI

2025-03-03 07:39:23

2015-12-04 14:49:21

ios9

2016-08-12 16:20:30

2025-05-26 08:33:00

2019-11-17 22:45:12

谷歌Android開發(fā)者

2025-03-03 08:00:00

小紅書AI圖像檢測模型AI

2024-08-02 13:14:51

2025-05-06 15:32:23

模型AI測試

2023-10-14 13:09:53

谷歌模型

2009-01-08 09:26:53

AMD拆分AMD股份AMD股票

2023-10-14 17:24:49

2025-03-11 13:42:19

2024-06-20 10:43:15

2015-09-13 09:29:52

百分點

2017-07-12 15:30:59

人工智能知識圖譜深度學習

2024-01-03 13:37:00

模型數(shù)據(jù)

2024-06-18 12:54:39

2015-11-25 13:58:40

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 91精品国产综合久久小仙女图片 | 一级片在线免费看 | 久久久青草婷婷精品综合日韩 | 免费视频一区二区三区在线观看 | 欧美精品在线一区二区三区 | 成人国产精品久久 | 成人免费大片黄在线播放 | 久久国产一区二区 | 久久精品在线播放 | 欧美一级久久久猛烈a大片 日韩av免费在线观看 | 一区精品视频在线观看 | 久久久久一区二区三区 | 日韩一区二区三区在线 | 999精品在线 | 欧美一区二区三区四区视频 | 免费国产视频 | 日韩欧美国产电影 | 玖玖在线免费视频 | 国产午夜精品久久久久免费视高清 | 免费a网| 亚洲精品成人在线 | 亚洲成在线观看 | 日韩综合在线视频 | av在线播放免费 | 精品国产乱码久久久久久牛牛 | 九九综合 | 日本欧美大片 | 国产精彩视频在线观看 | 一区二区高清 | 久草在线在线精品观看 | 欧美激情在线播放 | 日韩av成人在线观看 | 在线观看av网站永久 | 国产高清亚洲 | 国产伦一区二区三区视频 | www.久| 一区| 人成在线视频 | 日韩欧美国产精品一区二区三区 | 国产精品视频一区二区三 | 久久久久高清 |