Meta AI發布革命性V-JEPA 2
近日Meta AI發布了V-JEPA 2(Video Joint-Embedding Predictive Architecture 2),這一開源世界模型的推出標志著AI從數字世界向物理世界邁出了重要一步。這個系統能夠從互聯網規模的視頻數據中學習,實現強大的視覺理解、未來狀態預測和零樣本規劃能力,為智能物理代理的發展奠定了重要基礎。
1.基于JEPA的創新突破
V-JEPA 2建立在聯合嵌入預測架構(JEPA)的基礎上,這是一種革命性的自監督學習方法。與傳統的生成式預訓練方法不同,JEPA通過在抽象表示空間中進行預測,避免了像素級預測的低效性。這種方法專注于學習可預測的場景動態,同時忽略不相關的噪聲信息。
JEPA的核心思想是通過聯合嵌入的方式,讓模型學習輸入數據的抽象表示,然后在這個表示空間中進行預測。這種方法不僅計算效率更高,還能夠學習到更加魯棒和可泛化的特征表示。
V-JEPA 2采用了先進的視覺掩碼去噪目標來進行學習。該模型通過重建被掩碼的時空補丁來學習視頻的潛在表示。這種方法的巧妙之處在于,它迫使模型理解視頻中的時空關系和動態變化,而不僅僅是靜態的視覺特征。
在訓練過程中,模型隨機掩蓋視頻幀中的某些區域,然后嘗試根據未被掩蓋的部分來重建這些區域。這種自監督的學習方式使得模型能夠學習到視頻中物體的運動模式、場景的變化規律以及時間序列中的因果關系。
V-JEPA 2的訓練規模達到了前所未有的水平,使用了超過100萬小時的互聯網規模視頻數據,結合了100萬張圖像。這種大規模的數據訓練使得模型能夠接觸到豐富多樣的視覺場景和動態模式,為其強大的泛化能力奠定了基礎。
訓練數據集VideoMix22M包含了2200萬個樣本,來源于多個公開數據集,包括Something-Something v2 (SSv2)、Kinetics、HowTo100M、YT-Temporal-1B和ImageNet。這些數據集涵蓋了從日常生活場景到專業技能演示的各種視頻內容,為模型提供了全面的視覺世界知識。
2.關鍵技術
- 數據規模化技術:構建了包含2200萬樣本的VideoMix22M數據集,整合了多個公開數據源。這種大規模數據集的構建不僅僅是簡單的數據堆疊,而是經過精心設計的數據融合策略,確保了數據的多樣性和質量。
- 模型規?;夹g:將編碼器容量擴展到超過1B參數,使用了Vision Transformer-giant (ViT-g)架構。這種大規模的模型設計使得V-JEPA 2能夠處理復雜的視覺模式和長期依賴關系。
- 訓練策略優化:采用了漸進式分辨率策略,將預訓練擴展到252,000次迭代。這種訓練策略允許模型逐步適應不同分辨率的輸入,提高了訓練效率和最終性能。
在損失函數方面,采用了教師強制損失,預測器接收當前幀表征的編碼作為輸入,學習預測下一時間步的表征;另一方面,滾動損失通過將預測器的輸出反饋回輸入端,使模型能夠預測未來多個時間步的表征。通過聯合優化這兩種損失函數的總和,V-JEPA 2-AC 顯著減少了多步推演過程中的誤差累積,從而有效提升了長期未來預測的準確性。
- 時空增強技術:在漸進式更長和更高分辨率的視頻片段上進行訓練,最終達到64幀、384×384分辨率。這種時空增強技術使得模型能夠處理更加詳細和復雜的視頻內容。
3.卓越性能
V-JEPA 2在六個主要基準測試任務中取得了平均88.2%的準確率,包括SSv2、Diving-48、Jester、Kinetics、COIN和ImageNet,全面超越了之前的基準模型。這一成績不僅體現了模型的強大性能,也證明了其在不同類型視覺任務中的泛化能力。
在運動理解方面,V-JEPA 2在Something-Something v2基準測試中達到了77.3%的top-1準確率,超越了InternVideo和VideoMAEv2等知名模型。這個結果特別值得關注,因為Something-Something v2是一個專門測試時序動作理解的具有挑戰性的數據集。
在外觀理解方面,V-JEPA 2與最先進的圖像-文本預訓練模型如DINOv2和PEcoreG保持了競爭力。這表明該模型不僅在動態視頻理解方面表現出色,在靜態視覺特征提取方面也具有強大的能力。
通過注意力探測器的評估,研究人員驗證了僅通過自監督學習就能夠產生可遷移和領域無關的視覺特征,這些特征可以應用于各種分類任務。這一發現對于計算機視覺領域具有重要意義,因為它表明大規模的自監督學習可以學習到通用的視覺表示。
為了評估時序推理能力,V-JEPA 2編碼器與多模態大語言模型進行了對齊,并在多個視頻問答任務上進行了評估。令人印象深刻的是,盡管在預訓練期間缺乏語言監督,該模型仍然取得了優異的成績。
在各個測試中,V-JEPA 2表現出色:在PerceptionTest上達到84.0%,在TempCompass上達到76.9%,在MVP上達到44.5%,在TemporalBench上達到36.7%,在TOMATO上達到40.3%。這些結果挑戰了視覺-語言對齊需要從一開始就進行聯合訓練的假設。
這一成果證明了預訓練的視頻編碼器可以在后期與語言模型進行對齊,并展現出強大的泛化能力。這種方法的成功意味著我們可以先專注于視覺理解的學習,然后再添加語言理解能力,這為多模態AI系統的開發提供了新的思路。
4.V-JEPA 2-AC:機器人規劃的革命性突破
V-JEPA 2-AC是這次發布的關鍵創新,它是預訓練編碼器的動作條件化變體。這個模型僅使用來自Droid數據集的62小時未標注機器人視頻進行微調,就學會了根據機器人的動作和姿態來預測未來的視頻嵌入。
該架構是一個3億參數的transformer,采用塊因果注意力機制,使用教師強制和展開目標進行訓練。這種設計使得模型能夠理解動作與環境變化之間的因果關系,為機器人的智能行為提供了基礎。
通過模型預測控制,V-JEPA 2-AC實現了零樣本規劃能力。該模型通過使用交叉熵方法(CEM)最小化想象的未來狀態與視覺目標之間的距離來推斷動作序列。這種方法使得機器人能夠在沒有看到過的環境中執行復雜的任務。
模型在到達、抓取和拾取-放置等任務中取得了很高的成功率,這些任務在不同實驗室的未見過的機器人手臂上進行,無需任何獎勵監督或額外的數據收集。這種零樣本能力的實現是機器人技術發展的重要里程碑。
與基準方法Octo(行為克?。┖虲osmos(潛在擴散世界模型)相比,V-JEPA 2-AC展現出了顯著的優勢。在執行效率方面,V-JEPA 2-AC每步執行計劃僅需約16秒,而Cosmos需要4分鐘,效率提升了15倍。
在任務成功率方面,V-JEPA 2-AC在到達任務中達到了100%的成功率,并在各種物體類型的抓取和操作任務中超越了其他方法。這種性能的提升不僅僅是數值上的改進,更代表了實用性的重大飛躍。
值得注意的是,V-JEPA 2-AC僅使用單目RGB攝像頭運行,無需校準或環境特定的微調。這種簡單的硬件要求大大降低了部署門檻,使得該技術更容易在實際場景中應用。
這種通用性的實現強化了學習世界模型的泛化能力,表明V-JEPA 2-AC不僅僅是一個實驗室的原型,而是一個可以在真實世界中部署的實用系統。
本文轉載自??魯班模錘??,作者:龐德公
