楊立昆親自指導開源世界大模型,為AI Agent打造超級大腦
今天凌晨,全球社交巨頭Meta在官網開源了一個世界大模型V-JEPA 2。
與第一代相比,V-JEPA 2使用了100萬視頻+100萬圖片超大規模訓練數據集,可以讓AI Agent像人類那樣理解真實的物理世界,為智能體打造一個“超級大腦”自主學會觀察、規劃到執行全自動化能力。
值得一提的是,圖靈獎獲得者、Meta首席科學家楊立昆(Yann LeCun)參與了該模型的開發,這在Meta開源的眾多大模型中很罕見。
開源地址:https://github.com/facebookresearch/vjepa2?tab=readme-ov-file
對于這個新模型楊立昆還特意在今天凌晨1點發文推薦了一波,看來是相當的滿意。
網友表示,感謝老楊帶來的新研究。
太棒了!我一直都在熱切期待這個成果。請問對于這種架構,scaling laws仍然適用嗎?如果適用的話,是否有計劃開發更大規模的模型?
我很期待嘗試 V-JEPA-v2 用于零樣本物理推理和機器人規劃。很好奇它在陌生場景和微妙因果事件中的泛化能力如何。非常期待測試它在實時預測任務中的速度和效率!
世界模型實際上受到人類如何形成周圍環境心理地圖的啟發,它們是邁向真正具身人工智能的一步。
V-JEPA 2的核心架構是一個自監督學習框架,通過互聯網規模的視頻數據來訓練模型,使其能夠學習到視頻中的動態和靜態信息。預訓練階段使用了超過100萬小時的視頻和100萬張圖像,這些數據涵蓋了各種動作和場景。預訓練的目標是讓模型能夠通過觀察學習到世界的背景知識,而無需依賴于大量的標注數據。
在預訓練階段使用了“掩碼去噪”, 將視頻片段分割成一系列的“管狀塊”,每個管狀塊包含了時間序列上的連續幀。然后,模型通過編碼器處理這些管狀塊,并通過預測器來預測被掩蓋部分的表示。這種訓練方式不僅讓模型能夠學習到視頻中的運動信息,還能捕捉到場景中的靜態特征。
為了提高預訓練的效率和效果,V-JEPA 2將模型的參數從300M擴展到1B參數,這使得模型能夠學習到更復雜的特征。訓練時間從90K迭代擴展到252K迭代,這使得模型能夠更充分地利用大規模數據。
此外,輸入分辨率從256×256提高到384×384,視頻長度從16幀擴展到64幀,這些改進都顯著提升了模型的性能。
在預訓練階段結束后,V-JEPA 2進一步擴展為一個動作條件的世界模型V-JEPA 2-AC,用于機器人規劃任務。這一模塊的目標是讓模型能夠根據動作和狀態預測未來的視頻幀,從而為機器人提供規劃能力。
V-JEPA 2-AC的訓練使用了來自Droid數據集的62小時未標記機器人視頻數據。這些數據包含了機器人的動作和狀態信息,但沒有明確的獎勵信號。V-JEPA 2-AC通過一個自回歸的預測器來學習這些動作的效果,預測器使用了一個塊因果注意力機制,能夠根據當前的動作和狀態預測未來的視頻幀表示。
V-JEPA 2-AC的預測器是一個300M參數的Transformer網絡,它能夠自回歸地預測未來視頻幀的表示。在訓練過程中,模型不僅使用了教師強制(teacher-forcing)損失,還使用了rollout損失來提高模型在推理時的自回歸能力。這種訓練方式使得V-JEPA 2-AC能夠在給定子目標的情況下,通過規劃實現零樣本的機器人任務執行。
在實際部署中,V-JEPA 2-AC能夠通過模型預測控制來規劃機器人的動作。具體來說,模型會在每個時間步規劃一個動作序列,然后執行第一個動作,觀察新的狀態,并重復這一過程。這種規劃方式類似于人類在執行任務時的視覺反饋控制。
在實驗中,V-JEPA 2-AC被部署在兩個不同實驗室中的Franka機器人手臂上,這些實驗室的環境并未出現在訓練數據中。V-JEPA 2-AC能夠通過規劃實現零樣本的抓取和放置任務,而無需在這些環境中收集任何數據,也無需進行特定于任務的訓練或獎勵。
這一結果表明,V-JEPA 2-AC能夠有效地將從互聯網規模數據中學習到的知識應用于實際的機器人任務中。
此外,V-JEPA 2還展示了其在視頻問答任務上的能力。通過與大模型對齊,V-JEPA 2能夠處理視頻問答任務,這需要模型能夠理解視頻內容并用自然語言回答問題。V-JEPA 2的視頻問答能力通過一個多模態大模型實現,該模型使用V-JEPA 2作為視覺編碼器,并將視覺特征與語言模型的輸入對齊。
在視頻問答任務中,V-JEPA 2的性能在多個基準測試中達到了新的高度。例如,在PerceptionTest上,它達到了84.0%的準確率;在TempCompass上,達到了76.9%的多選準確率。這些成績證明了V-JEPA 2在結合視覺和語言理解方面的強大能力。