LeCun親自出鏡打臉質疑者!憋了20年的AI世界模型,終于爆發了
正處于風暴中心的LeCun,親自出鏡了!
在視頻中,他介紹了V-JEPA 2的新進展,目標就是開發能改變AI與物理世界交互方式的世界模型。
圖片
可見,對于Meta剛剛發布的這個博客,LeCun真的格外用心。
圖片
最近,Meta要組建「超級智能」新團隊、重金挖角Alexandr Wang、全力沖擊AGI的消息,鬧得是沸沸揚揚。
就在今天,Meta還被曝出提供了數千萬美元的天價年薪,挖來了谷歌DeepMind首席研究員Jack Rae,同時還在招募AI語音初創公司Sesame AI的主管Johan Schalkwayk。
圖片
一切跡象都表明:LeCun似乎要在小扎那里坐冷板凳了?
就在這個當口,LeCun親自出鏡介紹V-JEPA 2的舉動,無疑意義重大。
世界模型這條路,真的能走通嗎?相對于其他大科技公司,在這條目前十分非主流的路線上,LeCun更像一個一意孤行的「孤勇者」。
前路是什么,誰都不知道。
LeCun曾這樣透露:「通過訓練系統預測視頻中將要發生的事情,來理解世界如何運作的想法是非常古老的。我至少以某種形式研究了20年。」
在今年3月的2025美國數學會聯合會議演講上,LeCun也曾經說過,他折騰了20年,終于發現——
借用自回歸預測的思路,像訓練LLM那樣訓練生成式架構,去預測視頻接下來會發生什么,是根本不可能的。
可以說,今天Meta的V-JEPA 2,正是20年磨一劍的成果。
V-JEPA 2登場!
剛剛,Meta宣布:V-JEPA 2正式發布!
這是首個基于視頻訓練的世界模型,不僅具備先進的視頻理解與預測能力,還首次實現了零樣本規劃和機器人在新環境中的自主控制。
它的發布,代表著Meta朝著實現高級機器智能 (AMI) 和構建能在物理世界中運行的有用AI智能體的目標,邁出了下一步。
這也是LeCun一貫的理念:在我們邁向AMI的過程中,構建能像人類一樣學習世界、規劃未知任務、并靈活適應變化環境的AI系統,將至關重要。
圖片
V-JEPA 2有12億參數,基于2022年首次提出的Meta 聯合嵌入預測架構(JEPA) 構建。
此前的研究表明,JEPA 在圖像和3D點云等模態上已有出色表現。
此次發布的V-JEPA 2,建立在去年發布的首個視頻版V-JEPA基礎上,進一步提升了動作預測和世界建模能力,使機器人能與陌生物體與環境互動并完成任務。
同時,Meta還同步發布了三個全新基準評估集,幫助評估模型在視頻中的世界理解與推理能力。
網友:期待三年后的AGI
對于V-JEPA 2的發布,LeCun的支持者們,一如既往表示著贊許。
「聽說,你也在組建一個復仇者聯盟?三年后,我們或許會看到接近AGI的JEPA技術。」
圖片
有人說,V-JEPA是自己最喜歡的一個算法名稱,請一定要繼續。
圖片
有人問出了那個敏感問題:小扎會解雇你嗎?還以為你已經離開Meta了……
圖片
圖片
也有犀利的評論表示,V-JEPA似乎只是另一個用于視頻的基礎模型,沒有專有技術?而且Meta跟Scale AI的重組,是否表明Meta當前的AI政策失敗了?
圖片
什么是世界模型?
在親自出鏡的視頻中,LeCun再次解釋了世界模型的概念。
如果你把一個網球拋向空中,重力會使它落回地面。如果它在空中盤旋、突然轉向飛向另一個方向,或者自發地變成一個蘋果,那才令人驚訝。
這種物理直覺并不是成年人經過多年教育后才獲得的。在還不能完整表達句子之前,幼兒就已經通過觀察周圍的世界,發展出了這種直覺。
預測世界將如何回應我們的行動或他人的行動,是人類一直在使用的能力,尤其是當人們計劃采取何種行動、如何應對新情況時。
比如穿過陌生的擁擠人群時,我們會朝目的地移動,同時盡力避免撞到沿途的其他人和障礙物。
打冰球時,我們會滑向冰球將要去的位置,而不是它當前所在的位置。
炒菜時,我們會思考還要讓鍋在火焰上停留多久,或者是否應該調低熱量。
之所以能有這些直覺,都是來自我們對世界的內部模型。它同時充當了一個內部模擬器,使我們能夠預測假設行動的結果,從而最終根據我們認為最能實現目標的方式,來選擇最佳行動。
圖片
在采取行動之前,我們會利用自己的世界模型,來想象潛在的后果。
所以,如果我們想構建能「三思而后行」的AI智能體,最重要的就是讓它們學會具備以下能力的世界模型。
理解:世界模型應該能夠理解對世界的觀察,包括識別視頻中的物體、動作和運動等內容。
預測:世界模型應該能夠預測世界將如何演變,以及如果智能體采取行動,世界將如何變化。
規劃:基于預測能力,世界模型應該有助于規劃實現特定目標的動作序列。
所以,怎樣通過世界模型,讓AI智能體中在物理世界中進行規劃和推理?
Meta主要通過視頻,訓練出了世界模型V-JEPA 2。
之所以用視頻,是因為它是關于世界豐富信息的重要來源,而且信息很容易獲取。
V-JEPA 2的兩階段訓練細節
V-JEPA 2是一個基于「聯合嵌入預測架構」(JEPA)構建的時間模型,即通過視頻數據,學習物理世界運作規律。
與傳統AI模型不同,通過自監督學習,無需大量人工標注,即可從視頻中學習。
它的核心組件包括:
· 編碼器:輸入原始視頻,輸出捕捉觀察世界狀態有用語義信息的嵌入
· 預測器:輸入視頻嵌入以及關于預測內容的額外上下文,輸出預測嵌入
圖片
具體來說,V-JEPA 2的訓練分為兩個階段,逐步讓模型從「理解世界」到「改變世界」。
第一階段:無動作預訓練
V-JEPA 2使用超100萬小時視頻和100萬張圖像,涵蓋了豐富多樣的視覺信息。
這些數據讓模型學會了,關于世界運作方式的許多知識。
其中包括,人們如何與物體交互、物體在物理世界中的移動方式,以及物體之間的相互作用。
通過預訓練,V-JEPA 2展現出驚人的能力。
比如,在動作識別任務Something-Something v2中,它通過輕量級注意力機制表現出色。
同樣,通過在凍結的編碼器和預測器特征上訓練注意力讀取器,V-JEPA 2在Epic-Kitchens-100動作預測任務中,刷新了SOTA。
圖片
它能夠從第一人稱視頻,預測出未來1秒將執行的動作。
與語言模型結合后,它還在視頻問答基準測試,如Perception Test和TempCompass中,創下了最新記錄。
第二階段:動作條件訓練
第一階段訓練完成后,V-JEPA 2雖能夠預測世界可能的演變,但這種預測并未考慮智能體即將采取的行動。
因此,在第二階段預訓練中,Meta加入了機器人數據,包括視覺觀察(視頻)和機器人執行的控制動作。
研究人員將這些數據納入JEPA訓練流程,通過向預測器提供動作信息。
在訓練這些額外數據后,預測器學會在預測時考慮特定動作,并可用于控制。
令人驚嘆的是,僅用62小時的機器人數據,V-JEPA 2就學會根據具體行動進行預測和規劃。
圖片
精準規劃,機器人「即插即用」
V-JEPA 2最激動人心的應用之一是,零樣本機器人規劃。
傳統機器人模型,通常需要針對特定機器人和環境進行訓練,而V-JEPA 2則不同。
圖片
它基于開源DROID數據集進行訓練,可以直接部署到實驗室的機器人上。
諸如,它可以完成抓取、拾取物體、放置到新位置等任務。
圖片
對于簡單的任務,如拾取或放置物體,V-JEPA 2通過圖像指定目標。
模型利用編碼器獲取當前狀態和目標狀態的嵌入,機器人通過預測器「想象」不同動作的結果,挑選最接近目標的動作執行。
這種「模型預測控制」的方式,讓機器人每一步都更聰明。
而對于復雜的任務,如拾取并放置到正確位置,V-JEPA 2通過一系列視覺子目標引導機器人,類似于人類的視覺模仿學習。
在全新環境中,V-JEPA 2拾取和放置新物體的成功率達到65%–80%。
圖片
三大「物理理解」基準測試
此外,Meta團隊同時發布了三個全新基準測試,用于評估現有模型從視頻中理解和推理物理世界的能力。
IntPhys 2
IntPhys 2是對早期IntPhys基準升級,靈感來源于認知科學中幼兒學習直覺物理的方式。
它采用「違反預期范式」,通過游戲引擎生成視頻對:兩段視頻在某一點之前完全相同,之后其中一段會出現違反物理規律的事件。
模型的任務是,識別哪段視頻不合理。
人類在各種場景下,幾乎能達到100%準確率,而當前視頻模型表現幾乎靠隨機猜測。
圖片
MVPBench
MVPBench通過多項選擇題,測試視頻-語言模型的物理理解能力。
與其他視頻問答基準不同,它專門設計了「最小變化對」——兩段視覺上幾乎相同的視頻,搭配相同問題但答案相反。
模型只有在同時答對這對問題時,才能得分,這避免了依賴表面視覺或文本線索的「捷徑」解法。
圖片
CausalVQA
CausalVQA專注于測試模型對物理世界因果關系的理解能力,涵蓋了三類問題。
主要包括,反事實(如果……會發生什么)、預測(接下來可能會發生什么)和規劃(接下來應采取什么行動以實現目標)。
研究發現,多模態模型在描述「發生了什么」時表現還不錯,但在預測「本可以發生什么」或「接下來會發生什么」時,仍與人類存在較大差距。
圖片
下一步:通往高級機器智能!
對于世界模型,Meta接下來還將進行多個方向的深入探索。
目前,V-JEPA 2只能在單一時間尺度上進行學習和預測,但現實中許多任務需要跨多個時間尺度進行規劃。
比如「裝洗碗機」或者「烤一個蛋糕」,這就需要將整體任務拆解為一系列小步驟。
因此,Meta接下來將重點研究分層的JEPA模型,使其能夠在不同的時間和空間尺度上進行學習、推理和規劃。
另一個重要方向,就是開發多模態JEPA模型,使其不僅能通過視覺進行預測,還能融合聽覺、觸覺等多種感知能力,實現更全面的世界理解。
參考資料:
https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/ https://x.com/AIatMeta/status/1932808881627148450