LeCun親自出鏡打臉質疑者！憋了20年的AI世界模型，終于爆發了

作者：新智元 2025-06-12 14:32:07

人工智能

對于世界模型，Meta接下來還將進行多個方向的深入探索。目前，V-JEPA 2只能在單一時間尺度上進行學習和預測，但現實中許多任務需要跨多個時間尺度進行規劃。

正處于風暴中心的LeCun，親自出鏡了！

在視頻中，他介紹了V-JEPA 2的新進展，目標就是開發能改變AI與物理世界交互方式的世界模型。

圖片

可見，對于Meta剛剛發布的這個博客，LeCun真的格外用心。

圖片

最近，Meta要組建「超級智能」新團隊、重金挖角Alexandr Wang、全力沖擊AGI的消息，鬧得是沸沸揚揚。

就在今天，Meta還被曝出提供了數千萬美元的天價年薪，挖來了谷歌DeepMind首席研究員Jack Rae，同時還在招募AI語音初創公司Sesame AI的主管Johan Schalkwayk。

圖片

一切跡象都表明：LeCun似乎要在小扎那里坐冷板凳了？

就在這個當口，LeCun親自出鏡介紹V-JEPA 2的舉動，無疑意義重大。

世界模型這條路，真的能走通嗎？相對于其他大科技公司，在這條目前十分非主流的路線上，LeCun更像一個一意孤行的「孤勇者」。

前路是什么，誰都不知道。

LeCun曾這樣透露：「通過訓練系統預測視頻中將要發生的事情，來理解世界如何運作的想法是非常古老的。我至少以某種形式研究了20年。」

在今年3月的2025美國數學會聯合會議演講上，LeCun也曾經說過，他折騰了20年，終于發現——

借用自回歸預測的思路，像訓練LLM那樣訓練生成式架構，去預測視頻接下來會發生什么，是根本不可能的。

可以說，今天Meta的V-JEPA 2，正是20年磨一劍的成果。

V-JEPA 2登場！

剛剛，Meta宣布：V-JEPA 2正式發布！

這是首個基于視頻訓練的世界模型，不僅具備先進的視頻理解與預測能力，還首次實現了零樣本規劃和機器人在新環境中的自主控制。

它的發布，代表著Meta朝著實現高級機器智能 (AMI) 和構建能在物理世界中運行的有用AI智能體的目標，邁出了下一步。

這也是LeCun一貫的理念：在我們邁向AMI的過程中，構建能像人類一樣學習世界、規劃未知任務、并靈活適應變化環境的AI系統，將至關重要。

圖片

V-JEPA 2有12億參數，基于2022年首次提出的Meta 聯合嵌入預測架構（JEPA）構建。

此前的研究表明，JEPA 在圖像和3D點云等模態上已有出色表現。

此次發布的V-JEPA 2，建立在去年發布的首個視頻版V-JEPA基礎上，進一步提升了動作預測和世界建模能力，使機器人能與陌生物體與環境互動并完成任務。

同時，Meta還同步發布了三個全新基準評估集，幫助評估模型在視頻中的世界理解與推理能力。

網友：期待三年后的AGI

對于V-JEPA 2的發布，LeCun的支持者們，一如既往表示著贊許。

「聽說，你也在組建一個復仇者聯盟？三年后，我們或許會看到接近AGI的JEPA技術。」

圖片

有人說，V-JEPA是自己最喜歡的一個算法名稱，請一定要繼續。

圖片

有人問出了那個敏感問題：小扎會解雇你嗎？還以為你已經離開Meta了……

圖片

也有犀利的評論表示，V-JEPA似乎只是另一個用于視頻的基礎模型，沒有專有技術？而且Meta跟Scale AI的重組，是否表明Meta當前的AI政策失敗了？

圖片

什么是世界模型？

在親自出鏡的視頻中，LeCun再次解釋了世界模型的概念。

如果你把一個網球拋向空中，重力會使它落回地面。如果它在空中盤旋、突然轉向飛向另一個方向，或者自發地變成一個蘋果，那才令人驚訝。

這種物理直覺并不是成年人經過多年教育后才獲得的。在還不能完整表達句子之前，幼兒就已經通過觀察周圍的世界，發展出了這種直覺。

預測世界將如何回應我們的行動或他人的行動，是人類一直在使用的能力，尤其是當人們計劃采取何種行動、如何應對新情況時。

比如穿過陌生的擁擠人群時，我們會朝目的地移動，同時盡力避免撞到沿途的其他人和障礙物。

打冰球時，我們會滑向冰球將要去的位置，而不是它當前所在的位置。

炒菜時，我們會思考還要讓鍋在火焰上停留多久，或者是否應該調低熱量。

之所以能有這些直覺，都是來自我們對世界的內部模型。它同時充當了一個內部模擬器，使我們能夠預測假設行動的結果，從而最終根據我們認為最能實現目標的方式，來選擇最佳行動。

圖片

在采取行動之前，我們會利用自己的世界模型，來想象潛在的后果。

所以，如果我們想構建能「三思而后行」的AI智能體，最重要的就是讓它們學會具備以下能力的世界模型。

理解：世界模型應該能夠理解對世界的觀察，包括識別視頻中的物體、動作和運動等內容。

預測：世界模型應該能夠預測世界將如何演變，以及如果智能體采取行動，世界將如何變化。

規劃：基于預測能力，世界模型應該有助于規劃實現特定目標的動作序列。

所以，怎樣通過世界模型，讓AI智能體中在物理世界中進行規劃和推理？

Meta主要通過視頻，訓練出了世界模型V-JEPA 2。

之所以用視頻，是因為它是關于世界豐富信息的重要來源，而且信息很容易獲取。

V-JEPA 2的兩階段訓練細節

V-JEPA 2是一個基于「聯合嵌入預測架構」（JEPA）構建的時間模型，即通過視頻數據，學習物理世界運作規律。

與傳統AI模型不同，通過自監督學習，無需大量人工標注，即可從視頻中學習。

它的核心組件包括：

· 編碼器：輸入原始視頻，輸出捕捉觀察世界狀態有用語義信息的嵌入

· 預測器：輸入視頻嵌入以及關于預測內容的額外上下文，輸出預測嵌入

圖片

具體來說，V-JEPA 2的訓練分為兩個階段，逐步讓模型從「理解世界」到「改變世界」。

第一階段：無動作預訓練

V-JEPA 2使用超100萬小時視頻和100萬張圖像，涵蓋了豐富多樣的視覺信息。

這些數據讓模型學會了，關于世界運作方式的許多知識。

其中包括，人們如何與物體交互、物體在物理世界中的移動方式，以及物體之間的相互作用。

通過預訓練，V-JEPA 2展現出驚人的能力。

比如，在動作識別任務Something-Something v2中，它通過輕量級注意力機制表現出色。

同樣，通過在凍結的編碼器和預測器特征上訓練注意力讀取器，V-JEPA 2在Epic-Kitchens-100動作預測任務中，刷新了SOTA。

圖片

它能夠從第一人稱視頻，預測出未來1秒將執行的動作。

與語言模型結合后，它還在視頻問答基準測試，如Perception Test和TempCompass中，創下了最新記錄。

第二階段：動作條件訓練

第一階段訓練完成后，V-JEPA 2雖能夠預測世界可能的演變，但這種預測并未考慮智能體即將采取的行動。

因此，在第二階段預訓練中，Meta加入了機器人數據，包括視覺觀察（視頻）和機器人執行的控制動作。

研究人員將這些數據納入JEPA訓練流程，通過向預測器提供動作信息。

在訓練這些額外數據后，預測器學會在預測時考慮特定動作，并可用于控制。

令人驚嘆的是，僅用62小時的機器人數據，V-JEPA 2就學會根據具體行動進行預測和規劃。

圖片

精準規劃，機器人「即插即用」

V-JEPA 2最激動人心的應用之一是，零樣本機器人規劃。

傳統機器人模型，通常需要針對特定機器人和環境進行訓練，而V-JEPA 2則不同。

圖片

它基于開源DROID數據集進行訓練，可以直接部署到實驗室的機器人上。

諸如，它可以完成抓取、拾取物體、放置到新位置等任務。

圖片

對于簡單的任務，如拾取或放置物體，V-JEPA 2通過圖像指定目標。

模型利用編碼器獲取當前狀態和目標狀態的嵌入，機器人通過預測器「想象」不同動作的結果，挑選最接近目標的動作執行。

這種「模型預測控制」的方式，讓機器人每一步都更聰明。

而對于復雜的任務，如拾取并放置到正確位置，V-JEPA 2通過一系列視覺子目標引導機器人，類似于人類的視覺模仿學習。

在全新環境中，V-JEPA 2拾取和放置新物體的成功率達到65%–80%。

圖片

三大「物理理解」基準測試

此外，Meta團隊同時發布了三個全新基準測試，用于評估現有模型從視頻中理解和推理物理世界的能力。

IntPhys 2

IntPhys 2是對早期IntPhys基準升級，靈感來源于認知科學中幼兒學習直覺物理的方式。

它采用「違反預期范式」，通過游戲引擎生成視頻對：兩段視頻在某一點之前完全相同，之后其中一段會出現違反物理規律的事件。

模型的任務是，識別哪段視頻不合理。

人類在各種場景下，幾乎能達到100%準確率，而當前視頻模型表現幾乎靠隨機猜測。

圖片

MVPBench

MVPBench通過多項選擇題，測試視頻-語言模型的物理理解能力。

與其他視頻問答基準不同，它專門設計了「最小變化對」——兩段視覺上幾乎相同的視頻，搭配相同問題但答案相反。

模型只有在同時答對這對問題時，才能得分，這避免了依賴表面視覺或文本線索的「捷徑」解法。

圖片

CausalVQA

CausalVQA專注于測試模型對物理世界因果關系的理解能力，涵蓋了三類問題。

主要包括，反事實（如果……會發生什么）、預測（接下來可能會發生什么）和規劃（接下來應采取什么行動以實現目標）。

研究發現，多模態模型在描述「發生了什么」時表現還不錯，但在預測「本可以發生什么」或「接下來會發生什么」時，仍與人類存在較大差距。

圖片

下一步：通往高級機器智能！

對于世界模型，Meta接下來還將進行多個方向的深入探索。

目前，V-JEPA 2只能在單一時間尺度上進行學習和預測，但現實中許多任務需要跨多個時間尺度進行規劃。

比如「裝洗碗機」或者「烤一個蛋糕」，這就需要將整體任務拆解為一系列小步驟。

因此，Meta接下來將重點研究分層的JEPA模型，使其能夠在不同的時間和空間尺度上進行學習、推理和規劃。

另一個重要方向，就是開發多模態JEPA模型，使其不僅能通過視覺進行預測，還能融合聽覺、觸覺等多種感知能力，實現更全面的世界理解。

參考資料：

https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/ https://x.com/AIatMeta/status/1932808881627148450

責任編輯：武曉燕來源：新智元

AI 世界模型 V-JEPA 2

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看