成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LeCun親自出鏡打臉質疑者!憋了20年的AI世界模型,終于爆發了

人工智能
對于世界模型,Meta接下來還將進行多個方向的深入探索。目前,V-JEPA 2只能在單一時間尺度上進行學習和預測,但現實中許多任務需要跨多個時間尺度進行規劃。

正處于風暴中心的LeCun,親自出鏡了!

在視頻中,他介紹了V-JEPA 2的新進展,目標就是開發能改變AI與物理世界交互方式的世界模型。

圖片圖片

可見,對于Meta剛剛發布的這個博客,LeCun真的格外用心。

圖片圖片

最近,Meta要組建「超級智能」新團隊、重金挖角Alexandr Wang、全力沖擊AGI的消息,鬧得是沸沸揚揚。

就在今天,Meta還被曝出提供了數千萬美元的天價年薪,挖來了谷歌DeepMind首席研究員Jack Rae,同時還在招募AI語音初創公司Sesame AI的主管Johan Schalkwayk。

圖片圖片

一切跡象都表明:LeCun似乎要在小扎那里坐冷板凳了?

就在這個當口,LeCun親自出鏡介紹V-JEPA 2的舉動,無疑意義重大。

世界模型這條路,真的能走通嗎?相對于其他大科技公司,在這條目前十分非主流的路線上,LeCun更像一個一意孤行的「孤勇者」。

前路是什么,誰都不知道。

LeCun曾這樣透露:「通過訓練系統預測視頻中將要發生的事情,來理解世界如何運作的想法是非常古老的。我至少以某種形式研究了20年。」

在今年3月的2025美國數學會聯合會議演講上,LeCun也曾經說過,他折騰了20年,終于發現——

借用自回歸預測的思路,像訓練LLM那樣訓練生成式架構,去預測視頻接下來會發生什么,是根本不可能的。

可以說,今天Meta的V-JEPA 2,正是20年磨一劍的成果。

V-JEPA 2登場!

剛剛,Meta宣布:V-JEPA 2正式發布!

這是首個基于視頻訓練的世界模型,不僅具備先進的視頻理解與預測能力,還首次實現了零樣本規劃和機器人在新環境中的自主控制。

它的發布,代表著Meta朝著實現高級機器智能 (AMI) 和構建能在物理世界中運行的有用AI智能體的目標,邁出了下一步。

這也是LeCun一貫的理念:在我們邁向AMI的過程中,構建能像人類一樣學習世界、規劃未知任務、并靈活適應變化環境的AI系統,將至關重要。

圖片圖片

V-JEPA 2有12億參數,基于2022年首次提出的Meta 聯合嵌入預測架構(JEPA) 構建。

此前的研究表明,JEPA 在圖像和3D點云等模態上已有出色表現。

此次發布的V-JEPA 2,建立在去年發布的首個視頻版V-JEPA基礎上,進一步提升了動作預測和世界建模能力,使機器人能與陌生物體與環境互動并完成任務。

同時,Meta還同步發布了三個全新基準評估集,幫助評估模型在視頻中的世界理解與推理能力。

網友:期待三年后的AGI

對于V-JEPA 2的發布,LeCun的支持者們,一如既往表示著贊許。

「聽說,你也在組建一個復仇者聯盟?三年后,我們或許會看到接近AGI的JEPA技術。」

圖片圖片

有人說,V-JEPA是自己最喜歡的一個算法名稱,請一定要繼續。

圖片圖片

有人問出了那個敏感問題:小扎會解雇你嗎?還以為你已經離開Meta了……

圖片圖片

圖片圖片

也有犀利的評論表示,V-JEPA似乎只是另一個用于視頻的基礎模型,沒有專有技術?而且Meta跟Scale AI的重組,是否表明Meta當前的AI政策失敗了?

圖片圖片

什么是世界模型?

在親自出鏡的視頻中,LeCun再次解釋了世界模型的概念。

如果你把一個網球拋向空中,重力會使它落回地面。如果它在空中盤旋、突然轉向飛向另一個方向,或者自發地變成一個蘋果,那才令人驚訝。

這種物理直覺并不是成年人經過多年教育后才獲得的。在還不能完整表達句子之前,幼兒就已經通過觀察周圍的世界,發展出了這種直覺。

預測世界將如何回應我們的行動或他人的行動,是人類一直在使用的能力,尤其是當人們計劃采取何種行動、如何應對新情況時。

比如穿過陌生的擁擠人群時,我們會朝目的地移動,同時盡力避免撞到沿途的其他人和障礙物。

打冰球時,我們會滑向冰球將要去的位置,而不是它當前所在的位置。

炒菜時,我們會思考還要讓鍋在火焰上停留多久,或者是否應該調低熱量。

之所以能有這些直覺,都是來自我們對世界的內部模型。它同時充當了一個內部模擬器,使我們能夠預測假設行動的結果,從而最終根據我們認為最能實現目標的方式,來選擇最佳行動。

圖片圖片

在采取行動之前,我們會利用自己的世界模型,來想象潛在的后果。

所以,如果我們想構建能「三思而后行」的AI智能體,最重要的就是讓它們學會具備以下能力的世界模型。

理解:世界模型應該能夠理解對世界的觀察,包括識別視頻中的物體、動作和運動等內容。  

預測:世界模型應該能夠預測世界將如何演變,以及如果智能體采取行動,世界將如何變化。  

規劃:基于預測能力,世界模型應該有助于規劃實現特定目標的動作序列。

所以,怎樣通過世界模型,讓AI智能體中在物理世界中進行規劃和推理?

Meta主要通過視頻,訓練出了世界模型V-JEPA 2。

之所以用視頻,是因為它是關于世界豐富信息的重要來源,而且信息很容易獲取。

V-JEPA 2的兩階段訓練細節

V-JEPA 2是一個基于「聯合嵌入預測架構」(JEPA)構建的時間模型,即通過視頻數據,學習物理世界運作規律。

與傳統AI模型不同,通過自監督學習,無需大量人工標注,即可從視頻中學習。

它的核心組件包括:

· 編碼器:輸入原始視頻,輸出捕捉觀察世界狀態有用語義信息的嵌入

· 預測器:輸入視頻嵌入以及關于預測內容的額外上下文,輸出預測嵌入

圖片圖片

具體來說,V-JEPA 2的訓練分為兩個階段,逐步讓模型從「理解世界」到「改變世界」。

第一階段:無動作預訓練

V-JEPA 2使用超100萬小時視頻和100萬張圖像,涵蓋了豐富多樣的視覺信息。

這些數據讓模型學會了,關于世界運作方式的許多知識。

其中包括,人們如何與物體交互、物體在物理世界中的移動方式,以及物體之間的相互作用。

通過預訓練,V-JEPA 2展現出驚人的能力。

比如,在動作識別任務Something-Something v2中,它通過輕量級注意力機制表現出色。

同樣,通過在凍結的編碼器和預測器特征上訓練注意力讀取器,V-JEPA 2在Epic-Kitchens-100動作預測任務中,刷新了SOTA。

圖片圖片

它能夠從第一人稱視頻,預測出未來1秒將執行的動作。

與語言模型結合后,它還在視頻問答基準測試,如Perception Test和TempCompass中,創下了最新記錄。

第二階段:動作條件訓練

第一階段訓練完成后,V-JEPA 2雖能夠預測世界可能的演變,但這種預測并未考慮智能體即將采取的行動。

因此,在第二階段預訓練中,Meta加入了機器人數據,包括視覺觀察(視頻)和機器人執行的控制動作。

研究人員將這些數據納入JEPA訓練流程,通過向預測器提供動作信息。

在訓練這些額外數據后,預測器學會在預測時考慮特定動作,并可用于控制。

令人驚嘆的是,僅用62小時的機器人數據,V-JEPA 2就學會根據具體行動進行預測和規劃。

圖片圖片

精準規劃,機器人「即插即用」

V-JEPA 2最激動人心的應用之一是,零樣本機器人規劃。

傳統機器人模型,通常需要針對特定機器人和環境進行訓練,而V-JEPA 2則不同。

圖片圖片

它基于開源DROID數據集進行訓練,可以直接部署到實驗室的機器人上。

諸如,它可以完成抓取、拾取物體、放置到新位置等任務。

圖片圖片

對于簡單的任務,如拾取或放置物體,V-JEPA 2通過圖像指定目標。

模型利用編碼器獲取當前狀態和目標狀態的嵌入,機器人通過預測器「想象」不同動作的結果,挑選最接近目標的動作執行。

這種「模型預測控制」的方式,讓機器人每一步都更聰明。

而對于復雜的任務,如拾取并放置到正確位置,V-JEPA 2通過一系列視覺子目標引導機器人,類似于人類的視覺模仿學習。

在全新環境中,V-JEPA 2拾取和放置新物體的成功率達到65%–80%。

圖片圖片

三大「物理理解」基準測試

此外,Meta團隊同時發布了三個全新基準測試,用于評估現有模型從視頻中理解和推理物理世界的能力。

IntPhys 2

IntPhys 2是對早期IntPhys基準升級,靈感來源于認知科學中幼兒學習直覺物理的方式。

它采用「違反預期范式」,通過游戲引擎生成視頻對:兩段視頻在某一點之前完全相同,之后其中一段會出現違反物理規律的事件。

模型的任務是,識別哪段視頻不合理。

人類在各種場景下,幾乎能達到100%準確率,而當前視頻模型表現幾乎靠隨機猜測。

圖片圖片

MVPBench

MVPBench通過多項選擇題,測試視頻-語言模型的物理理解能力。

與其他視頻問答基準不同,它專門設計了「最小變化對」——兩段視覺上幾乎相同的視頻,搭配相同問題但答案相反。

模型只有在同時答對這對問題時,才能得分,這避免了依賴表面視覺或文本線索的「捷徑」解法。

圖片圖片

CausalVQA

CausalVQA專注于測試模型對物理世界因果關系的理解能力,涵蓋了三類問題。

主要包括,反事實(如果……會發生什么)、預測(接下來可能會發生什么)和規劃(接下來應采取什么行動以實現目標)。

研究發現,多模態模型在描述「發生了什么」時表現還不錯,但在預測「本可以發生什么」或「接下來會發生什么」時,仍與人類存在較大差距。

圖片圖片

下一步:通往高級機器智能!

對于世界模型,Meta接下來還將進行多個方向的深入探索。

目前,V-JEPA 2只能在單一時間尺度上進行學習和預測,但現實中許多任務需要跨多個時間尺度進行規劃。

比如「裝洗碗機」或者「烤一個蛋糕」,這就需要將整體任務拆解為一系列小步驟。

因此,Meta接下來將重點研究分層的JEPA模型,使其能夠在不同的時間和空間尺度上進行學習、推理和規劃。

另一個重要方向,就是開發多模態JEPA模型,使其不僅能通過視覺進行預測,還能融合聽覺、觸覺等多種感知能力,實現更全面的世界理解。

參考資料:

https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/ https://x.com/AIatMeta/status/1932808881627148450

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-06-12 09:37:30

2022-02-25 14:48:45

AI模型Meta

2022-02-28 11:10:05

AI機器學習模型

2024-03-05 11:18:14

模型訓練

2023-05-26 15:10:46

2024-02-19 08:58:00

模型AI

2024-12-09 07:15:00

世界模型AILLM

2025-06-13 09:10:00

2025-06-13 00:03:00

2025-06-12 09:12:00

2020-08-06 08:19:17

人工智能醫療技術

2023-12-20 13:34:56

2022-12-31 08:17:02

2025-03-03 02:25:00

.NET 9JSON序列化

2025-03-03 09:22:00

2017-09-18 15:09:42

蘋果

2023-12-12 12:43:04

AI模型

2024-02-27 09:43:48

視頻模型

2020-05-18 13:23:59

寧暢

2020-07-09 11:59:04

WannaCry勒索軟件網絡攻擊
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲自拍偷拍欧美 | 国产精品一区二区无线 | 日韩三片 | 精品亚洲一区二区三区四区五区高 | 亚洲视频一 | 永久www成人看片 | 国产成人综合亚洲欧美94在线 | 91av在线视频观看 | 日本精品免费 | 欧美久久久久久 | 91久久网站 | 91精品中文字幕一区二区三区 | 成人在线观 | 亚洲人成一区二区三区性色 | 一区二区三区在线观看视频 | 亚洲a视频| 四虎永久免费影院 | 日韩中文电影 | 亚洲精品一 | 亚洲综合视频 | 精品欧美一区免费观看α√ | 91传媒在线播放 | 91麻豆精品国产91久久久久久 | 日韩精品在线观看一区二区三区 | 国产精品96久久久久久 | 日韩高清中文字幕 | 青青久久久| 免费久久网 | 久久国内精品 | 午夜精品一区 | 美人の美乳で授乳プレイ | www国产成人免费观看视频,深夜成人网 | 精品国偷自产在线 | 国产精品片aa在线观看 | 一区二区三区久久久 | 91精品国产一区二区三区 | 精品一区二区三区日本 | 91视频免费视频 | 亚洲欧美中文日韩在线v日本 | 一级片免费在线观看 | 色视频网站|