成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

合成數據也能通吃真實世界?首個融合重建-預測-規劃的生成式世界模型AETHER開源

人工智能 新聞
傳統世界模型通常聚焦于 RGB 圖像的預測而忽略了背后隱含的幾何信息,引入空間建模后,各項指標均顯著提升,其中視頻一致性指標提升約 4%。

近日,上海人工智能實驗室(上海 AI 實驗室)開源了生成式世界模型 AETHER。該模型全部由合成數據訓練而成,不僅在傳統重建與生成任務中表現領先,更首次賦予大模型在真實世界中的 3D 空間決策與規劃能力,可助力機器人完成目標導向的視覺規劃、4D 動態重建、動作條件的視頻預測等復雜任務。

研究團隊將幾何重建與生成式建模深度融合,首創「重建 — 預測 — 規劃」 一體化框架,通過 AETHER 使大模型能夠感知周圍環境,理解物體之間的位置、運動和因果關系,從而做出更智能的行動決策。

實驗表明,傳統世界模型通常聚焦于 RGB 圖像的預測而忽略了背后隱含的幾何信息,引入空間建模后,各項指標均顯著提升,其中視頻一致性指標提升約 4%。更重要的是,即使只使用合成數據進行訓練,模型在真實環境中依然展現出強大的零樣本泛化能力。

論文與模型已經同步開源。

圖片

  • 論文標題:AETHER: Geometric-Aware Unified World Modeling
  • 論文鏈接:https://arxiv.org/abs/2503.18945
  • 項目主頁:https://aether-world.github.io

三大核心技術

攻克動態環境中的智能決策困境

傳統世界模型主要應用于自動駕駛與游戲開發等領域,通過其豐富的動作標簽來預測接下來的視覺畫面。

但由于缺乏對真實三維空間的建模能力,這容易導致模型預測結果出現不符合物理規律的現象。同時,由于依賴且缺乏真實數據,面對更復雜多變的場景時,其泛化能力也明顯不足。

針對以上問題,研究團隊提出了生成式世界模型 AETHER,基于三維時空建模,通過引入并構建幾何空間,大幅提升了模型空間推理的準確性與一致性。

具體而言,研究團隊利用海量仿真 RGBD 數據,開發了一套完整的數據清洗與動態重建流程,并標注了豐富的動作序列。同時,他們提出一種多模態數據的動態融合機制,首次將動態重建、視頻預測和動作規劃這三項任務融合在一個統一的框架中進行優化,從而實現了真正的一體化多任務協同,大幅提高了模型的穩定性與魯棒性。

面對復雜多變的現實世界,如何讓具身智能系統實現可靠、高效的決策是人工智能領域的一項重大挑戰。研究團隊在 AETHER 框架中通過三項關鍵技術突破,顯著提升了具身系統在動態環境中的感知、建模與決策能力。

  • 目標導向視覺規劃:可根據起始與目標場景,自動生成一條實現視覺目標的合理路徑,并以視頻形式呈現全過程。通過聯合優化重建與預測目標,AETHER 內嵌空間幾何先驗知識,使生成結果兼具物理合理性。這使得具身智能系統能像人類一樣「看路規劃」—— 通過攝像頭觀察環境后,自動生成既安全又符合物理規律的行動路線。
  • 4D 動態重建:通過自動標注流水線,構建合成 4D 數據集,無需真實世界數據即可實現零樣本遷移,精準捕捉并重建時空環境的動態變化。例如,輸入一段街景視頻,系統即可重建包含時間維度的三維場景模型,精確呈現行人行走、車輛運動等動態過程,建模精度可達毫米級。

圖片

自動相機標注 pipeline。

  • 動作條件視頻預測:創新性地采用相機軌跡作為全局動作表征,可直接基于初始視覺觀察和潛在動作,預測未來場景的變化趨勢。相當于給具身智能系統裝上了預測未來的「鏡頭」。

可零樣本泛化至真實場景

不同于傳統僅預測圖像變化的世界模型,AETHER 不僅能同時完成四維時空的重建與預測,還支持由動作控制驅動的場景推演與路徑規劃。值得強調的是,該方法完全在虛擬數據上訓練,即可實現對真實世界的零樣本泛化,展現出強大的跨域遷移能力。

具體流程如下圖所示,圖中黃色、藍色和紅色分別表示圖像、動作與深度的潛在變量,灰色表示噪聲項,白色框為零填充區域。模型通過組合不同的條件輸入(如觀察幀、目標幀和動作軌跡),結合擴散過程,實現對多種任務的統一建模與生成。

就像在拼一副完整的動態拼圖,觀察幀提供了「現在的樣子」,目標幀給出了「未來的樣子」,動作軌跡則是「怎么從這里走到那里」,而擴散過程則像是拼圖的拼接邏輯,把這些零散信息有序組合起來,最終還原出一個連續、合理且可預測的時空過程。

圖片

為了支持同時完成重建、預測和規劃這三類不同任務,AETHER 設計了一種統一的多任務框架,首次實現在同一個系統中整合動態重建、視頻預測和動作規劃。

其核心在于:能夠融合圖像、動作、深度等多模態信息,建立一個跨模態共享的時空一致性建模空間,實現不同任務在同一認知基礎上的協同優化。

實驗結果

在多個實驗任務中,AETHER 在動態場景重建方面已達到甚至超過現有 SOTA 水平。同時發現在多任務框架下,各個任務有很好的促進,尤其在動作跟隨的準確度上面有較大的提升。

圖片

該方法有望為具身智能大模型在數據增強、路徑規劃以及基于模型的強化學習等方向研究提供技術支撐。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-04-17 23:13:02

人工智能元宇宙數據

2023-12-04 09:33:00

自動駕駛視覺

2023-09-26 13:33:27

AI自動駕駛

2024-10-22 09:40:00

模型生成

2023-02-23 07:46:48

學習模型數據倉庫

2024-02-27 09:19:13

谷歌AI

2025-01-26 11:00:00

2015-11-02 18:11:36

物聯網數據虛擬

2023-07-21 15:05:04

人工智能智能汽車數字技術

2009-10-09 23:03:45

2012-03-27 13:48:31

云計算IT

2025-03-06 00:15:00

3D場景數據

2024-02-05 09:31:40

仿真駕駛模型

2016-01-20 17:13:13

2021-03-23 23:17:18

AI人工智能

2024-01-16 14:23:32

大數據人工智能AI

2025-05-14 09:17:00

2024-12-20 14:10:00

AI模型訓練

2012-12-28 09:48:29

開源社區
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 色综合99 | 国产久| 亚洲成人久久久 | 国产精品久久久久久久一区探花 | 成人免费在线观看 | 成人美女免费网站视频 | 国产精品综合一区二区 | 久久aⅴ乱码一区二区三区 91综合网 | aa级毛片毛片免费观看久 | 欧美日韩久久 | 亚洲视频免费 | 日韩精品亚洲专区在线观看 | 日中文字幕在线 | 亚洲在线一区 | 少妇一级淫片aaaaaaaaa | 亚洲日本免费 | 成人午夜视频在线观看 | 国产成人高清视频 | 久久久久国产 | 国产色视频网站 | 精品中文字幕一区二区三区 | 日韩欧美亚洲 | 另类亚洲视频 | 久久久精| 国产精品视频网站 | 男人天堂色 | 日韩国产一区二区三区 | 91成人在线| 一级aaaa毛片 | av在线电影网 | 精品国产乱码久久久久久图片 | 久久er精品| 欧美 日韩 中文 | 国产91在线播放 | 日日摸日日添日日躁av | 欧美男人天堂 | 亚洲成人黄色 | 在线色网| 国产丝袜一区二区三区免费视频 | www.国产精品 | 亚洲天堂一区 |