英偉達開源自適應(yīng)多模態(tài)「世界生成」模型！開啟機器人、自動駕駛訓練革命

作者：新智元 2025-03-24 08:06:00

Nvidia剛剛發(fā)布了「世界生成」模型Cosmos-Transfer1，可以根據(jù)多種模態(tài)的空間控制輸入（如分割、深度和邊緣）生成世界模擬，使得世界生成具有高度可控性。開發(fā)者使用模型能夠創(chuàng)建高度逼真的模擬環(huán)境，用于訓練機器人和自動駕駛車輛。

Nvidia帶著最新「黑科技」模型Cosmos-Transfer1震撼登場，可以創(chuàng)建高度逼真的模擬環(huán)境，反向生成「真實世界」！

Cosmos-Transfer1，是一種自適應(yīng)多模態(tài)世界生成模型。可以根據(jù)多種模態(tài)的空間控制輸入（如分割、深度和邊緣）生成真實世界模擬。

注意！右邊的場景并非「真實場景」，而通過HD Map高清地圖和Lidar雷達圖實時「生成」的！

這種生成能力給未來數(shù)字世界帶來太多想象力和可能性！

也有望解決物理AI開發(fā)中的一個長期挑戰(zhàn)：縮小模擬訓練環(huán)境與實際應(yīng)用之間的差距。

真實物理世界就是以多種模態(tài)被感知的，比如上圖中的四個模態(tài)：RGB Camera、Lidar雷達圖、Depth深度圖和HD Map高清地圖。

Cosmos Transfer使得高度可控的「世界生成」成為可能，并在各種世界到世界的轉(zhuǎn)換用例中找到應(yīng)用，包括Sim2Real（虛擬模擬世界向現(xiàn)實世界轉(zhuǎn)換）。

Cosmos Transfer強大的「世界生成」能力

首先通過基于真實物理的引擎，如Nvidia Omniverse、Genesis等，生成遵循現(xiàn)實物理規(guī)律的模擬視頻數(shù)據(jù)。

通過Cosmos Transfer來提升模擬數(shù)據(jù)的真實性和多樣性。

Cosmos Transfer不僅可以通過單一模態(tài)控制生成，也允許在不同的空間位置對不同的條件輸入進行不同的加權(quán)。

單一模態(tài)控制生成

Cosmos Transfer通過單一模態(tài)可以生成逼真的現(xiàn)實場景。

下圖展示了通過輸入Edge邊緣圖、Depth深度圖、Segmentation分塊圖來生成諸如自行車維修車間、自動駕駛場景和真實機械臂場景。

下圖展示了通過輸入Blur Visual模糊場景圖、HD Map高清地圖、Lidar雷達圖來生成諸如機械臂操作、自動駕駛場景。

多模態(tài)控制生成

在Cosmos-Transfer1模型設(shè)計中，空間條件方案是自適應(yīng)和可定制的。它允許在不同的空間位置對不同的條件輸入進行不同的加權(quán)。

通過輸入HD Map和Lidar雷達圖，可以生成應(yīng)用于自動駕駛訓練的真實視頻。

在多模態(tài)的基礎(chǔ)上，Cosmos Transfer1還引入了Spatiotemporal Control Maps時空控制權(quán)重圖，控制權(quán)重圖在黑色像素區(qū)域為0.0，在白色區(qū)域為0.5，所以在右側(cè)生成的視頻中，權(quán)重高的部分效果更加明顯。

一種輸入，多種可能

除了可以單模態(tài)和多模態(tài)控制生成視頻，Cosmos Transfer1也能生成多種現(xiàn)實風格的內(nèi)容。

比如下圖輸入高清地圖HD Map，可以生成5種不同風格的視頻：Night夜景、Foggy大霧天氣、Daytime白天、Snow雪天和Night，Rainy夜晚下雨天。

輸入Lidar雷達圖，同樣可以生成5種不同風格的視頻內(nèi)容。

風格變換

同時，Cosmos Transfer可以將生成的視頻內(nèi)容進行風格變換。

對生成的視頻風格可變換為Modern現(xiàn)代風格、Simplistic簡約風和Warm風格。

以下是Modern現(xiàn)代風格、Bakery風和Sci-Fi科幻風格。

機械臂的模擬視頻可生成Factory工廠風格、Construction Site建筑場景風格和Living Room起居風等。

不論是單一模態(tài)、多模態(tài)還是生成各種風格的視頻，Cosmos Transfer都表現(xiàn)出不俗的能力。

「世界生成器」Cosmos Transfer1技術(shù)路線

多模態(tài)可控世界生成是指基于分割、深度和邊緣等多模態(tài)視頻輸入生成世界模擬視頻的問題。

Cosmos-Transfer1是一個具有自適應(yīng)多模態(tài)控制的世界生成器。它包含多個控制分支，用于從不同的模態(tài)輸入（如分割、深度和邊緣）中提取控制信息。

應(yīng)用時空控制圖w={w1,w2,…,wN}來加權(quán)由控制分支計算出的輸出，然后再將其反饋到主生成分支。

時空控制圖使模型能夠利用不同區(qū)域中最相關(guān)的模態(tài)以獲得最佳輸出質(zhì)量。

Cosmos-Transfer1訓練成果展示

Nvidia第一個Cosmos-Transfer1的實現(xiàn)被稱為Cosmos-Transfer1-7B。

使用1024個NVIDIA H100 GPU對每個控制分支進行2到4周的訓練，具體時間取決于模態(tài)。

以上展示使用相同提示在各個單獨模態(tài)（Vis、Edge、Depth、Seg）設(shè)置下，Cosmos-Transfer1-7B的生成視頻效果。

Cosmos-Transfer1-7B [Vis] 在保持顏色和整體構(gòu)圖的同時，改變了紋理細節(jié)。
Cosmos-Transfer1-7B [Edge]在改變顏色的同時保持了物體邊界。
Cosmos-Transfer1-7B [Depth]保持了場景幾何結(jié)構(gòu)。
Cosmos-Transfer1-7B [Seg]保持了場景語義。

Cosmos-Transfer1-7B-Sample-AV是特別為自動駕駛設(shè)計的模型。

Cosmos-Transfer1-7B-Sample-AV [HDMap] 保留了駕駛場景的原始道路布局。
Cosmos-Transfer1-7B-Sample-AV [LiDAR] 保留了輸入的語義細節(jié)。

最后，Nvidia還訓練了一個Upscale ControlNet，將生成的視頻從 720p 提升到 4k 分辨率。

在下圖中展示了4K Upscaler的例子，4K Upscaler版本稱為Cosmos-Transfer1-7B-4KUpscaler。

Cosmos-Transfer1-7B-4KUpscaler將視頻從720p提升到4k分辨率！

效果評估

為了評估Cosmos-Transfer1的特性，Nvidia精心策劃了TransferBench——一個包含600個示例的評估數(shù)據(jù)集。

首先是單模態(tài)和多模態(tài)的對比。

對各種Cosmos-Transfer1配置在TransferBench上的定量評估，考慮所有模態(tài)的模型獲得了最高的Quality Score。

其次，對不同模式（Vis、Edge、Depth 和Seg）的考慮不同的權(quán)重進行研究。

控制權(quán)重在黑色像素區(qū)域為 0.0 ，在白色區(qū)域為 0.5 。

注意到，雖然標題大致指定了一個自行車修理店的場景，但由于這些像素受到 Vis 和 Edge 的控制，藍色襯衫上的白色標志和男子的膚色保持不變。

另一方面，對于由 Depth 和分割控制的背景，物體在場景中的位置保持一致，但其顏色和紋理被隨機化（例如紅色工具箱、黃色三腳架、白色修理架）。模型還在右側(cè)墻上添加了一個新的工具架。

另一個例子是Cosmos-Transfer1在機器人數(shù)據(jù)生成中的示例結(jié)果。

左列顯示由NVIDIA Lab生成的基于物理引擎的虛擬輸入視頻，而右邊三列則展示了使用不同提示詞在單模態(tài)和多模態(tài)控制下的Cosmos-Transfer1-7B生成結(jié)果。

Nivdia Cosmos平臺

NVIDIA Cosmos 是一個以開發(fā)者為先的世界基礎(chǔ)模型平臺，旨在幫助物理人工智能開發(fā)者更快更好地構(gòu)建他們的物理人工智能系統(tǒng)。Cosmos 包含：

預訓練模型（可通過Hugging Face獲取），這些模型在 NVIDIA 開放模型許可下允許免費商業(yè)使用。
在Apache 2許可下的訓練腳本，用于對各種下游物理 AI 應(yīng)用的模型進行后訓練。

Cosmos-Transfer1模型可通過Hugging Face獲取。

責任編輯：張燕妮來源：新智元

模型自動駕駛 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看