機器人ChatGPT時刻！英偉達開源世界大模型，完美模擬物理世界！精華

Aceryt

發布于 2025-1-8 11:19

瀏覽

0收藏

全球AI領導者NVIDIA（英偉達）在2025年CES展會上，開源了全新世界大模型NVIDIA Cosmos。

Cosmos能從數據整合、訓練再到定制各個開發階段的，大規模模擬、構建物理世界的基礎模型，同時支持自定義微調。

例如，你想開發一個實體倉儲機器人，但沒有真實大型倉儲環境為機器人提供貨物搬運、揀選、分揀等訓練環境，通過Cosmos就能輕松創建一個模擬的物理倉儲環境，來訓練、觀察、優化機器人各種動作。

在自動駕駛領域，想觀察汽車在大雨、暴雪、地震等超惡劣環境中的表現同樣很難，而Cosmos可以輕松模擬這些環境，幫助開發者深度優化智能汽車的開發流程。

機器人ChatGPT時刻！英偉達開源世界大模型，完美模擬物理世界！-AI.x社區

NVIDIA創始人兼首席執行官黃仁勛在演講中表示，“機器人的ChatGPT時刻即將到來。與大語言模型一樣，世界基礎模型對于推動機器人和自動駕駛汽車的發展至關重要，但并非所有開發者都具備訓練自己模型的專業知識和資源。

所以，NVIDIA開發了Cosmos，讓物理AI大眾化，幫助每個開發者都能輕松開發通用實體機器人技術。”

開源地址：https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6

API：https://build.nvidia.com/explore/simulation

Cosmos架構介紹

Cosmos使用了基于Transformer的自回歸和擴散雙架構模型：自回歸模型專為視頻生成設計，基于輸入文本和過去的視頻幀預測下一個token。使用了Transformer解碼器架并進行了關鍵修改用于世界模型開發。

3D RoPE（旋轉位置嵌入）分別對空間和時間維度進行編碼，確保精確的視頻序列表示。交叉注意力層使文本輸入為世界生成提供了更好的控制。QK歸一化增強了訓練穩定性。該模型的預訓練是逐步進行的，從單個輸入幀預測多達17個未來幀開始，然后擴展到34幀，最終達到121幀（或50000個token）。

機器人ChatGPT時刻！英偉達開源世界大模型，完美模擬物理世界！-AI.x社區

擴散模型因其能夠解構訓練數據并根據用戶輸入重建它，從而產生高質量、逼真的輸出而廣受歡迎，用于生成圖像、視頻和音頻。

Cosmos的擴散模型分為正向擴散和反向擴散兩個階段：在正向擴散過程中，訓練數據通過逐步添加高斯噪聲而逐漸被破壞，有效地將其轉化為純噪聲。

在反向擴散過程中，模型學習逐步逆轉這種噪聲，通過去噪被破壞的輸入來恢復原始數據。一旦訓練完成，擴散模型通過采樣隨機高斯噪聲并將其通過學習到的去噪過程來生成新數據。

此外，Cosmos擴散模型還有一些關鍵更新，專門針對物理AI開發。3D Patchification將視頻處理成較小的塊，簡化了時空序列表示。混合位置嵌入處理空間和時間維度，支持具有不同分辨率和幀率的視頻。交叉注意力層結合文本輸入，使視頻生成能夠根據描述更好地控制。LoRA的自適應層歸一化將模型大小減少了36%，在更少的資源下保持了高性能。

機器人ChatGPT時刻！英偉達開源世界大模型，完美模擬物理世界！-AI.x社區

訓練數據方面，Cosmos使用了9000萬億token的數據，包括自動駕駛、機器人、合成環境和其他相關領域的2000萬小時數據。能夠創建非常逼真的合成視頻環境和互動，這為訓練復雜機器人、自動化駕駛提供重要基礎。

Cosmos共有Nano、Super和Ultra三種型號：Nano針對實時、低延遲推理和邊緣部署進行了優化；Super作為性能基線模型設計；Ultra專注于最大質量和保真度，是蒸餾定制模型的理想選擇。

為了提升Cosmos的安全性，提供了預防護和后防護兩種安全機制。預防護主要基于文本提示的安全措施，使用兩層：關鍵詞屏蔽，一個屏蔽列表檢查器掃描提示中的不安全關鍵詞，使用詞形還原來檢測變體，并屏蔽非英語術語或拼寫錯誤。Aegis安全防護，NVIDIA微調的Aegis AI內容安全模型檢測并屏蔽語義上不安全的提示，包括暴力、騷擾和粗俗等類別。

機器人ChatGPT時刻！英偉達開源世界大模型，完美模擬物理世界！-AI.x社區