機器人ChatGPT時刻!英偉達開源世界大模型,完美模擬物理世界! 精華
全球AI領導者NVIDIA(英偉達)在2025年CES展會上,開源了全新世界大模型NVIDIA Cosmos。
Cosmos能從數據整合、訓練再到定制各個開發階段的,大規模模擬、構建物理世界的基礎模型,同時支持自定義微調。
例如,你想開發一個實體倉儲機器人,但沒有真實大型倉儲環境為機器人提供貨物搬運、揀選、分揀等訓練環境,通過Cosmos就能輕松創建一個模擬的物理倉儲環境,來訓練、觀察、優化機器人各種動作。
在自動駕駛領域,想觀察汽車在大雨、暴雪、地震等超惡劣環境中的表現同樣很難,而Cosmos可以輕松模擬這些環境,幫助開發者深度優化智能汽車的開發流程。
NVIDIA創始人兼首席執行官黃仁勛在演講中表示,“機器人的ChatGPT時刻即將到來。與大語言模型一樣,世界基礎模型對于推動機器人和自動駕駛汽車的發展至關重要,但并非所有開發者都具備訓練自己模型的專業知識和資源。
所以,NVIDIA開發了Cosmos,讓物理AI大眾化,幫助每個開發者都能輕松開發通用實體機器人技術。”
開源地址:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6
API:https://build.nvidia.com/explore/simulation
Cosmos架構介紹
Cosmos使用了基于Transformer的自回歸和擴散雙架構模型:自回歸模型專為視頻生成設計,基于輸入文本和過去的視頻幀預測下一個token。使用了Transformer解碼器架并進行了關鍵修改用于世界模型開發。
3D RoPE(旋轉位置嵌入)分別對空間和時間維度進行編碼,確保精確的視頻序列表示。交叉注意力層使文本輸入為世界生成提供了更好的控制。QK歸一化增強了訓練穩定性。該模型的預訓練是逐步進行的,從單個輸入幀預測多達17個未來幀開始,然后擴展到34幀,最終達到121幀(或50000個token)。
擴散模型因其能夠解構訓練數據并根據用戶輸入重建它,從而產生高質量、逼真的輸出而廣受歡迎,用于生成圖像、視頻和音頻。
Cosmos的擴散模型分為正向擴散和反向擴散兩個階段:在正向擴散過程中,訓練數據通過逐步添加高斯噪聲而逐漸被破壞,有效地將其轉化為純噪聲。
在反向擴散過程中,模型學習逐步逆轉這種噪聲,通過去噪被破壞的輸入來恢復原始數據。一旦訓練完成,擴散模型通過采樣隨機高斯噪聲并將其通過學習到的去噪過程來生成新數據。
此外,Cosmos擴散模型還有一些關鍵更新,專門針對物理AI開發。3D Patchification將視頻處理成較小的塊,簡化了時空序列表示。混合位置嵌入處理空間和時間維度,支持具有不同分辨率和幀率的視頻。交叉注意力層結合文本輸入,使視頻生成能夠根據描述更好地控制。LoRA的自適應層歸一化將模型大小減少了36%,在更少的資源下保持了高性能。
訓練數據方面,Cosmos使用了9000萬億token的數據,包括自動駕駛、機器人、合成環境和其他相關領域的2000萬小時數據。能夠創建非常逼真的合成視頻環境和互動,這為訓練復雜機器人、自動化駕駛提供重要基礎。
Cosmos共有Nano、Super和Ultra三種型號:Nano針對實時、低延遲推理和邊緣部署進行了優化;Super作為性能基線模型設計;Ultra專注于最大質量和保真度,是蒸餾定制模型的理想選擇。
為了提升Cosmos的安全性,提供了預防護和后防護兩種安全機制。預防護主要基于文本提示的安全措施,使用兩層:關鍵詞屏蔽,一個屏蔽列表檢查器掃描提示中的不安全關鍵詞,使用詞形還原來檢測變體,并屏蔽非英語術語或拼寫錯誤。Aegis安全防護,NVIDIA微調的Aegis AI內容安全模型檢測并屏蔽語義上不安全的提示,包括暴力、騷擾和粗俗等類別。
后防護階段通過以下方式確保生成視頻的安全性:視頻內容安全分類器,一個多類分類器評估每個視頻幀的安全性。如果任何幀被標記為不安全,則整個視頻將被拒絕。面部模糊過濾器,使用RetinaFace模型模糊生成視頻中的所有人臉,以保護隱私并減少基于年齡、性別或種族的偏見。
Cosmos實際應用案例
根據NVIDIA在官網的展示,目前很多世界知名的實體機器人、智能汽車開發商已經在使用Cosmos加速物理開發效率。
著名人形機器人開發公司1X使用 Cosmos,推出了1X世界模型挑戰數據集。國內的小鵬汽車將使用Cosmos 加速其人形機器人的開發。Hillbot 和 Skild AI 正在使用 Cosmos 快速推進其通用機器人的開發流程。
Waabi,一家從自動駕駛汽車開始開創物理世界生成式AI的公司,正在評估 Cosmos 在自動駕駛汽車軟件開發和模擬的數據整理方面的應用。
Wayve在開發自動駕駛的AI基礎模型,正在評估Cosmos作為搜索用于安全和驗證的邊緣和角落駕駛場景的工具。自動駕駛工具鏈提供商Foretellix將使用Cosmos,結合NVIDIA Omniverse Sensor RTX API,以規模評估和生成高保真測試場景和訓練數據。
全球網約車巨頭Uber正在與NVIDIA合作加速自動駕駛移動性。Uber的豐富駕駛數據集,結合Cosmos平臺和NVIDIA DGX Cloud?的功能,可以幫助自動駕駛合作伙伴更高效地構建更強大的AI模型。
Uber首席執行官Dara Khosrowshahi表示,“生成式AI將推動移動性的未來,這需要豐富的數據和非常強大的計算能力。通過與NVIDIA合作,我們有信心可以幫助加速安全和可擴展的自動駕駛解決方案。
本文轉自 AIGC開放社區 ,作者:AIGC開放社區
