Nvidia的具身推理模型還缺什么?
物理人工智能系統需要感知、理解并在物理世界中執行復雜動作,Nvidia Cosmos-Reason1 【文獻1】就是為此而設計。
一、Cosmos-Reason1
Cosmos-Reason1模型系列宣稱可以通過長鏈思維推理過程理解物理世界,并以自然語言生成相應的具身決策。
該模型將物理AI推理的核心能力,鎖定在物理常識和具身推理:
1. 采用分層本體論來捕捉關于空間、時間和物理學的基礎知識。分層本體將物理常識劃分為空間、時間和基礎物理三大類16個子類;
2. 基于二維本體論實現跨物理實體的泛化。二維本體映射了人、機械臂、人形機器人等多種具身智能體的推理過程和能力。
通過物理AI監督微調SFT和物理AI強化學習RL兩階段,完成數據構建與模型訓練。同時推出基于物理常識具身推理的評估基準,開源了代碼與預訓練模型。
Cosmos-Reason1 通過多模態信息融合和預先編碼的物理時空知識,具備了一定的空間關系和時間序列推理能力,可以用自然語言規劃和解釋具身任務。
二、融合的模型架構
Cosmos-Reason1 模型基礎架構為純解碼器Transformer,結合視覺編碼器ViT處理視頻幀序列,能同時接受文本和視覺輸入,一段文本提示和一段低幀率視頻。
視覺內容由 ViT 編碼為語義特征,文本提示與視覺特征一起輸入Transformer網絡,通過長思維鏈CoT推理逐步生成輸出答案。
模型核心本質上是狀態空間模型Mamba與Transformer的融合架構,通過物理AI SFT,將預先訓練的視覺語言模型適配為物理 AI 推理模型,并通過物理 AI 為重點任務的強化學習對模型進行后訓練 。
強化學習算法選用GRPO,簡單高效,避免了訓練和維護單獨的批評者模型。GRPO 是簡化的策略優化方法。
三、狀態空間模型
Transformer 的后浪來了筆者探討過Mamba這一“輸入依賴的結構化狀態空間模型”SSM:
狀態空間模型簡單,卻具備強大的刻畫能力,可解決:時變性 time-varying,非線性 nonlinear,通用性 general,即使人腦也能用這個形式建模。
圖片
Mamba 非常注重強化建模中非線性部分的處理,"重復這個塊,用標準歸一化和殘差連接交織,形成Mamba 架構";同時"離散化與連續時間系統有著深度的連接,可賦予額外屬性,如解不變性與自動確保模型適當歸一化"。
不僅"SSM的離散化"處理本身保障適當歸一化,還在架構上與標準歸一化與殘差連接交織,確保了非線性處理能力,參數和步長都是如此,因而優于Transformer特別是仍具有煉金術特征的skip connection部分。
物理具身模型感知、理解以及復雜行動都是在物理時空中發生的,因而需要構建可以對時間、空間建模和推理的世界模型,狀態空間模型是其最核心的時間維度建模方式。
四、時空世界模型
在解讀OpenAI Sora文生視頻技術原理中,筆者詳細闡釋了如下的時空世界模型構建框架:
某個時刻 t ,所有非時間維度張成的狀態子空間中,對事物的表征和刻畫,可以從細顆粒度到粗顆粒度,逐級重整化提取潛變量分布;從而獲取該時刻事物狀態的不同顆粒度的信息,形成客觀認知,原理可以參考筆者梳理的大模型的數理認知框架。
狀態空間隨時間的變化,即動態性,從時間的維度研究整個狀態空間的變遷,對應著狀態空間的時間序列,即狀態空間的動力學,或者外在驅動“力”或因素導致的狀態的“流動”,狀態空間t時刻與 t-n時刻之間的關系,注意力機制捕獲到的是其時間依賴規律。
狀態空間整體動態性由不同顆粒度的潛變量對象(時空碎片patch)的動力學共同構成。因而,只要模型需要,研究對象可以是潛變量空間中任意顆粒度的碎片patch或其組合。
物理世界中,事物狀態的動態演化受數理規律的支配,觀測采集這些變化的表征,從中發掘背后隱藏的普適規律是現代自然科學的基本范式,也是一個從概率表征到因果表征的范式,正如蘋果砸中牛頓事件。
物理具身模型,對狀態空間時間序列的學習過程,是時間維度上的重整化提取信息的過程,從細時間尺度,到粗時間尺度,可以逐層獲取到碎片們patches的動力學概率表征。
五、時空推理
構建時空世界模型這一過程,有機會促成從概率表征到因果表征的范式演變,畢竟因果其實是概率的特例。
基于時空世界模型,而不是某一時刻t的世界模型的切片或投影,這樣的推理才可能真正變得可靠。?通往世界模型之路Sora、Genie、Emo、LTX Studio筆者梳理過:
通過碎片化時空模型,海量學習事物及其運作模式的概率表征,將學到的時空模型,概念化、可選可配可生成,可作為構建時空世界模型的共識范式。
LeCun建議的 V-JEPA 實現路徑,就是讓大家用一致的架構去學習各個領域的局部世界模型,最后拼成整體的世界模型。
圖片
不過,世界的復雜性和動態性,決定了無窮無盡的模型需要構建,因而這可能是個無法完成的任務,除非找到了?世界演化的核心方式。
推本溯源,物質本質上是減速變重的能量。在筆者看來,所謂“物理世界”,是由物質、能量及其相互作用構成的系統,在相對論框架下表現為四維時空的動態結構,并在物理規律約束下演化。
Cosmos-Reason1提出的,分層本體論可提供縱向的層級結構,解決跨層級的依賴與涌現;而二維本體論,則可以提供橫向的雙重視角,解決同一層級內的多模態存在。
豐富范疇作為形式化工具,可通過賦予態射集額外結構,統一編碼橫向與縱向的復雜的結構化依賴關系,因而自然可以納入到筆者建議的大模型的數理認知框架。
圖片
六、人類具身智能
神經科學研究表明,感官層面,人類在感知空間與時間時,依賴多通道的感官信息和運動反饋,實現高度整合的認知:
視覺、聽覺、觸覺、前庭覺和本體覺等協同工作:視覺提供環境的空間布局,前庭覺和本體覺反饋運動信息,兩者共同支持運動路徑積分和定向導航。
多模態感知與持續運動使人體能夠實時更新對空間的理解,并形成對時序的預測能力。感官信息融合可提高空間位置與速度的估計精度。
運動經驗則進一步強化空間認知:主動移動的大腦不斷更新自身在環境中的位置與方向,從而構建動態地圖和運動模型。
神經結構層面,海馬體被認為是構建“時空認知地圖”的核心部位。海馬體中的“地點細胞”對特定環境位置敏感,“時間細胞”則在序列事件中隨時間點觸發。
這些細胞共同編碼空間和時間信息,使海馬體能夠將不同事件的時空關系學習并存儲,形成一個覆蓋環境與經歷的“記憶空間”。
紋狀體基底節在動作序列和時序決策中發揮重要作用:通過強化學習機制選擇和調整行為,參與毫秒到秒級時長區間的時間估計;而小腦則在精細運動協調和內部定時中占主導地位,其神經活動通常在動作前啟動,以預測和調節時序。
七、具身認知閉環
對比可見,人類具身智能整合視覺、聽覺、觸覺、前庭和本體感受等多種感覺通道;Cosmos-Reason1 則僅利用視覺(視頻幀)和文本提示。
人類通過自主運動產生連續反饋,實時更新內部模型;而 Cosmos-Reason1 并不具備自主運動或觸覺輸出,其“行動”僅限于在文本中生成下一步建議,無法與物理環境交互并獲得即時反饋。
人類感知-運動閉環允許實時校正感知偏差,而 Cosmos-Reason1 的推理建立在靜態視頻信息上,缺少動態反饋機制。
人腦采用并行神經網絡方式,直覺式結合經驗與預測;Cosmos-Reason1 則通過 Transformer 的逐步注意力計算與長鏈思維顯式推理,依賴預訓練知識和輸入提示逐步決策。
在時空感知上,人類往往快速、無意識地完成感知—決策循環;Cosmos-Reason1 則需要顯式鏈式推理,輸出解釋性答復。
或許相似之處在于二者都需要將感知信息映射為環境模型并指導行動規劃,但 Cosmos-Reason1 側重“物理常識”的顯性編碼,而人類則更依賴長時記憶和多感官融合。
人類大腦能夠自然感知時間流逝并預測未來事件,部分由海馬體(時間細胞)與其他腦區共同完成。Cosmos-Reason1 雖然在訓練中編碼了時間本體知識,但其“時序”理解限于視頻幀中顯式觀察到的動作序列,缺乏持續的內在時間感。
也就是說,人類可以在沒有外界視覺信息的情況下通過經驗估計時間,而Cosmos-Reason1主要通過視頻片段中的時間線索和物理規則來推理順序關系,這是相當局限和脆弱的時空關系。
可以看到,目前的具身智能,“感官”相對單一,其敏感度與內在協調性與人類還不可同日而語。且不談高度精密協同的感官系統,僅傳感器本身都還是關鍵瓶頸。
現在的具身機器人也還沒有類似“海馬體”提供的宏觀的時空映射和記憶,沒有基底節與小腦可以通過學習、預測和校準實現對時間間隔與運動模式的精細控制。
豐富的感官與復雜精密的神經結構協作,才使得具身智能體能夠在復雜環境中精準感知時空并做出相應行動。缺少這些,揠苗助長跑馬拉松,大家知道發生了什么。
八、具身智能的星辰大海
前路漫漫、任重道遠,然而具身智能已然成為人工智能行業共同的星辰大海。
前有谷歌 DeepMind Gato ,一個多模態、多任務的序列模型,可處理圖像、傳感器狀態和文本等的輸入,并輸出文本或連續動作。
Gato 可在多種“具身”環境中感知和行動,但其對時空關系的理解主要依賴大規模數據中的模式,對未見過的物理常識泛化推理能力有限。
繼而有 Tesla Optimus,一個現實中的雙足人形機器人,配備了攝像頭、傳感器和自主運動執行器。估計采用了與特斯拉自動駕駛類似的視覺神經網絡和強化學習。
Optimus 的時空感知能力與自主導航相關聯,能夠基于視覺和慣性信息在真實環境中行走和操控物體;但在高級時空推理和物理理解方面,仍處于基礎任務演示階段,尚不具備復雜規劃能力。
還有波士頓動力的 Atlas 機器人,以高超的運動控制著稱,其核心是基于強化學習和控制理論訓練的動力學模型。
也有嘗試將LLM用于指導 Atlas 的高層決策,利用自然語言指令生成運動計劃,使得 Atlas 能夠在語義層面“理解”任務,但仍需依賴底層的物理控制算法執行動作。
綜上可見,Nvidia此次推出的Cosmos-Reason1 在構建物理世界的時空模型方面專注于“知識驅動的推理”,輸入依賴預錄視頻和文本提示,缺乏真實世界交互和多模態反饋,難以像人類或高級機器人那樣在連續的物理環境中自主學習和修正時空模型。
其他具身系統實現了運動與感知融合,可在實時環境中建圖、導航,或通過強化學習獲得運動技能。但其依賴的數據或算法并非為深層次的時空推理設計,對物理世界的理解依賴任務特定的訓練。
筆者判斷,未來提升具身時空感知的關鍵,在于將大模型的推理能力與真實感官--動作回路有效結合,以實現在物理世界中,實時多感官交互的高效協同,做精準的時空推理。
文獻1,Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning,https://arxiv.org/abs/2503.15558,代碼 https://github.com/nvidia-cosmos/cosmos-reason1?
本文轉載自?????????清熙?????,作者:王慶法
