RSS 2025｜物理驅(qū)動(dòng)的世界模型PIN-WM：直接從視覺觀測(cè)估計(jì)物理屬性，可用于操作策略學(xué)習(xí)

2025-05-23 09:07:39

國(guó)防科大、深圳大學(xué)、武漢大學(xué)團(tuán)隊(duì)提出 PIN-WM（Physics-INformed World Models）——一種物理驅(qū)動(dòng)的世界模型。

第一作者李文軒目前就讀于國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院，碩士二年級(jí)，導(dǎo)師為徐凱教授，研究方向包括世界模型、可微物理仿真等。共同第一作者趙航，現(xiàn)為武漢大學(xué)計(jì)算機(jī)學(xué)院博士后，博士期間導(dǎo)師為徐凱教授，研究方向?yàn)楣I(yè)具身智能。本文通信作者為深圳大學(xué)胡瑞珍教授與國(guó)防科技大學(xué)徐凱教授。

在機(jī)器人操作中，物體運(yùn)動(dòng)往往涉及摩擦、碰撞等復(fù)雜物理機(jī)制。準(zhǔn)確的物理屬性描述可以實(shí)現(xiàn)對(duì)物體運(yùn)動(dòng)結(jié)果更準(zhǔn)確的預(yù)測(cè)，并提升機(jī)器人在操作技能學(xué)習(xí)中的表現(xiàn)。

然而，一般用于訓(xùn)練機(jī)器人操作策略的仿真交互環(huán)境，其物理屬性與真實(shí)環(huán)境往往存在明顯差異且難以校準(zhǔn)，機(jī)器人控制策略的虛擬到現(xiàn)實(shí)遷移（Sim2Real）一直是困擾社區(qū)的問題。

為解決上述問題，國(guó)防科大、深圳大學(xué)、武漢大學(xué)團(tuán)隊(duì)提出 PIN-WM（Physics-INformed World Models）——一種物理驅(qū)動(dòng)的世界模型。

論文標(biāo)題：PIN-WM: Learning Physics-INformed World Models for Non-Prehensile Manipulation
論文地址：https://arxiv.org/abs/2504.16693
項(xiàng)目主頁：https://pinwm.github.io

基于可微物理和可微渲染，PIN-WM 以真實(shí)世界運(yùn)動(dòng)結(jié)果為監(jiān)督信號(hào)，可以從視覺觀測(cè)中直接辨識(shí)剛體物理屬性。由于可微物理提供了物理系統(tǒng)的動(dòng)力學(xué)基礎(chǔ)描述和有效的梯度引導(dǎo)，PIN-WM 僅需少量且任務(wù)無關(guān)的交互軌跡進(jìn)行學(xué)習(xí)，隨后可以基于未見「狀態(tài)-動(dòng)作對(duì)」實(shí)現(xiàn)對(duì)下一時(shí)刻狀態(tài)的良好泛化估計(jì)。

進(jìn)一步，團(tuán)隊(duì)提出物理感知的數(shù)字表親 PADC（Physics-Aware Digital Cousins），在辨識(shí)參數(shù)附近局部擾動(dòng)，生成具有近似且多樣視覺和物理特性的世界模型變體，以建模未被觀測(cè)的潛在偏差，進(jìn)一步提高策略學(xué)習(xí)的魯棒性。

基于 PIN-WM 和 PADC，團(tuán)隊(duì)在世界模型中訓(xùn)練非抓取式操作技能，無需策略微調(diào)即可直接實(shí)現(xiàn)操作技能的 Sim2Real 遷移。

論文創(chuàng)新點(diǎn)

一種物理驅(qū)動(dòng)的世界模型：使用可微仿真和可微渲染技術(shù)從視覺觀測(cè)中直接辨識(shí)剛體的物理參數(shù)。
一種物理感知的數(shù)字表親：在辨識(shí)參數(shù)附近進(jìn)行小范圍擾動(dòng)，生成多組具有近似且多樣視覺和物理特性的世界模型變體，以應(yīng)對(duì)未建模誤差，提升策略在真實(shí)環(huán)境中的魯棒性。

圖 1：PIN-WM 僅需少量任務(wù)無關(guān)交互軌跡辨識(shí)物理屬性，以支持機(jī)器人操作技能學(xué)習(xí)與 Sim2Real 遷移

技術(shù)路線

該團(tuán)隊(duì)提出一種從現(xiàn)實(shí)到虛擬再到現(xiàn)實(shí)的框架，以學(xué)習(xí)非抓取操作相關(guān)的技能策略。該框架可分為兩大階段：系統(tǒng)辨識(shí)和策略訓(xùn)練。

從現(xiàn)實(shí)到仿真（Real2Sim）：系統(tǒng)辨識(shí)

渲染屬性估計(jì)：收集物體的多視角圖片，并計(jì)算 Rendering loss，然后使用 2DGS 對(duì)其渲染參數(shù)進(jìn)行優(yōu)化。
物理屬性估計(jì)：收集機(jī)器人與物體的交互視頻，同樣基于 Rendering loss，使用 2DGS 和可微 LCP 傳播梯度，從而對(duì)物理參數(shù)進(jìn)行優(yōu)化（此時(shí)固定渲染參數(shù)）。

從仿真到現(xiàn)實(shí)（Sim2Real）：策略訓(xùn)練與部署

結(jié)合數(shù)字表親學(xué)習(xí)策略：在辨識(shí)參數(shù)附近進(jìn)行小范圍擾動(dòng)，生成多組具有視覺和物理特性差異的世界模型變體，并在此基礎(chǔ)上訓(xùn)練策略。
策略部署：將世界模型中學(xué)習(xí)到的策略部署到真實(shí)場(chǎng)景中，完成虛擬到現(xiàn)實(shí)遷移。

圖 2：Real2Sim2Real 框架用于學(xué)習(xí)非抓取操作策略

實(shí)驗(yàn)結(jié)果

「推」（Push）和「翻轉(zhuǎn)」（Flip）作為經(jīng)典的非抓取式任務(wù)，對(duì)摩擦、碰撞等復(fù)雜物理機(jī)制非常敏感。PIN-WM 在這兩項(xiàng)代表性任務(wù)上進(jìn)行實(shí)驗(yàn)評(píng)估：「推」指通過推的方式將平面上的物體移動(dòng)到目標(biāo)姿態(tài)，「翻轉(zhuǎn)」指通過戳的方式將物體翻轉(zhuǎn)（圖 3）。通過統(tǒng)計(jì)各方法在兩項(xiàng)任務(wù)中的成功率及完成步數(shù)，對(duì)其性能進(jìn)行對(duì)比評(píng)估。

圖 3：仿真場(chǎng)景中「推」和「翻轉(zhuǎn)」任務(wù)軌跡

在仿真實(shí)驗(yàn)方面，PIN-WM 分別與數(shù)據(jù)驅(qū)動(dòng)的方法、預(yù)設(shè)物理參數(shù)的方法和辨識(shí)物理參數(shù)的方法進(jìn)行對(duì)比。團(tuán)隊(duì)在更具挑戰(zhàn)性的低摩擦場(chǎng)景下學(xué)習(xí)世界模型以及機(jī)器人操作策略，物理參數(shù)估計(jì)誤差造成的機(jī)器人操作失準(zhǔn)會(huì)在低摩擦的場(chǎng)景下被進(jìn)一步放大，導(dǎo)致任務(wù)失敗。

實(shí)驗(yàn)結(jié)果說明：數(shù)據(jù)驅(qū)動(dòng)方法（Dreamer，Diffusion Policy）在已使用更多交互數(shù)據(jù)的情況下泛化能力依然不足，策略測(cè)試性能欠佳；預(yù)設(shè)物理參數(shù)方法（RoboGSim、Domain Randomization）底層動(dòng)力學(xué)與真實(shí)物理有明顯差異，而其他辨識(shí)物理參數(shù)的方法依賴簡(jiǎn)化的物理模型（2D Physics）或者缺少梯度引導(dǎo)（ASID），動(dòng)力學(xué)的擬合效果相對(duì)較差，失準(zhǔn)的動(dòng)力學(xué)建模導(dǎo)致策略表現(xiàn)依然欠佳；在可微物理梯度引導(dǎo)下，PIN-WM 能夠?qū)崿F(xiàn)更準(zhǔn)確的物理參數(shù)辨識(shí)，在「推」和「翻轉(zhuǎn)」兩項(xiàng)非抓取式操作任務(wù)上的策略表現(xiàn)均明顯優(yōu)于其他方法（表 1）。

表 1：仿真場(chǎng)景中的非抓取策略性能對(duì)比

在真機(jī)實(shí)驗(yàn)方面，PIN-WM 同樣與上述主要基線對(duì)比，在真實(shí)場(chǎng)景「推」和「翻轉(zhuǎn)」兩項(xiàng)任務(wù)上的性能優(yōu)勢(shì)得到驗(yàn)證（表 2）。

表 2：真實(shí)場(chǎng)景中的非抓取策略性能對(duì)比

圖 4 展示了真實(shí)場(chǎng)景中不同方法執(zhí)行「推」任務(wù)時(shí)的軌跡對(duì)比圖。

圖 4：真實(shí)場(chǎng)景中不同方法執(zhí)行「推」任務(wù)時(shí)的軌跡對(duì)比

圖 5 展示了真實(shí)場(chǎng)景中不同方法執(zhí)行「翻轉(zhuǎn)」任務(wù)時(shí)的軌跡對(duì)比圖。

圖 5：真實(shí)場(chǎng)景中不同方法執(zhí)行「翻轉(zhuǎn)」任務(wù)時(shí)的軌跡對(duì)比

PIN-WM 執(zhí)行系統(tǒng)辨識(shí)后，在光滑玻璃平面上「推」T 形物體的測(cè)試結(jié)果，機(jī)器人可以準(zhǔn)確地將物體推入目標(biāo)位置。

未執(zhí)行系統(tǒng)辨識(shí)時(shí)，策略在光滑玻璃平面上「推」T 形物體，機(jī)器人在目標(biāo)位置反復(fù)嘗試，始終無法將物體正確推入目標(biāo)位置。

PIN-WM 執(zhí)行系統(tǒng)辨識(shí)后，在光滑玻璃平面上「推」正方體的測(cè)試結(jié)果。正方體的質(zhì)量和體積更小，機(jī)器人操作更加困難，而 PIN-WM 訓(xùn)練出的策略能夠準(zhǔn)確完成任務(wù)。

未執(zhí)行系統(tǒng)辨識(shí)時(shí)，策略在光滑玻璃平面上「推」正方體，無法將正方體正確推入目標(biāo)位置。

PIN-WM 執(zhí)行系統(tǒng)辨識(shí)后，在粗糙平面上「戳」正方體使其翻轉(zhuǎn)。

未執(zhí)行系統(tǒng)辨識(shí)時(shí)，在粗糙平面上「戳」正方體，正方體輕微抬升，卻始終無法有效翻轉(zhuǎn)。

PIN-WM 執(zhí)行系統(tǒng)辨識(shí)后，在粗糙平面上「推」任務(wù)的測(cè)試結(jié)果（軌跡 1）。

PIN-WM 執(zhí)行系統(tǒng)辨識(shí)后，在粗糙平面上「推」任務(wù)的測(cè)試結(jié)果（軌跡 2）。

在更大尺寸物體上驗(yàn)證 PIN-WM 的有效性，執(zhí)行系統(tǒng)辨識(shí)后，在粗糙平面上「推」T 形物體的測(cè)試結(jié)果（軌跡 1）。

PIN-WM 執(zhí)行系統(tǒng)辨識(shí)后，在粗糙平面上「推」更大尺寸 T 形物體的測(cè)試結(jié)果（軌跡 2）。

總結(jié)

國(guó)防科大、深圳大學(xué)、武漢大學(xué)團(tuán)隊(duì)提出了一種物理驅(qū)動(dòng)的世界模型 PIN-WM（Physics-INformed World Models），可以從視覺觀測(cè)（少量且任務(wù)無關(guān)的交互軌跡）中辨識(shí)剛體的物理屬性。

同時(shí)，團(tuán)隊(duì)提出具備物理感知的數(shù)字表親 PADC（Physics-Aware Digital Cousins），在辨識(shí)參數(shù)附近進(jìn)行局部擾動(dòng)以建模潛在的偏差，從而進(jìn)一步提高虛擬到現(xiàn)實(shí)的遷移性能。團(tuán)隊(duì)通過廣泛的實(shí)驗(yàn)證明了 PIN-WM 的有效性，其提出的方法有效提升了非抓握式操作技能從仿真到現(xiàn)實(shí)遷移的性能。

責(zé)任編輯：張燕妮來源：機(jī)器之心