具身世界模型新突破，地平線 & 極佳提出幾何一致視頻世界模型增強機器人策略學習

2025-06-26 15:06:47

近日，地平線、極佳科技與中國科學院自動化研究所等單位提出 RoboTransfer，基于擴散模型的視頻生成框架，可以用于擴充機器人策略模型的訓練數據。

近年來，隨著人工智能從感知智能向決策智能演進，世界模型（World Models）逐漸成為機器人領域的重要研究方向。世界模型旨在讓智能體對環境進行建模并預測未來狀態，從而實現更高效的規劃與決策。

與此同時，具身數據也迎來了爆發式關注。因為目前具身算法高度依賴于大規模的真實機器人演示數據，而這些數據的采集過程往往成本高昂、耗時費力，嚴重限制了其可擴展性和泛化能力。盡管仿真平臺提供了一種相對低成本的數據生成方式，但由于仿真環境與真實世界之間存在顯著的視覺和動力學差異（即 sim-to-real gap），導致在仿真中訓練的策略難以直接遷移到真實機器人上，從而限制了其實際應用效果。因此如何高效獲取、生成和利用高質量的具身數據，已成為當前機器人學習領域的核心挑戰之一。

近日，地平線、極佳科技與中國科學院自動化研究所等單位提出 RoboTransfer，基于擴散模型的視頻生成框架，可以用于擴充機器人策略模型的訓練數據。得益于合成數據的多樣性，下游策略模型能夠在新場景下取得 251% 的顯著提升，大幅提升策略模型的泛化性，為具身智能的通用性與泛化性奠定了堅實的基礎。

論文題目：RoboTransfer:Geometry-Consistent Video Diffusionfor Robotic Visual Policy Transfer
論文鏈接：https://arxiv.org/pdf/2505.23171
項目主頁：https://horizonrobotics.github.io/robot_lab/robotransfer/

模仿學習（Imitation Learning）已成為機器人操作領域的重要方法之一。通過讓機器人 “模仿” 專家示教的行為，可以在復雜任務中快速構建有效的策略模型。然而，這類方法通常依賴大量高質量的真實機器人演示數據，而數據采集過程成本高、周期長，嚴重制約了其擴展性和泛化能力。

為了解決上述問題，本項工作提出了 RoboTransfer ，一種基于擴散模型（diffusion model）的視頻生成框架，旨在實現高質量的機器人操作場景數據合成。不同于傳統的仿真方法或現有生成模型，RoboTransfer 融合了多視角幾何信息，并對場景中的關鍵組成成分（如背景、物體屬性等）實現了顯式控制。具體而言，RoboTransfer 通過引入跨視角特征交互機制以及全局深度圖與法向圖作為條件輸入，確保生成視頻在多個視角下的幾何一致性。此外，該框架支持細粒度的編輯控制，例如更換背景、替換目標物體等，從而能夠靈活地生成多樣化、結構合理的視覺數據。

實驗結果表明，RoboTransfer 能夠生成具有高幾何一致性和視覺質量的多視角視頻序列。此外，使用 RoboTransfer 合成數據訓練的機器人視覺策略模型，在標準測試任務中表現出顯著提升的性能：在更換前景物體的場景下取得了 33.3% 的成功率相對提升，在更具挑戰性的場景下（同時更換前景背景）更是達到了 251% 的顯著提升。

RoboTransfer 的整體框圖如下，為了在視頻生成過程中保證多視角之間的一致性，RoboTransfer 引入了多視角一致性建模機制，使得生成過程能夠聯合不同視角的信息進行推理，從而提升生成結果的空間連貫性與視覺合理性。

此外，在控制條件的設計方面，RoboTransfer 通過將控制信號解耦為幾何信息與外觀（紋理）信息兩個部分，實現了對生成內容的細粒度控制。具體來說，在幾何控制方面，采用深度圖（depth map）和表面法向圖（surface normal map）等具有強結構約束的表示方式，來引導生成視頻中物體的三維空間結構，確保在不同視角下生成內容的幾何一致性。而在外觀控制方面，模型利用參考背景圖像和目標物體的參考圖像作為輸入條件，這些圖像經過編碼后能夠有效保留原始場景的色彩、紋理以及上下文信息，從而在生成過程中維持物體外觀的細節還原能力。

在實驗部分，RoboTransfer 證明可以通過 real-to-real，以及 sim-to-real 兩種方式實現數據增廣，并訓練下游的策略模型提升其性能。

real-to-real 數據增廣
基于真機采集的真實視頻數據，可從中提取結構化信息作為控制條件，通過調整背景桌面與前景物體的控制參數，實現新場景數據的合成。如下圖所示，左側為真實采集的數據及其對應的結構化信息，右側為合成結果，實驗表明 RoboTransfer 能夠靈活地實現背景桌布的替換。

改變前景：下圖所示第一行為真機采集數據，第二行為深度圖，第三行為法向圖，第四行為前景物體的控制條件，第五行為合成數據，第六行為背景桌布控制條件。以下實驗結果表明 RoboTransfer 可以實現對前景物體外表編輯的功能，豐富生成數據的多樣性，提升策略模型的訓練質量。

sim-to-real 數據增廣
RoboTransfer 不僅可以改變真機數據的前景和背景，還可以實現對仿真數據的重新渲染。利用仿真數據中的結構化信息以及真實場景的物體和背景作為控制條件，RoboTransfer 可以將仿真數據的轉化為逼真的真實數據，極大地降低 sim-to-real 之間的 gap，為通用機器人的訓練提供了一個新的范式。以下是兩個不同的仿真場景重新渲染的實驗結果，左側是疊碗，右側是放置杯子，其中第一行為仿真采集數據，第二行為深度圖，第三行為法向圖，第四行為合成數據，第五行為背景參考圖。

對比實驗結果與其他 SOTA 方法的對比可以發現，RoboTransfer 在時序一致性以及多視角之間的一致性上都要顯著優于其他方法。

定量實驗的實驗結果如下表所示，實驗表明對于生成數據的前背景增廣可以顯著提升策略模型在新場景下的成功率，其中對于前背景完全改變的新場景，前背景的數據增廣能夠讓策略模型獲得 251% 的性能提升。

表 1 數據增廣對于策略模型在不同 setting 下的提升

總體來說，該方法構建了數據處理流程，可以生成包含幾何和外觀控制條件的三元組數據，以訓練基于擴散模型的機器人數據合成框架 RoboTransfer。實驗和評估結果顯示，RoboTransfer 能夠生成具有多視角一致、幾何一致的數據，并且可以根據參考圖像修改前景和背景紋理。生成的數據用于訓練機器人操作策略，從而顯著提升了策略模型的泛化能力。

責任編輯：張燕妮來源：機器之心

數據訓練模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

具身世界模型新突破，地平線 & 極佳提出幾何一致視頻世界模型增強機器人策略學習