NeurIPS 2024 | 機器人操縱世界模型來了，成功率超過谷歌RT-1 26.6%

作者：機器之心 2024-11-01 10:30:00

PIVOT-R 通過引入原語動作驅動的路徑點感知，顯著提升了機器人在復雜操控任務中的性能。

對于人類而言，一旦掌握了 “打開瓶蓋” 的動作，面對 “擰緊螺絲” 這樣的任務通常也能游刃有余，因為這兩者依賴于相似的手部動作。然而，對于機器人來說，即使是這樣看似簡單的任務轉換依然充滿挑戰(zhàn)。例如，換成另一種類型的瓶蓋，機器人可能無法成功打開。這表明，目前的機器人方法尚未充分讓模型學習到任務的內在執(zhí)行邏輯，而只是單純的依賴于數據擬合。

針對該問題，來自中山大學和華為諾亞等單位的研究團隊提出了一種全新的原語驅動的路徑點感知世界模型，借助 VLMs 作為機器人的大腦，理解任務之間的動作關聯性，并通過 “世界模型” 獲取對未來動作的表征，從而更好地幫助機器人學習和決策。該方法顯著提升了機器人的學習能力，并保持良好的泛化性。

論文地址：https://arxiv.org/abs/2410.10394
項目主頁：https://abliao.github.io/PIVOT-R/

研究動機

當前，現有機器人操作任務有兩個關鍵問題：

機器人模型在開放世界中表現差且不穩(wěn)定：許多機器人操作模型雖然能夠處理復雜任務，但往往直接將用戶指令和視覺感知映射到低層次的可執(zhí)行動作上，而忽略了操作任務中關鍵狀態(tài)（路徑點）的建模。這種方式容易使模型記住表面數據模式，導致模型在開放環(huán)境中表現脆弱。模型缺乏對關鍵路徑點的預測，使得每個動作的隨機性可能逐步放大，降低了任務的執(zhí)行成功率。
計算效率低：隨著模型的增大（例如 RT-2, RT-H），運行速率隨之降低，無法滿足機器人任務實時性的需求。

為了解決上述問題，研究團隊提出了 PIVOT-R，一種原語驅動的路徑點感知世界模型。如上圖所示，對比左圖現有的方法，右圖展示了 PIVOT-R 通過關注與任務相關的路徑點預測，提升機器人操作的準確性，并設計了一個異步分層執(zhí)行器，降低計算冗余，提升模型的執(zhí)行效率。

這樣做有幾個好處：

它使得模型可以更好的學習任務與動作之間的內在關聯性，減少其他干擾因素的影響，并更好地捕捉不同任務之間的相似性（例如，擰瓶蓋和擰螺絲的動作是相似的，拿杯子和搭積木都有一個抓住物體的過程），從而使得模型可以在多任務數據下學習到可遷移的知識。
通過世界模型建模的方式獲得對未來關鍵動作的表征，避免了文本語言帶來的模糊性、不確定性。
通過異步執(zhí)行的方式，確保各模塊獨立運行、互不阻塞，從而有效避免了大模型導致的低速率問題。

研究方法

原語動作解析

PIVOT-R 的第一個核心步驟是原語動作解析，這一步通過預訓練的視覺 - 語言模型（VLM）來解析用戶的語言指令。VLM 可以將復雜的自然語言指令轉換為一組簡單的原語動作，例如 “靠近”、“抓取”、“移動” 等。這些原語動作為機器人提供了操作任務的粗略路徑。

具體流程如下：

用戶輸入的語言指令（例如 “請給我那個杯子”）首先被輸入到 VLM 中，VLM 會將其解析為與任務相關的原語動作（如 “靠近杯子”、“抓取杯子”）。
原語動作作為提示，指導機器人在接下來的步驟中專注于特定的操作軌跡點。這種方式確保機器人不會被復雜的環(huán)境因素干擾，而是明確知道每個動作的目的。

路徑點預測

在原語動作解析后，PIVOT-R 的下一步是路徑點預測。路徑點代表了機器人操控過程中一些關鍵的中間狀態(tài)，例如靠近物體、抓取物體、移動物體等。通過預測路徑點，PIVOT-R 能夠在機器人執(zhí)行任務時提供明確的操作指導。具體來說，通過一個 Transformer 架構的模型，預測路徑點對應的視覺特征，為后續(xù)的動作預測模塊提供指引。

動作預測模塊

動作預測模塊負責根據預測的路徑點生成具體的低層次機器人動作。它以路徑點為提示，結合機器人歷史狀態(tài)（如位置、姿態(tài)等），計算下一步應該執(zhí)行的動作。該模塊使用輕量級的 Transformer 架構進行動作預測，確保計算效率和性能的平衡。這一模塊的設計重點在于低延遲和高精度執(zhí)行操控任務。

異步分層執(zhí)行器

此外，PIVOT-R 還引入了一個關鍵的執(zhí)行機制，即異步分層執(zhí)行器。與以往的機器人模型不同，PIVOT-R 并不對所有模塊在每一步都進行同步更新，而是為不同模塊設置了不同的執(zhí)行頻率，以多線程的方式進行異步更新，從而提升執(zhí)行速度。