機器人泛化能力大幅提升:HAMSTER層次化方法和VLA尺度軌跡預測,顯著提升開放世界任務成功率
近年來,人工智能在視覺和自然語言處理方面取得了驚人的泛化能力,但在機器人操作領域,端到端方法往往需要大量昂貴的本域數據,且難以在不同硬件平臺與開放場景下推廣。為此,HAMSTER(Hierarchical Action Models with Separated Path Representations)通過層次化架構,在高層利用域外數據微調的大模型(VLM)生成二維路徑,中間表示解耦了任務規劃與具體執行,讓低層控制模塊專注于實際動作控制。實驗表明,HAMSTER 在多種操作任務中都體現出更高的任務成功率與更好的跨平臺泛化性能,并顯著降低了對昂貴機器人演示數據的依賴。
- 論文標題:HAMSTER: Hierarchical Action Models for Open-World Robot Manipulation
- 論文主頁:https://hamster-robot.github.io/
- 論文鏈接:https://arxiv.org/abs/2502.05485
- Demo: http://hamster.a.pinggy.link
HAMSTER 這一研究成果獲得了業界專家的高度評價。谷歌 DeepMind 高級研究科學家 Ted Xiao 在社交媒體上表示:「在構建機器人基礎模型時,超越簡單的自然語言具有巨大的潛力。軌跡是一種很好的實現方式,而HAMSTER已經將軌跡條件策略擴展到了VLA模型的規模!祝賀整個HAMSTER團隊。」
1. 背景與挑戰
在機器人操作中,收集真實環境下的演示數據成本往往極高,且對環境設置和硬件平臺有很強依賴性。因此,若要實現開箱即用、跨平臺的機器人操作能力,僅僅依靠本域數據遠遠不夠。另一方面,近年快速發展的多模態大模型(VLM)在視覺與語言理解方面已展現較好泛化能力,可通過微調來適應機器人任務。然而,若讓大模型直接輸出低層動作信號,通常仍需海量且昂貴的機器人數據,并且在實時控制與不同硬件遷移上存在諸多難點。
HAMSTER 針對上述問題提出了一種層次化思路:讓大模型只負責高層語義推斷與大體軌跡生成,而將精細的動作控制交給低層模塊來完成。這不僅能充分利用外部(域外)數據的豐富性,也能在跨平臺環境下保持較強的可遷移性。
2. HAMSTER 的層次化方法
2.1 高層規劃:VLM 生成二維路徑
HAMSTER 的高層使用一個視覺 - 語言模型(VLM)來理解環境圖像和語言指令,并輸出 “二維路徑” 這一中間表示。具體來說,二維路徑記錄了末端執行器在圖像平面上的運動軌跡以及抓取器的開合狀態。由于該表示與機器人具體關節、動力學特性無關,因而具備以下優勢:
- 低歧義性、易標注:可以從視頻、仿真或其他數據源中自動提取手部或末端執行器在圖像中的運動軌跡。
- 跨平臺適用性:二維路徑不涉及具體硬件細節,高層模型在不同機械臂或移動平臺上都能保持一致的輸出形式。
- 豐富表達能力:二維路徑不僅適用于簡單的pick and place任務,還能擴展到諸如擦桌子、開抽屜、折毛巾、避障等更復雜的操作場景。
高層模型通過在大量 “域外” 數據上進行微調,學會將視覺與語言信息轉化為合理的操作軌跡。域外數據包括可從互聯網上獲取的視頻、仿真環境里機器人演示、以及其他機器人平臺的歷史數據等。這樣一來,系統對真實機器人數據的需求量顯著減少,卻能在新環境和新任務中保持較好的泛化能力。
2.2 低層執行:基于路徑的精細控制
得到高層輸出的二維路徑后,低層控制模塊才會將其轉化為實際的動作命令,包括抓取、放置等操作。低層通常結合少量本域機器人數據進行訓練,學習如何在真實環境中根據三維信息實時調整,讓執行軌跡與高層給出的二維路徑對齊并完成任務目標。
這種 “高層規劃 + 低層執行” 的分工,避免了端到端方案對昂貴數據的極度依賴,也利用了大模型的強泛化能力來處理更抽象和復雜的視覺與語言推理問題。
3. 實驗設計與主要結果
研究團隊在模擬環境與真實機器人平臺上對 HAMSTER 進行了多組測試,涵蓋多種類型的操作任務(如抓取、放置、推、按壓等),并在不同的視覺和指令變化條件下,驗證其泛化性能。
- 泛化能力:由于二維路徑與硬件無關,同一高層 VLM 可以直接遷移到新的環境和硬件設置上,僅需對低層控制做少量適配;在視覺背景、光照條件以及語言指令多樣化的測試中,HAMSTER 依然能夠輸出合理的路徑規劃。由于低層控制只需跟隨高層 VLM 輸出的二維軌跡,所以能將技能泛化到新的任務,對于各類環境變化的魯棒性也更強。
- 數據效率:高層在海量域外數據上完成微調,而低層只需少量真實機器人演示數據,即可學到足夠的執行能力,顯著降低了對昂貴本域數據的需求。
- 任務成功率提升:與端到端大模型或傳統模仿學習方法相比,HAMSTER 在多個復雜操作任務上的成功率平均提升約 20%~30%。在一些高難度場景如涉及新物體時,傳統端到端模型成功率不到 20%,HAMSTER 可達 80% 左右。
- 推理速度與靈活度:高層只需在任務開始時或關鍵節點調用一次大模型來生成路徑,避免了在每一步動作都調用大模型所帶來的計算開銷。在不犧牲精度的前提下,顯著提升了系統執行效率和靈活性。
4. 未來展望
HAMSTER 在泛化能力和執行效率上展現出顯著優勢,但仍有進一步優化的空間,以提升其在復雜環境中的適應性和任務執行能力:
1. 增強軌跡表示與高低層交互
目前的二維路徑難以表達深度、速度、力控制和旋轉角度等信息,低層模型需依賴額外推斷。未來可探索更豐富的軌跡表示,同時優化高低層交互方式,提高信息傳遞的精度與效率。
2. 實現動態路徑更新
現有高層模型通常在任務開始時生成路徑,缺乏對環境變化(如障礙物、目標位置偏移等)的實時調整能力。未來可引入在線重規劃機制,使系統具備更強的自適應性與魯棒性。
3. 利用大規模人類視頻數據
當前高層模型訓練主要依賴機器人數據,而人類演示數據涵蓋更豐富的操作模式和任務類型。未來可探索直接從大規模人類視頻訓練 VLM,以提升其對多樣化任務的理解與泛化能力。
隨著機器人基礎模型的發展,HAMSTER 的持續優化將進一步提升其在開放世界任務中的泛化能力,并增強跨環境、跨任務的穩定性和擴展性。
5. 結語
HAMSTER 通過引入一種易標注且跨平臺友好的二維路徑作為中間表示,成功地將大模型的高層語義推理與底層的精細控制解耦開來,不僅減輕了對昂貴機器人操作數據的依賴,也在開放環境中展現了更強的泛化能力。實驗結果證實,HAMSTER 在任務成功率、數據效率和跨平臺適用性方面都具有顯著優勢。
隨著多模態數據與模型能力的進一步提升,類似 HAMSTER 的層次化架構有望成為未來機器人系統的關鍵思路,在更多真實場景中實現跨平臺、跨任務的通用操作。通過讓高層專注于對任務語義和大致軌跡的推理,而低層則關注具體的運動與執行細節,機器人在可解釋性、可擴展性與可靠性上都將邁出堅實一步,為邁向真正的開放世界機器人操作奠定基礎。