10%訓練數(shù)據(jù)超越100%表現(xiàn)，機器人學習領(lǐng)域迎來重要突破

2025-06-11 14:45:26

ViSA-Flow 為機器人學習領(lǐng)域帶來了重要突破，證明了從大規(guī)模人類視頻中提取語義表示進行機器人技能學習的可行性。該方法不僅在理論上具有創(chuàng)新性，在實際應用中也展現(xiàn)出強大的性能優(yōu)勢。

第一作者陳昌和是美國密歇根大學的研究生，師從 Nima Fazeli 教授，研究方向包括基礎模型、機器人學習與具身人工智能，專注于機器人操控、物理交互與控制優(yōu)化。

第二作者徐曉豪是美國密歇根大學機器人學院博士生，研究涵蓋3D 感知、視覺語言模型驅(qū)動的多模態(tài)異常檢測及魯棒三維重建。

共同第一作者 Quantao Yang 是瑞典皇家理工學院博士后，師從 Olov Andersson 教授，研究聚焦于利用視覺語言模型與大型語言模型提升自主系統(tǒng)在動態(tài)環(huán)境中的感知與導航能力。

密歇根大學和瑞典皇家理工學院的研究團隊提出了 ViSA-Flow 框架，這是一種革命性的機器人技能學習方法，能夠從大規(guī)模人類視頻中提取語義動作流，顯著提升機器人在數(shù)據(jù)稀缺情況下的學習效率。該方法在 CALVIN 基準測試中表現(xiàn)卓越，僅使用 10% 的訓練數(shù)據(jù)就超越了使用 100% 數(shù)據(jù)的現(xiàn)有最佳方法。

作者： Changhe Chen, Quantao Yang, Xiaohao Xu, Nima Fazeli, Olov Andersson
機構(gòu)：密歇根大學、瑞典皇家理工學院
網(wǎng)頁： https://visaflow-web.github.io/ViSAFLOW
論文鏈接：https://arxiv.org/abs/2505.01288
代碼開源：即將發(fā)布

研究背景與挑戰(zhàn)

機器人模仿學習在使機器人獲得復雜操作技能方面取得了顯著成功，但傳統(tǒng)方法面臨一個根本性限制：需要大量精心策劃的機器人數(shù)據(jù)集，收集成本極其昂貴。這已成為開發(fā)能夠執(zhí)行多樣化現(xiàn)實世界任務的機器人的關(guān)鍵瓶頸。

相比之下，人類展現(xiàn)出通過觀察他人學習新技能的非凡能力。無論是面對面學習、觀看教學視頻還是體育轉(zhuǎn)播，人類本能地專注于語義相關(guān)的組件。例如，學習網(wǎng)球時，我們自然地關(guān)注球員的身體動作、球拍處理技巧和球的軌跡，同時有效過濾無關(guān)的背景信息。

核心創(chuàng)新：語義動作流表示

人類和機器人操作共享相似原子動作

ViSA-Flow 框架的核心創(chuàng)新在于引入了語義動作流（Semantic Action Flow）作為中間表示，捕捉操作器 - 物體交互的本質(zhì)時空特征，且不受表面視覺差異影響。該框架包含以下關(guān)鍵組件：

1. 語義實體定位

利用預訓練的視覺語言模型（VLM）對操作器（如 "手"、"夾具"）和任務相關(guān)物體（如 "紅色方塊"）進行文本描述定位，然后使用分割模型（如 SAM）生成初始分割掩碼。

2. 手 - 物體交互跟蹤

由于語義分割在連續(xù)幀間的不穩(wěn)定性，研究團隊提出跟蹤正確分割的手 - 物體交互掩碼。通過在初始掩碼內(nèi)密集采樣點，使用點跟蹤器（如 CoTracker）估計這些點在序列中的 2D 圖像軌跡。

3. 流條件特征編碼

為產(chǎn)生最終的 ViSA-Flow 表示，研究團隊將流信息編碼為豐富的特征向量，同時保留視覺上下文。使用跟蹤點軌跡生成空間局部化放大掩碼，通過放大因子調(diào)制感興趣區(qū)域內(nèi)的像素強度。

ViSA-Flow 架構(gòu)和策略學習框架圖

兩階段學習框架

第一階段：預訓練 - 學習 ViSA-Flow 動態(tài)先驗

使用大規(guī)模人類視頻數(shù)據(jù)集，預訓練生成模型以建模 ViSA-Flow 空間內(nèi)的動態(tài)。模型學習基于過去上下文和語言指令預測未來表示，目標函數(shù)為：

L_pretrain (ψ) = E [||g_ψ(z≤t, l)[OBS] - z_{t+1:t+n}||2]

第二階段：微調(diào) - 策略適應

使用少量機器人演示數(shù)據(jù)集微調(diào)模型，學習目標策略。采用多任務目標函數(shù)，結(jié)合動作預測和持續(xù)動態(tài)建模：

L_finetune (ψ) = E [L_act + λ_fwd*L_obs + λ_prog*L_prog]

實驗評估

CALVIN 仿真實驗

研究團隊在 CALVIN 基準測試上進行了全面評估，使用 ABC→D 分割，在環(huán)境 A、B、C 上訓練，在未見環(huán)境 D 上進行零樣本評估。

預訓練，微調(diào)以及評估所使用數(shù)據(jù)集

CALVIN ABC→D 基準測試的對比評估結(jié)果

關(guān)鍵發(fā)現(xiàn)

1. 數(shù)據(jù)效率優(yōu)勢：ViSA-Flow 僅使用 10% 的注釋機器人軌跡（1,768 個），就超越了所有基線方法，包括使用 100% 數(shù)據(jù)的方法。

2. 連續(xù)任務性能：在 5 個連續(xù)任務完成方面，ViSA-Flow 達到 31.4% 的成功率，幾乎是使用 10% 數(shù)據(jù)的次佳方法 GR-MG（16.2%）的兩倍，甚至超過了使用 100% 數(shù)據(jù)訓練的 SuSIE（26.0%）。

3. 平均序列長度：2.96 的平均序列長度進一步證明了 ViSA-Flow 在處理長時程操作任務方面的有效性。

消融研究

評估 ViSA-Flow 關(guān)鍵組件貢獻的消融研究結(jié)果

消融研究結(jié)果表明：

移除語義實體定位顯著降低性能，5 任務序列成功率從 31.4% 降至 9.6%
省略時間跟蹤階段使平均成功長度從 2.96 降至 2.78
排除操作器定位導致適度性能下降

真機實驗

研究團隊在真實世界環(huán)境中評估了 ViSA-Flow 的性能，包括兩個單階段操作任務和一個長時程操作任務。

實驗設置：

使用 7 自由度 Franka Emika Panda 機械臂
通過 Oculus 應用程序進行遙操作數(shù)據(jù)收集
雙攝像頭設置（眼內(nèi)、眼外）提供 RGB 觀察

真機實驗設置

結(jié)果分析：

真實世界實驗結(jié)果圖表

單階段任務：ViSA-Flow 在 MoveContainer 和 PickEggplant 任務上顯著優(yōu)于 GR-MG
長時程任務：ViSA-Flow 達到 56.3% 的整體成功率，而 GR-MG 和 DP 分別僅達到 8.3% 和 13.8%

定性分析

真實世界長時程任務的定性結(jié)果可視化

定性結(jié)果顯示，ViSA-Flow 的單步預測在整個長時程執(zhí)行過程中與真實流保持緊密對齊：

模型持續(xù)聚焦于機器人夾具和任務相關(guān)物體
空間支持隨場景轉(zhuǎn)換平滑連貫地演化
在兩個連續(xù)子任務中保持相同的準確性水平

獎勵差異水平的性能分析

為評估 LLM 在不同難度水平下選擇更優(yōu)設計的能力，研究團隊采用了難度加權(quán)準確率 (DWA) 指標進行分析。結(jié)果顯示，ViSA-Flow 在處理細微性能差異的任務時表現(xiàn)更穩(wěn)定，證明了語義動作表示的有效性。

提示設計分析

研究還探索了不同組件對框架性能的影響：

1. 語義分割的重要性：準確的語義實體識別是框架成功的關(guān)鍵

2. 時間跟蹤的必要性：一致的點對應關(guān)系對保持時間動態(tài)至關(guān)重要

3. 跨域泛化能力：語義表示有效緩解了視覺外觀差異的影響

技術(shù)優(yōu)勢與局限性

技術(shù)優(yōu)勢

1. 數(shù)據(jù)效率：僅需少量機器人演示數(shù)據(jù)即可達到優(yōu)異性能

2. 跨域泛化：有效利用人類視頻知識轉(zhuǎn)移到機器人執(zhí)行

3. 長時程穩(wěn)定性：在復雜序列任務中保持穩(wěn)定表現(xiàn)

4. 語義一致性：關(guān)注任務關(guān)鍵交互而非視覺外觀

當前局限性

1.3D 幾何建模缺失：缺乏顯式的 3D 幾何和接觸動力學建模

2. 預訓練組件依賴：依賴預訓練 VLM 組件可能限制新領(lǐng)域適應性

3. 物理交互精度：在需要精細物理交互的任務中可能存在限制

未來發(fā)展方向

1. 物理建模增強：將接觸物理學整合到 ViSA-Flow 表示中

2. 端到端訓練：減少對預訓練組件的依賴，實現(xiàn)聯(lián)合訓練

3. 強化學習集成：將 ViSA-Flow 先驗與強化學習算法結(jié)合

4. 大規(guī)模預訓練：擴展到網(wǎng)絡規(guī)模的視頻語料庫進行預訓練

研究意義與展望

通過引入語義動作流這一中間表示，ViSA-Flow 成功橋接了人類演示視頻觀察與機器人執(zhí)行之間的差距，為構(gòu)建更加智能、高效的機器人學習系統(tǒng)開辟了新的研究方向。

隨著技術(shù)的進一步發(fā)展和完善，ViSA-Flow 有望在工業(yè)自動化、家庭服務機器人、醫(yī)療輔助等多個領(lǐng)域發(fā)揮重要作用，推動機器人技術(shù)向更加智能化和普適化的方向發(fā)展。

責任編輯：張燕妮來源：機器之心

機器人訓練數(shù)據(jù)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看