成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

10%訓練數(shù)據(jù)超越100%表現(xiàn),機器人學習領(lǐng)域迎來重要突破

人工智能 新聞
ViSA-Flow 為機器人學習領(lǐng)域帶來了重要突破,證明了從大規(guī)模人類視頻中提取語義表示進行機器人技能學習的可行性。該方法不僅在理論上具有創(chuàng)新性,在實際應用中也展現(xiàn)出強大的性能優(yōu)勢。

第一作者陳昌和是美國密歇根大學的研究生,師從 Nima Fazeli 教授,研究方向包括基礎模型、機器人學習與具身人工智能,專注于機器人操控、物理交互與控制優(yōu)化。

第二作者徐曉豪是美國密歇根大學機器人學院博士生,研究涵蓋3D 感知、視覺語言模型驅(qū)動的多模態(tài)異常檢測及魯棒三維重建。

共同第一作者 Quantao Yang 是瑞典皇家理工學院博士后,師從 Olov Andersson 教授,研究聚焦于利用視覺語言模型與大型語言模型提升自主系統(tǒng)在動態(tài)環(huán)境中的感知與導航能力。

密歇根大學和瑞典皇家理工學院的研究團隊提出了 ViSA-Flow 框架,這是一種革命性的機器人技能學習方法,能夠從大規(guī)模人類視頻中提取語義動作流,顯著提升機器人在數(shù)據(jù)稀缺情況下的學習效率。該方法在 CALVIN 基準測試中表現(xiàn)卓越,僅使用 10% 的訓練數(shù)據(jù)就超越了使用 100% 數(shù)據(jù)的現(xiàn)有最佳方法。

圖片

  • 作者: Changhe Chen, Quantao Yang, Xiaohao Xu, Nima Fazeli, Olov Andersson
  • 機構(gòu): 密歇根大學、瑞典皇家理工學院
  • 網(wǎng)頁: https://visaflow-web.github.io/ViSAFLOW
  • 論文鏈接:https://arxiv.org/abs/2505.01288 
  • 代碼開源: 即將發(fā)布

研究背景與挑戰(zhàn)

機器人模仿學習在使機器人獲得復雜操作技能方面取得了顯著成功,但傳統(tǒng)方法面臨一個根本性限制:需要大量精心策劃的機器人數(shù)據(jù)集,收集成本極其昂貴。這已成為開發(fā)能夠執(zhí)行多樣化現(xiàn)實世界任務的機器人的關(guān)鍵瓶頸。

相比之下,人類展現(xiàn)出通過觀察他人學習新技能的非凡能力。無論是面對面學習、觀看教學視頻還是體育轉(zhuǎn)播,人類本能地專注于語義相關(guān)的組件。例如,學習網(wǎng)球時,我們自然地關(guān)注球員的身體動作、球拍處理技巧和球的軌跡,同時有效過濾無關(guān)的背景信息。

核心創(chuàng)新:語義動作流表示

圖片

人類和機器人操作共享相似原子動作

ViSA-Flow 框架的核心創(chuàng)新在于引入了語義動作流(Semantic Action Flow)作為中間表示,捕捉操作器 - 物體交互的本質(zhì)時空特征,且不受表面視覺差異影響。該框架包含以下關(guān)鍵組件:

1. 語義實體定位

利用預訓練的視覺語言模型(VLM)對操作器(如 "手"、"夾具")和任務相關(guān)物體(如 "紅色方塊")進行文本描述定位,然后使用分割模型(如 SAM)生成初始分割掩碼。

2. 手 - 物體交互跟蹤

由于語義分割在連續(xù)幀間的不穩(wěn)定性,研究團隊提出跟蹤正確分割的手 - 物體交互掩碼。通過在初始掩碼內(nèi)密集采樣點,使用點跟蹤器(如 CoTracker)估計這些點在序列中的 2D 圖像軌跡。

3. 流條件特征編碼

為產(chǎn)生最終的 ViSA-Flow 表示,研究團隊將流信息編碼為豐富的特征向量,同時保留視覺上下文。使用跟蹤點軌跡生成空間局部化放大掩碼,通過放大因子調(diào)制感興趣區(qū)域內(nèi)的像素強度。

圖片

ViSA-Flow 架構(gòu)和策略學習框架圖

兩階段學習框架

第一階段:預訓練 - 學習 ViSA-Flow 動態(tài)先驗

使用大規(guī)模人類視頻數(shù)據(jù)集,預訓練生成模型以建模 ViSA-Flow 空間內(nèi)的動態(tài)。模型學習基于過去上下文和語言指令預測未來表示,目標函數(shù)為:

L_pretrain (ψ) = E [||g_ψ(z≤t, l)[OBS] - z_{t+1:t+n}||2]

第二階段:微調(diào) - 策略適應

使用少量機器人演示數(shù)據(jù)集微調(diào)模型,學習目標策略。采用多任務目標函數(shù),結(jié)合動作預測和持續(xù)動態(tài)建模:

L_finetune (ψ) = E [L_act + λ_fwd*L_obs + λ_prog*L_prog]

實驗評估

CALVIN 仿真實驗

研究團隊在 CALVIN 基準測試上進行了全面評估,使用 ABC→D 分割,在環(huán)境 A、B、C 上訓練,在未見環(huán)境 D 上進行零樣本評估。

圖片

預訓練,微調(diào)以及評估所使用數(shù)據(jù)集

圖片

CALVIN ABC→D 基準測試的對比評估結(jié)果

關(guān)鍵發(fā)現(xiàn)

1. 數(shù)據(jù)效率優(yōu)勢:ViSA-Flow 僅使用 10% 的注釋機器人軌跡(1,768 個),就超越了所有基線方法,包括使用 100% 數(shù)據(jù)的方法。

2. 連續(xù)任務性能:在 5 個連續(xù)任務完成方面,ViSA-Flow 達到 31.4% 的成功率,幾乎是使用 10% 數(shù)據(jù)的次佳方法 GR-MG(16.2%)的兩倍,甚至超過了使用 100% 數(shù)據(jù)訓練的 SuSIE(26.0%)。

3. 平均序列長度:2.96 的平均序列長度進一步證明了 ViSA-Flow 在處理長時程操作任務方面的有效性。

消融研究

圖片

評估 ViSA-Flow 關(guān)鍵組件貢獻的消融研究結(jié)果

消融研究結(jié)果表明:

  • 移除語義實體定位顯著降低性能,5 任務序列成功率從 31.4% 降至 9.6%
  • 省略時間跟蹤階段使平均成功長度從 2.96 降至 2.78
  • 排除操作器定位導致適度性能下降

真機實驗

研究團隊在真實世界環(huán)境中評估了 ViSA-Flow 的性能,包括兩個單階段操作任務和一個長時程操作任務。

實驗設置:

  • 使用 7 自由度 Franka Emika Panda 機械臂
  • 通過 Oculus 應用程序進行遙操作數(shù)據(jù)收集
  • 雙攝像頭設置(眼內(nèi)、眼外)提供 RGB 觀察

圖片

真機實驗設置

結(jié)果分析:

圖片

真實世界實驗結(jié)果圖表

  • 單階段任務:ViSA-Flow 在 MoveContainer 和 PickEggplant 任務上顯著優(yōu)于 GR-MG
  • 長時程任務:ViSA-Flow 達到 56.3% 的整體成功率,而 GR-MG 和 DP 分別僅達到 8.3% 和 13.8%

定性分析

圖片

真實世界長時程任務的定性結(jié)果可視化

定性結(jié)果顯示,ViSA-Flow 的單步預測在整個長時程執(zhí)行過程中與真實流保持緊密對齊:

  • 模型持續(xù)聚焦于機器人夾具和任務相關(guān)物體
  • 空間支持隨場景轉(zhuǎn)換平滑連貫地演化
  • 在兩個連續(xù)子任務中保持相同的準確性水平

獎勵差異水平的性能分析

為評估 LLM 在不同難度水平下選擇更優(yōu)設計的能力,研究團隊采用了難度加權(quán)準確率 (DWA) 指標進行分析。結(jié)果顯示,ViSA-Flow 在處理細微性能差異的任務時表現(xiàn)更穩(wěn)定,證明了語義動作表示的有效性。

提示設計分析

研究還探索了不同組件對框架性能的影響:

1. 語義分割的重要性:準確的語義實體識別是框架成功的關(guān)鍵

2. 時間跟蹤的必要性:一致的點對應關(guān)系對保持時間動態(tài)至關(guān)重要

3. 跨域泛化能力:語義表示有效緩解了視覺外觀差異的影響

技術(shù)優(yōu)勢與局限性

技術(shù)優(yōu)勢

1. 數(shù)據(jù)效率:僅需少量機器人演示數(shù)據(jù)即可達到優(yōu)異性能

2. 跨域泛化:有效利用人類視頻知識轉(zhuǎn)移到機器人執(zhí)行

3. 長時程穩(wěn)定性:在復雜序列任務中保持穩(wěn)定表現(xiàn)

4. 語義一致性:關(guān)注任務關(guān)鍵交互而非視覺外觀

當前局限性

1.3D 幾何建模缺失:缺乏顯式的 3D 幾何和接觸動力學建模

2. 預訓練組件依賴:依賴預訓練 VLM 組件可能限制新領(lǐng)域適應性

3. 物理交互精度:在需要精細物理交互的任務中可能存在限制

未來發(fā)展方向

1. 物理建模增強:將接觸物理學整合到 ViSA-Flow 表示中

2. 端到端訓練:減少對預訓練組件的依賴,實現(xiàn)聯(lián)合訓練

3. 強化學習集成:將 ViSA-Flow 先驗與強化學習算法結(jié)合

4. 大規(guī)模預訓練:擴展到網(wǎng)絡規(guī)模的視頻語料庫進行預訓練

研究意義與展望

ViSA-Flow 為機器人學習領(lǐng)域帶來了重要突破,證明了從大規(guī)模人類視頻中提取語義表示進行機器人技能學習的可行性。該方法不僅在理論上具有創(chuàng)新性,在實際應用中也展現(xiàn)出強大的性能優(yōu)勢。

通過引入語義動作流這一中間表示,ViSA-Flow 成功橋接了人類演示視頻觀察與機器人執(zhí)行之間的差距,為構(gòu)建更加智能、高效的機器人學習系統(tǒng)開辟了新的研究方向。

隨著技術(shù)的進一步發(fā)展和完善,ViSA-Flow 有望在工業(yè)自動化、家庭服務機器人、醫(yī)療輔助等多個領(lǐng)域發(fā)揮重要作用,推動機器人技術(shù)向更加智能化和普適化的方向發(fā)展。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2020-09-02 10:36:52

機器人人工智能系統(tǒng)

2023-09-21 10:29:01

AI模型

2022-10-28 13:16:07

四足機器人機器人人工智能

2017-03-27 09:59:25

機器人自創(chuàng)語言交流

2023-10-22 20:14:08

人工智能GPT-4

2021-01-04 09:18:36

機器人人工智能系統(tǒng)

2019-12-24 09:31:55

機器人人工智能編程

2023-09-02 11:22:50

模型訓練

2018-07-06 08:58:53

機器人人工智能系統(tǒng)

2024-05-28 13:03:50

2021-12-28 14:07:03

人工智能相似問機器人

2022-08-27 15:10:36

Ameca機器人模仿

2019-01-15 13:14:03

機器人算法SAC

2025-01-07 20:54:34

2023-07-29 13:14:40

谷歌人工智能

2022-05-26 10:05:01

機器人研究

2024-07-08 13:13:00

2024-09-05 13:11:49

2021-04-25 08:06:42

人工智能AI機器人
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 玖玖国产| 自拍第一页| 日韩爱爱网 | 精品国产乱码久久久久久蜜退臀 | 一级做a爰片性色毛片视频停止 | 日韩视频二区 | 久久av一区 | 成人一区二区三区在线观看 | 韩国精品在线 | 91久久精品国产91久久 | 成人av一区| 国产福利久久 | 日韩亚洲一区二区 | 国产极品粉嫩美女呻吟在线看人 | 一区二区不卡视频 | 精品亚洲一区二区三区 | 国产精品中文在线 | 天天看天天摸天天操 | 日韩欧美日韩在线 | 亚洲一二三区av | 亚洲成在线观看 | 香蕉大人久久国产成人av | 国产99久久精品一区二区300 | 欧美一级黄视频 | 日日干干夜夜 | 老司机成人在线 | www.亚洲| 亚洲网址 | 国产美女福利在线观看 | 狠狠天天| 国产一级片免费看 | 一级黄色录像毛片 | 亚洲色欲色欲www | 亚洲视频中文字幕 | 久久69精品久久久久久久电影好 | 成人aaa视频 | 中文字幕精品一区二区三区精品 | 欧美成人在线免费 | 99国产精品久久久 | 亚洲福利网站 | 久久高清国产视频 |