成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器人輕松模仿人類,還能泛化到不同任務和智能體!微軟新研究,學習人類和機器人統一動作表示

人工智能
IGOR提出了通過大量人類和機器人視頻預訓練學習動作表示并泛化到不同任務和智能體的新方法。通過從大量視頻中學到的動作表示,IGOR可以實現機器人輕松模仿人類動作,進而實現更通用的智能體。

讓機械臂模仿人類動作的新方法來了,不怕缺高質量機器人數據的那種。

微軟提出圖像目標表示(IGOR,Image-GOal Representation),“投喂”模型人類與現實世界的交互數據。

IGOR能直接為人類和機器人學習一個統一的動作表示空間,實現跨任務和智能體的知識遷移以及下游任務效果的提升。

要知道,在訓練具身智能領域的基礎模型時,高質量帶有標簽的機器人數據是保證模型質量的關鍵,而直接采集機器人數據成本較高。

考慮到互聯網視頻數據中也展示了豐富的人類活動,包括人類是如何與現實世界中的各種物體進行交互的,由此來自微軟的研究團隊提出了IGOR。

圖片圖片

究竟怎樣才能學到人類和機器人統一的動作表示呢?

IGOR框架解讀

IGOR框架如下所示,包含三個基礎模型:

Latent Action Model、Policy Model和World Model

圖片圖片

具體來說,IGOR先是提出了潛在動作模型LAM(Latent Action Model),將初始狀態和目標狀態之間的視覺變化壓縮為低維向量,并通過最小化初始狀態和動作向量對目標狀態的重建損失來進行訓練。

這樣一來,具有相似視覺變化的圖像狀態將具有相似的動作向量,代表了他們在語義空間而非像素空間上的變化。

通過LAM,可以將互聯網規模的視頻數據轉化為帶有潛在動作標注的數據,大大擴展了具身智能基礎模型能夠使用的數據量。

這個統一的潛在動作空間使團隊能夠在幾乎任意由機器人和人類執行的任務上訓練Policy Model和World Model。

通過結合LAM和World Model,IGOR成功地將一個視頻中的物體運動“遷移”到其他視頻中。并且,這些動作實現了跨任務和跨智能體的遷移。

也就是說,用人的行為給機器人做演示,機器人也能做出正確的動作。如下圖所示,LAM得到的潛在動作表示可以同時實現跨任務(用手移動不同物體)和跨智能體(用手的移動指導機械臂的移動)的遷移。

圖片圖片

△Latent Action實現跨任務和智能體的遷移△Latent Action實現跨任務和智能體的遷移

以下是模型架構的具體細節。

Latent Action Model

LAM的目標是以無監督的方式從互聯網規模的視頻數據中學習和標注潛在動作,即給定視頻幀序列,對于每一對相鄰幀提取潛在動作表示。

為此,LAM模型由一個Inverse Dynamic Model(IDM)和Forward Dynamic Model(FDM)組成。

IDM的從視頻幀序列中提取潛在動作表示,而FDM負責用學到的表示和當前視頻幀來重建接下來的視頻幀

由于將潛在動作表示限定在較低的維度,因此LAM模型會將兩幀之間語義上的區別學習到之中。

值得注意的是,這種方式天然保證了學到的潛在動作是具有泛化性的。

如下圖所示, 在未見數據集上,LAM學到的相似潛在動作反映了相似的語義,包括打開夾子、機械臂向左移動和關閉夾子,這些潛在動作在不同任務間共享,進而提升下游模型的泛化性。

△Latent Action Model在未見數據集上的表現△Latent Action Model在未見數據集上的表現

Foundation World Model

World Model的作用是根據歷史視頻幀和未來多幀的潛在動作表示,生成在歷史幀的基礎上執行各個潛在動作之后的未來視頻幀

為此,研究人員選擇從預訓練的視頻生成模型上進行微調,將條件從文本換成了潛在動作表示和FDM的重建輸出。

在具身智能的相關數據集上進行微調之后,研究人員觀察到World Model可以成功地在給定相同歷史幀時,針對不同的潛在動作表示生成相對應的未來視頻幀。

如下圖所示,此方法可以通過潛在動作和World Model控制不同物體的獨立移動。

△World Model對于給定的不同潛在動作表示時的生成結果△World Model對于給定的不同潛在動作表示時的生成結果

Foundation Policy Model

Policy Model的目標是在具體的下游任務上,根據視頻幀和文本指令來預測智能體每一步要采取的動作

在IGOR中,它的訓練分為了兩個階段。

在第一階段,Policy Model將根據輸入的視頻幀和文本指令來預測LAM提取出的相應的潛在運動表示,從而建立從視頻幀到通用潛在運動表示的映射。

在第二階段,該模型則會根據文本指令、視頻幀以及第一階段模型預測出來的潛在動作表示共同預測下游任務上具體的運動標簽。

和現有模型相比,第一階段預測出的潛在動作表示蘊含了完成該任務需要達成的短期目標,豐富了模型的輸入信息,因此提升了最終策略的任務成功率,如下圖所示。

△Policy Model在下游機器人任務上的表現△Policy Model在下游機器人任務上的表現

在相同的場景下給定不同的文本指令,研究人員也驗證了Policy Model的有效性,即模型可以根據不同的指令生成相應的潛在動作表示,進而通過World Model模擬執行相應的指令。

圖片圖片

△Policy Model和World Model對于不同文本指令的生成結果

總的來說,IGOR提出了通過大量人類和機器人視頻預訓練學習動作表示并泛化到不同任務和智能體的新方法。通過從大量視頻中學到的動作表示,IGOR可以實現機器人輕松模仿人類動作,進而實現更通用的智能體。

項目主頁:https://aka.ms/project-igor
論文:https://aka.ms/project-igor-paper

責任編輯:武曉燕 來源: 量子位
相關推薦

2021-04-19 20:30:06

機器人AI人工智能

2021-12-26 23:04:34

機器人人工智能技術

2024-01-05 19:44:48

谷歌機器人憲法AI

2017-03-31 09:00:25

機器人模仿人類

2017-05-25 12:05:03

機器人軟體機器人大蜘蛛

2021-08-19 15:44:20

機器人人工智能機器學習

2023-05-22 19:16:09

人工智能機器人

2024-01-05 09:16:22

谷歌機器人人工智能

2021-02-19 13:17:19

比特幣機器人加密貨幣

2021-06-02 15:47:40

機器人人工智能編程

2023-05-24 13:04:46

機器人人工智能

2025-06-06 14:21:45

Figure機器人快遞

2021-01-12 12:45:16

機器人人工智能AI

2017-03-11 11:19:43

機器人取代人類

2017-03-15 19:03:22

人工智能人類半機器人

2020-09-08 12:52:14

機器人人工智能系統

2025-02-28 08:30:00

2015-12-10 21:49:32

IM機器人

2018-05-23 12:51:07

2021-01-28 19:34:49

人工智能AI機器人
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩一区二区三区在线 | 中文字字幕一区二区三区四区五区 | 国产精品99视频 | 欧美激情视频一区二区三区在线播放 | 一区二区三区在线免费观看 | 久草在线 | 五月婷婷色 | 国产欧美一区二区三区免费 | 精品日韩欧美一区二区 | 国产午夜久久 | 夜夜爽99久久国产综合精品女不卡 | 一区二区中文字幕 | 国产亚韩 | 亚洲综合在线网 | 日日操日日干 | 国产精品久久久久一区二区三区 | 欧美极品一区二区 | 超碰最新在线 | 日日噜噜噜夜夜爽爽狠狠视频97 | 国产精品视频一区二区三区 | 日本一区二区高清不卡 | 一区二区日韩 | 波多野结衣一二三区 | 久久免费视频网 | 一级一级毛片免费看 | 伊人色综合久久久天天蜜桃 | www国产成人免费观看视频,深夜成人网 | 欧美国产一区二区 | 亚洲毛片网站 | 91人人爽 | 看av片网站 | 亚洲成人在线免费 | 亚洲天堂一区 | 91免费高清视频 | 国产a区| 国产精品一区二区久久久久 | 精品亚洲一区二区三区四区五区 | 99精品在线观看 | 综合精品| 欧美视频福利 | 成年视频在线观看福利资源 |