UCSD、MIT等華人團(tuán)隊(duì)教機(jī)器狗感知3D世界！搭M1芯片，爬樓跨障無所不能

作者：新智元 2023-05-19 13:19:24

人工智能新聞

用蘋果M1芯片思考，還能自己遛自己的機(jī)器狗，你見過嗎？

最近，來自UCSD、IAIFI和MIT機(jī)構(gòu)的研究人員，用一種全新的神經(jīng)體積記憶架構(gòu)（NVM），教會(huì)了一只機(jī)器狗感知三維世界。

利用這項(xiàng)技術(shù)，機(jī)器狗可以通過單一的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)爬樓梯、跨縫隙、翻障礙等等——完全自主，無需遙控。

不知道你有沒有注意到狗背上那個(gè)的白盒子？

里面搭載的是蘋果的M1芯片，負(fù)責(zé)運(yùn)行機(jī)器狗的視覺處理任務(wù)。而且，還是團(tuán)隊(duì)從一臺(tái)Mac上拆下來的。

不難看出，MIT的這只機(jī)器狗可以輕松地爬過了橫在自己面前一段樹枝，毫不費(fèi)力（基本上）。

長(zhǎng)了4條腿的MacBook？

眾所周知，對(duì)于機(jī)器狗，以及其他有腿的機(jī)器人來說，想要翻越不平整的道路，可謂是困難重重。

路面狀況越是復(fù)雜，就有越多的障礙無法被看到。

為了解決「部分可觀測(cè)環(huán)境」問題，目前SOTA的視覺-運(yùn)動(dòng)技術(shù)通過幀堆疊（frame-stacking），將圖像通道連接起來。

然而，這種簡(jiǎn)單的處理方法遠(yuǎn)遠(yuǎn)落后于現(xiàn)在的計(jì)算機(jī)視覺技術(shù)——后者可以明確地模擬光流和特定的3D幾何形狀。

受此啟發(fā)，團(tuán)隊(duì)提出了一種神經(jīng)體積記憶架構(gòu)（NVM），可以充分考慮到三維世界的SE(3)等變性（Equivalence）。

項(xiàng)目地址：https://rchalyang.github.io/NVM/

與以往的方法不同，NVM是一種體積格式。它可以將來自多個(gè)相機(jī)視圖的特征體積聚合到機(jī)器人的自我中心框架中，從而讓機(jī)器人能更好地理解周圍的環(huán)境。

測(cè)試的結(jié)果顯示，使用神經(jīng)體積記憶（NVM）對(duì)腿部運(yùn)動(dòng)進(jìn)行訓(xùn)練后，機(jī)器人在復(fù)雜的地形上的表現(xiàn)要明顯優(yōu)于之前的技術(shù)。

此外，消融實(shí)驗(yàn)的結(jié)果顯示，神經(jīng)體積記憶中存儲(chǔ)的內(nèi)容捕獲了足夠的幾何信息來重構(gòu)3D場(chǎng)景。

現(xiàn)實(shí)世界中的實(shí)驗(yàn)

為了在模擬之外的不同現(xiàn)實(shí)世界場(chǎng)景中進(jìn)行驗(yàn)證，團(tuán)隊(duì)在室內(nèi)和室外場(chǎng)景中都進(jìn)行了實(shí)驗(yàn) 。

當(dāng)機(jī)器狗發(fā)現(xiàn)有障礙物突然出現(xiàn)在自己面前時(shí)，直接就會(huì)選擇繞開。

在滿是石頭的地面上，走起來好像也沒什么問題，雖然比在平地上還是要費(fèi)力一些的。

相對(duì)于自身來說比較大的障礙，努努力也還是可以翻過去的。

采用此前的識(shí)別控制技術(shù)，小狗后腿對(duì)距離判斷明顯出現(xiàn)了誤差，一腳踩溝里翻車了，失敗。

采用MIT提出的NVM之后，小狗過溝，穩(wěn)穩(wěn)的幸福，成功！

采用此前的識(shí)別控制技術(shù)，小狗第一腳就踩空了，狗頭搶地，失敗。

采用MIT提出的NVM之后，小狗四平八穩(wěn)地走過了矩陣。

腿部運(yùn)動(dòng)的體積記憶

使用以自我為中心的攝像機(jī)視角，本質(zhì)上是一個(gè)處理「部分可觀測(cè)環(huán)境」的問題（Partially-Observed）。

為了使控制問題具體化，機(jī)器人需要從先前的幀中收集信息，并正確推斷被遮擋的地形。

在運(yùn)動(dòng)過程中，直接安裝在機(jī)器人底盤上的攝像機(jī)發(fā)生劇烈和突然的位置變化。

這樣，在表征一連串的畫面的過程中，某單個(gè)幀能夠被放到正確的位置，就變得非常重要了。

為此，團(tuán)隊(duì)提出的神經(jīng)體積記憶（NVM）的概念，可以將輸入的一連串視覺信息，轉(zhuǎn)化為場(chǎng)景特征進(jìn)行3D描繪，進(jìn)而進(jìn)行輸出。

通過自監(jiān)督學(xué)習(xí)NVM

雖然「行為克隆目標(biāo)」足以產(chǎn)生一個(gè)好的策略，但針對(duì)平移和旋轉(zhuǎn)的等變性，自動(dòng)為神經(jīng)體積記憶提供了一個(gè)獨(dú)立的、自監(jiān)督的學(xué)習(xí)目標(biāo)。

自監(jiān)督學(xué)習(xí)：研究團(tuán)隊(duì)訓(xùn)練了一個(gè)獨(dú)立的解碼器。讓它通過一段視覺觀察和兩個(gè)幀之間的預(yù)估轉(zhuǎn)換，來預(yù)測(cè)不同幀中的視覺觀察。

如上圖所示，可以假設(shè)在幀之間周圍的3D場(chǎng)景保持不變。由于相機(jī)是朝前看的，我們可以將先前幀的特征體積規(guī)范化，并用它來預(yù)測(cè)后續(xù)的圖像。

解碼器的視覺重建

第一幅圖顯示機(jī)器人在環(huán)境中移動(dòng)，第二幅圖是輸入的視覺觀察結(jié)果，第三幅圖是使用3D特征體積和預(yù)估畫面合成的視覺觀察效果。

對(duì)于輸入的視覺觀察，研究團(tuán)隊(duì)對(duì)圖像應(yīng)用了大量的數(shù)據(jù)增強(qiáng)來提高模型的魯棒性。

作者介紹

Ruihan Yan

Ruihan Yan是加州大學(xué)圣地亞哥分校的二年級(jí)博士生。在此之前，他于2019年在南開大學(xué)獲得軟件工程學(xué)士學(xué)位

他的研究興趣是強(qiáng)化學(xué)習(xí)、機(jī)器學(xué)習(xí)、機(jī)器人等。具體來說，他想建立智能體，利用來自不同來源的信息進(jìn)行決策。

Ge Yang

Ge Yang本科畢業(yè)于耶魯大學(xué)物理和數(shù)學(xué)專業(yè)，并在芝加哥大學(xué)獲得物理學(xué)博士學(xué)位。目前是美國(guó)國(guó)家科學(xué)基金會(huì)人工智能與基礎(chǔ)交互作用研究所（IAIFI）的博士后研究員。

Ge Yang的研究涉及兩組相關(guān)問題。第一組是通過重新審視我們?cè)谏窠?jīng)網(wǎng)絡(luò)中表征知識(shí)的方式，以及知識(shí)如何在分布中轉(zhuǎn)移，來改善學(xué)習(xí)。第二組是通過理論工具的視角來看待強(qiáng)化學(xué)習(xí)，如神經(jīng)正切核、非歐幾里得幾何和哈密頓動(dòng)力學(xué)。

Xiaolong Wang