馬斯克機(jī)器人大進(jìn)化!全新技能解鎖,啟用端到端神經(jīng)網(wǎng)絡(luò)
馬斯克的機(jī)器人大進(jìn)化。
一年前首次上臺(tái)時(shí)動(dòng)作還略顯僵硬,現(xiàn)在居然成了瑜伽大師。
還用上了自動(dòng)駕駛系統(tǒng)同款的端到端神經(jīng)網(wǎng)絡(luò)架構(gòu),無需任何規(guī)則代碼就學(xué)會(huì)分揀物品。
用馬斯克自己的話說:
光子進(jìn),行為出。
網(wǎng)友表示:動(dòng)作如此優(yōu)雅流暢,很難相信視頻是真的。
馬斯克回復(fù):執(zhí)行器、傳感器和整體機(jī)械結(jié)構(gòu)更多升級(jí)還在后面。
有人注意到機(jī)器人脖子后面有個(gè)紅色按鈕,“如果機(jī)器人要統(tǒng)治世界了,別忘了按這個(gè)”。
對(duì)此,馬斯克表示會(huì)致力于最大限度地提高安全性,用遙控器或手機(jī)就能輕松暫停機(jī)器人。
馬斯克發(fā)這個(gè)視頻,除了公布進(jìn)展,更大的目的在于為機(jī)器人團(tuán)隊(duì)招聘,也展示了??平臺(tái)的招聘功能。
這次特斯拉機(jī)器人團(tuán)隊(duì)招聘各類硬件工程師及機(jī)器學(xué)習(xí)工程師、實(shí)習(xí)生,總計(jì)51個(gè)職位。
年薪范圍在8萬美元到36萬美元(約人民幣60萬元-260萬元)。
動(dòng)圖拆解
這次特斯拉擎天柱官方號(hào)只放出1分鐘視頻,沒有更多技術(shù)細(xì)節(jié)資料。
但特斯拉機(jī)器人團(tuán)隊(duì)資深主任工程師Julian Ibarz透露,現(xiàn)在擎天柱已經(jīng)能完成長(zhǎng)期任務(wù)。
并且只要收集更多數(shù)據(jù),就可以訓(xùn)練新的復(fù)雜任務(wù),無需更改任何代碼。
第三方觀點(diǎn)中,最詳細(xì)的是英偉達(dá)科學(xué)家范麟熙純基于視頻的長(zhǎng)篇逆向分析。
他推測(cè):
- 流暢的手部動(dòng)作幾乎肯定是通過模仿人類(行為克隆)訓(xùn)練出來的。
另一種選擇是模擬環(huán)境中的強(qiáng)化學(xué)習(xí),但通常會(huì)導(dǎo)致抖動(dòng)和不自然的手部姿勢(shì)。
至少有4種方法可以收集人類演示數(shù)據(jù),其中最有可能的是遠(yuǎn)程控制。
可以參考斯坦福開源的ALOHA系統(tǒng),可以控制機(jī)械臂把AirPods放到充電盒里。
另外三種方法是電影游戲常用的動(dòng)作捕捉、深度攝像頭和計(jì)算機(jī)視覺、VR模擬。
四種方法并不相互排斥,可以結(jié)合使用兼顧不同的優(yōu)缺點(diǎn)。
- 神經(jīng)網(wǎng)絡(luò)架構(gòu),很可能是多模態(tài)Transformer。
圖像、視頻、動(dòng)作、語言(不確定有沒有)統(tǒng)一表征,其中動(dòng)作部分需要將連續(xù)的信號(hào)轉(zhuǎn)為離散的token,
最終每次輸入一個(gè)視頻token(或可選的語言token),輸出動(dòng)作token。
最接近的系統(tǒng)可以參考Google RT-1以及英偉達(dá)的VIMA。
- 波士頓動(dòng)力的Atlas機(jī)器人只有簡(jiǎn)單的抓手,而特斯拉擎天柱有5根靈巧的手指,將來在日常任務(wù)中表現(xiàn)會(huì)更加出色。
不過也有人批評(píng)視頻其實(shí)有約2-3倍的加速,只有機(jī)器人的時(shí)候看不出來,人類一出鏡就比較明顯了。
端到端架構(gòu):機(jī)器人的ChatGPT
端到端神經(jīng)網(wǎng)絡(luò)架構(gòu),特斯拉首先在自動(dòng)駕駛FSD上實(shí)現(xiàn)——
前不久馬斯克自己直播演示了一把自動(dòng)駕駛?cè)バ≡遥l(fā)轟動(dòng)。
具體說來,端到端架構(gòu)用在自動(dòng)駕駛系統(tǒng)上,可以減少30萬行規(guī)則代碼,讓運(yùn)行速度快了10倍。
負(fù)責(zé)該項(xiàng)目的工程師Dhaval Shroff曾對(duì)馬斯克說:這相當(dāng)于車上用的ChatGPT。
Shroff這次對(duì)機(jī)器人的評(píng)價(jià)是“端到端,F(xiàn)TW”。也不知道FTW是指“For the win”還是“F* the world”。
就在剛剛,還有一段特斯拉汽車無導(dǎo)航情況下在湖邊自動(dòng)駕駛的視頻傳出,不過不確定是否運(yùn)行了最新端到端架構(gòu)的FSDv12。
One More Thing
這個(gè)周末,舊金山街頭也出現(xiàn)賽博皮卡的身影。
預(yù)計(jì)在9月底,特斯拉將召開一年一度的AI Day活動(dòng),我們也會(huì)持續(xù)關(guān)注。
不知道這次又將帶來哪些驚喜。