機(jī)器人空間泛化也有Scaling Law!清華新國(guó)大新算法框架讓機(jī)器人操作更加魯棒
在機(jī)器人空間泛化領(lǐng)域,原來(lái)也有一套Scaling Law!
來(lái)自清華和新加坡國(guó)立大學(xué)的團(tuán)隊(duì),發(fā)現(xiàn)了空間智能的泛化性規(guī)律。
在此基礎(chǔ)上,他們提出了一套新穎的算法框架——ManiBox,讓機(jī)器人能夠在真實(shí)世界中應(yīng)對(duì)多樣化的物體位置和復(fù)雜的場(chǎng)景布置。
在實(shí)際測(cè)試中,ManiBox實(shí)現(xiàn)了34440cm3最大操作空間范圍的高效覆蓋,抓取成功率高達(dá)90%-100%。
在具身智能和機(jī)器人操作實(shí)驗(yàn)室中,往往會(huì)選擇固定的setting進(jìn)行實(shí)驗(yàn),在業(yè)內(nèi)被稱為“完美擺放位置”。
但在現(xiàn)實(shí)環(huán)境中,實(shí)現(xiàn)機(jī)器人的空間泛化,以應(yīng)對(duì)多樣化的物體位置和復(fù)雜的場(chǎng)景布置,一直是個(gè)艱難的挑戰(zhàn)。
顯然,實(shí)現(xiàn)空間智能所需要的,絕不是只在實(shí)驗(yàn)室中操作一塊極小的空間范圍內(nèi)的物體。
為此,研究團(tuán)隊(duì)基于發(fā)現(xiàn)的具身智能的空間泛化性Scaling Law,推出了ManiBox這項(xiàng)成果。
讓機(jī)器人走出實(shí)驗(yàn)室
ManiBox是一個(gè)創(chuàng)新性的機(jī)器人操作算法框架,深入探索了具身智能的空間泛化性的Scaling Law,并通過(guò)大量模擬器數(shù)據(jù)和Bounding Box這樣的視覺(jué)低維特征引導(dǎo),成功實(shí)現(xiàn)了空間泛化、背景泛化和物體泛化的抓取任務(wù)。
除了開(kāi)頭展示的34440cm3空間泛化之外,ManiBox還實(shí)現(xiàn)了物體和背景的泛化。
物體方面,無(wú)論是蘋(píng)果、鋼杯,還是玻璃燒杯,ManiBox對(duì)各種形狀、大小的物體都能精準(zhǔn)抓取。
同時(shí)面對(duì)各種背景挑戰(zhàn),無(wú)論是不同顏色桌布、復(fù)雜桌面,還是動(dòng)態(tài)光源和視頻干擾,ManiBox始終表現(xiàn)穩(wěn)定。
除了這幾個(gè)泛化維度,ManiBox的強(qiáng)大適應(yīng)性還讓其輕松擴(kuò)展至復(fù)雜操作任務(wù),并在真實(shí)環(huán)境中成功完成了抓取半空中物體、雜亂桌面上的物體,甚至倒水等操作。
抓取半空中物體時(shí),ManiBox能靈活應(yīng)對(duì)動(dòng)態(tài)目標(biāo):
在擁擠環(huán)境中,也能夠精準(zhǔn)抓取:
還可以精細(xì)操作復(fù)雜物體的局部,比如抓取杯子的把手:
除了抓取之外,通過(guò)修改teacher policy,還能實(shí)現(xiàn)向不同瓶子中倒水的操作,精準(zhǔn)調(diào)整角度與力度,并實(shí)現(xiàn)平穩(wěn)且可控的液體傾倒:
另外作者的實(shí)驗(yàn)還表明,即使在視覺(jué)遮擋率高達(dá)40%或Bounding Box識(shí)別噪音高達(dá)5%的情況下,ManiBox依然展現(xiàn)強(qiáng)大的魯棒性和操作能力。
即便在黑暗環(huán)境下,檢測(cè)模型大部分時(shí)間下沒(méi)有檢測(cè)到目標(biāo)物體,純靠策略的泛化性,機(jī)械臂也能精準(zhǔn)完成抓取任務(wù):
通過(guò)下面的這組圖片,可以看到ManiBox確實(shí)只有少數(shù)時(shí)間檢測(cè)模型檢測(cè)到了目標(biāo)物體。
可以看出,ManiBox不僅能夠完成常規(guī)抓取,還能擴(kuò)展到更復(fù)雜的任務(wù),適應(yīng)不同的精細(xì)操作場(chǎng)景,展現(xiàn)了出色的Sim2Real能力。
并且這些動(dòng)作,用戶只需輸入一個(gè)物體的prompt,ManiBox即可自動(dòng)執(zhí)行對(duì)應(yīng)物體的抓取、傾倒等操作,顯著提升了機(jī)器人操作任務(wù)的魯棒性與靈活性。
那么,ManiBox是如何實(shí)現(xiàn)的呢?
基于具身智能空間泛化Scaling Law
ManiBox背后的核心思想主要在于以下兩點(diǎn):
- 一是利用規(guī)模化(scalable)、自動(dòng)化的action數(shù)據(jù)生成方式,來(lái)在策略模塊上進(jìn)行訓(xùn)練,形成模型對(duì)action的認(rèn)知,以緩解action模態(tài)數(shù)據(jù)稀缺的問(wèn)題。(對(duì)應(yīng)生成action的Policy)
- 二是充分利用互聯(lián)網(wǎng)級(jí)別的數(shù)據(jù)量(internet-scale data),在視覺(jué)、文本模態(tài)上形成通用的模型,來(lái)提供完成任務(wù)的重要指示信息。(對(duì)應(yīng)Bounding Box這樣的低維視覺(jué)特征及其背后的視覺(jué)模型)
當(dāng)然更基礎(chǔ)的,還有作者在空間泛化上取得的理論突破。
ManiBox深入探索了具身智能的空間泛化性Scaling Law,首次揭示了操作任務(wù)中的兩大關(guān)鍵關(guān)系。
一方面,團(tuán)隊(duì)發(fā)現(xiàn)任務(wù)的成功率與數(shù)據(jù)量呈現(xiàn)出米氏-曼特恩(Michaelis-Menten)動(dòng)力學(xué)曲線:
- 在成功率比較低的時(shí)候,增加數(shù)據(jù)量可以顯著提升成功率;
- 成功率達(dá)到80%-90%之后,數(shù)據(jù)量即使再繼續(xù)增加,模仿學(xué)習(xí)策略的成功率也逐漸趨于飽和,上升緩慢;
- 數(shù)據(jù)量趨于無(wú)窮的情況下,成功率趨于100%;
- 成功率與數(shù)據(jù)量的關(guān)系用公式表示為:success_rate= 100% * D / (K_m + D),其中D是數(shù)據(jù)量,K_m是達(dá)到50%成功率所需的數(shù)據(jù)量。
另一方面,作者還發(fā)現(xiàn)空間泛化所需數(shù)據(jù)量與空間體積呈現(xiàn)冪律關(guān)系,即更多數(shù)據(jù)可顯著提升更大空間范圍內(nèi)的泛化能力:
- 如果要擴(kuò)展到x倍的空間體積,那么數(shù)據(jù)量需要擴(kuò)展大約x^0.35倍;
- 在文中的setting中,34400cm^3相對(duì)于1cm^3,前者空間泛化所需的數(shù)據(jù)量是后者的34400^0.35=38倍。
在理論的基礎(chǔ)之上,ManiBox通過(guò)policy generalization方法來(lái)有效解決了空間泛化性問(wèn)題,確保策略能夠在多樣化的環(huán)境,即便視覺(jué)模型存在較大的不確定性中,也能表現(xiàn)出強(qiáng)大的適應(yīng)性。
借助YOLO-World這樣的開(kāi)集邊界框檢測(cè)模型,ManiBox精準(zhǔn)提取多視角的低維空間信息,將復(fù)雜的高維視覺(jué)問(wèn)題轉(zhuǎn)化為簡(jiǎn)化的狀態(tài)建模問(wèn)題,從而為策略訓(xùn)練提供了堅(jiān)實(shí)的基礎(chǔ)。
最終,通過(guò)訓(xùn)練一個(gè)基于狀態(tài)的策略(state-based policy),實(shí)現(xiàn)了從仿真到真實(shí)世界的高效遷移。
同時(shí)結(jié)合隨機(jī)掩碼(random mask)技術(shù)和歷史軌跡信息,ManiBox顯著提升了策略在應(yīng)對(duì)視覺(jué)噪聲和檢測(cè)失敗場(chǎng)景下的魯棒性,進(jìn)一步加強(qiáng)了模型的泛化能力和在真實(shí)環(huán)境中的表現(xiàn)。
在訓(xùn)練上,作者還采取了高效數(shù)據(jù)生成與學(xué)生策略學(xué)習(xí)相結(jié)合的模式:
- 教師策略:通過(guò)強(qiáng)化學(xué)習(xí)與模仿學(xué)習(xí)相結(jié)合的框架,ManiBox可以做到2h訓(xùn)練完強(qiáng)化學(xué)習(xí)策略,僅用一天時(shí)間 自動(dòng)化采集了36,000條高質(zhì)量模擬數(shù)據(jù),涵蓋多種物體形狀、大小和空間配置;
- 學(xué)生策略:在此數(shù)據(jù)上訓(xùn)練,僅需2分鐘即可完成模型學(xué)習(xí),達(dá)成零樣本遷移,在真實(shí)場(chǎng)景中高效部署;
- 基于強(qiáng)化學(xué)習(xí)的操作策略,相比傳統(tǒng)的視覺(jué)方法可以有更強(qiáng)大通用性和魯棒性,比如傳統(tǒng)的視覺(jué)方法需要利用IK(逆運(yùn)動(dòng)學(xué))求解joint position。
ManiBox的推出不僅為機(jī)器人操作任務(wù)提供了一種高效可靠的解決方案,更定義了一種 “數(shù)據(jù)驅(qū)動(dòng)的空間智能” 方法,讓機(jī)器人在復(fù)雜真實(shí)場(chǎng)景的實(shí)用性成為可能。
它為機(jī)器人在復(fù)雜真實(shí)場(chǎng)景中的表現(xiàn)奠定了理論和技術(shù)基礎(chǔ),具有廣泛的工業(yè)與家庭應(yīng)用潛力。
作者預(yù)計(jì),未來(lái)我們可以想象機(jī)器人在更多復(fù)雜任務(wù)中展現(xiàn)卓越表現(xiàn)。
作者簡(jiǎn)介
該工作有兩位共同一作。
一位是清華大學(xué)計(jì)算機(jī)系TSAIL實(shí)驗(yàn)室的二年級(jí)博士生譚恒楷(Hengkai Tan),主要研究方向是具身智能和強(qiáng)化學(xué)習(xí),此前在ICML等頂級(jí)會(huì)議發(fā)表論文,還曾是全國(guó)青少年信息學(xué)奧林匹克競(jìng)賽(NOI)的銀牌,全國(guó)84名,他也是RDT大模型的作者之一。
另一位是新加坡國(guó)立大學(xué)數(shù)學(xué)系大四本科生徐學(xué)舟(Xuezhou Xu),研究興趣在于具身智能和強(qiáng)化學(xué)習(xí),他曾參與關(guān)于跨本體預(yù)訓(xùn)練的研究項(xiàng)目PEAC,該研究已被NeurIPS2024接收。
PEAC提出了跨本體無(wú)監(jiān)督預(yù)訓(xùn)練CEURL,在多個(gè)本體上統(tǒng)一預(yù)訓(xùn)練,從而控制多個(gè)本體快速適應(yīng)下游任務(wù),實(shí)現(xiàn)了真實(shí)世界機(jī)器狗不同關(guān)節(jié)失靈的運(yùn)動(dòng)控制。
ManiBox延續(xù)了作者此前工作的類似思想,即利用規(guī)模化、自動(dòng)化的action數(shù)據(jù)生成方式來(lái)訓(xùn)練策略,實(shí)現(xiàn)策略的泛化性。
作者發(fā)表在ICML2024上的FCNet在2023年實(shí)現(xiàn)了四足機(jī)器狗在真實(shí)世界極端地形的行走,包括過(guò)膝深的雪、結(jié)冰的河面、亂石、45度坡、樓梯等,同時(shí)有著更低的續(xù)航、更高的推理效率和更高的數(shù)據(jù)效率。
項(xiàng)目主頁(yè):https://thkkk.github.io/manibox
論文地址:https://arxiv.org/abs/2411.01850
作者其他項(xiàng)目:
PEAC:https://yingchengyang.github.io/ceurl
FCNet:https://thkkk.github.io/fcnet
RDT-1B:https://rdt-robotics.github.io/rdt-robotics/