北大具身智能新成果：無需訓(xùn)練，聽指令就能靈活走位

作者：北大前沿計算研究中心 2023-11-06 11:29:02

機器人靠的是主動與大模型構(gòu)成的“專家團隊”溝通完成指令分析、視覺感知、完成估計和決策測試等一系列視覺語言導(dǎo)航關(guān)鍵任務(wù)。

北京大學(xué)董豪團隊具身導(dǎo)航最新成果來了：

無需額外建圖和訓(xùn)練，只需說出導(dǎo)航指令，如：

Walk forward across the room and walk through the panty followed by the kitchen. Stand at the end of the kitchen

我們就能控制機器人靈活移動。

在此，機器人靠的是主動與大模型構(gòu)成的“專家團隊”溝通完成指令分析、視覺感知、完成估計和決策測試等一系列視覺語言導(dǎo)航關(guān)鍵任務(wù)。

目前項目主頁和論文都已上線，代碼即將推出：

視覺語言導(dǎo)航涉及到一系列子任務(wù)，包括指令分析，視覺感知，完成估計和決策測試。

這些關(guān)鍵任務(wù)需要不同領(lǐng)域知識，它們環(huán)環(huán)相扣決定機器人的導(dǎo)航能力。

受到現(xiàn)實中專家討論行為的啟發(fā)，北大董豪團隊提出DiscussNav導(dǎo)航系統(tǒng)。

作者首先以提示方式賦予LLM（大語言模型）和MLM（多模態(tài)大模型）專家角色和特定任務(wù)，激活它們的領(lǐng)域知識和能力，由此構(gòu)建具備不同特長的視覺導(dǎo)航專家團隊。

然后，作者設(shè)計了討論問題語料庫和討論機制，遵循該機制，由LLM驅(qū)動的導(dǎo)航機器人可以主動發(fā)起一系列與視覺導(dǎo)航專家的討論。

在每一步移動前，導(dǎo)航機器人都會與專家討論來理解人類指令中要求的動作和提及的物體標(biāo)志。

進而依據(jù)這些物體標(biāo)志的類型有傾向性地對周圍環(huán)境進行感知，指令完成情況估計，由此做出初步的移動決策。

在決策過程中，導(dǎo)航機器人會根據(jù)Chain-of-Thought（思維鏈）同時生成N個獨立的預(yù)測結(jié)果，當(dāng)這些預(yù)測結(jié)果之間不一致時，機器人會向決策測試專家求助，篩選出最終的移動決策。

從這個過程我們可以看到，相比傳統(tǒng)方法需要進行額外的預(yù)訓(xùn)練，這個方法通過與大模型專家交互指導(dǎo)機器人根據(jù)人類指令移動，直接解決了機器人導(dǎo)航訓(xùn)練數(shù)據(jù)稀缺的問題。

更進一步，正是由于這個特點，它也實現(xiàn)了零樣本能力，只要遵循以上討論流程，就能follow多樣的導(dǎo)航指令。

以下是DiscussNav在經(jīng)典的視覺語言導(dǎo)航數(shù)據(jù)集Room2Room上的表現(xiàn)。

可以看到，它顯著高于所有零樣本方法，甚至超過兩個經(jīng)過訓(xùn)練的方法。

作者進一步在Turtlebot4移動機器人上開展真實室內(nèi)場景導(dǎo)航實驗。

憑借專家角色扮演和討論激發(fā)出的大模型強大的語言和視覺泛化能力，DiscussNav在真實世界的表現(xiàn)明顯優(yōu)于之前最優(yōu)的零樣本方法和經(jīng)過預(yù)訓(xùn)練微調(diào)的方法，展現(xiàn)出良好的sim-to-real遷移能力。

通過實驗，作者進一步發(fā)現(xiàn)，DiscussNav產(chǎn)生了4個強大的能力：

1、識別開放世界物體，比如“白色桌子上的機械手臂”，“椅子上的泰迪熊”。

2、識別細(xì)粒度的導(dǎo)航標(biāo)志物體，比如“廚房柜臺上的植物”，“桌上的紙箱”。

3、糾正其它專家在討論中回復(fù)的錯誤信息，比如標(biāo)志提取專家在從導(dǎo)航動作序列提取導(dǎo)航標(biāo)志前會檢查并糾正被錯誤分解的動作序列。

4、排除不一致的移動決策，比如決策測試專家們可以根據(jù)當(dāng)前環(huán)境信息從DiscussNav預(yù)測的多個不一致的移動決策中選擇最合理的一個作為最終移動決定。

通訊作者董豪在之前的報告中提出，深入探索如何有效利用仿真數(shù)據(jù)和大模型從海量數(shù)據(jù)中學(xué)習(xí)到的先驗知識是未來具身智能研究的發(fā)展方向。

目前受限于數(shù)據(jù)規(guī)模和探索真實環(huán)境的高昂成本，具身智能研究仍將重點關(guān)注仿真平臺實驗和仿真數(shù)據(jù)訓(xùn)練。

近期大模型的進展為具身智能提供新方向，合理發(fā)掘和利用大模型中存在的語言常識和物理世界先驗將推動具身智能發(fā)展。

論文地址： https://arxiv.org/abs/2309.11382

責(zé)任編輯：張燕妮來源：量子位

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看